前言 Spark YarnShuffleService是作为Hadoop Yarn模块中NodeManager的辅助服务寄生在其进程内部,大家都知道可以通过这个外部服务来削减...
前言 Spark YarnShuffleService是作为Hadoop Yarn模块中NodeManager的辅助服务寄生在其进程内部,大家都知道可以通过这个外部服务来削减...
动态分区 参数说明hive.exec.dynamic.partition是否开启动态分区,默认是false。如果要开启动态分区,就设置为truehive.exec.dynam...
本文基于 Spark 2.1 进行解析 前言 从 Spark 2.0 开始移除了Hash Based Shuffle,想要了解可参考Shuffle 过程,本文将讲解 Sort...
今天跟公司同事讨论了下同步异步,阻塞非阻塞,在这里做下总结,同时也发现很多同学(包括之前我)对同步异步,阻塞非阻塞的概念理解不太清晰。 之前看过一个很形象的例子来说明同步异步...
RDD的创建和保存1.1 textFile从HDFS中读取一个文本文件1.2 makeRDD、parallelize都会创建一个新的ParallelCollectionRDD...
注:这篇博客讲的是自己对Spark的初步认识和学习,可能会有错误。参考资料是厦门大学的Spark学习基础,对应网址上有关于Spark运行机制的6个视频的讲解(3.3节),更加...
场景: 读取2g大小的文件,做一些简单的处理并将保存结果,为了方便的下载我将结果数据分成2个分区,分区方式是.coalesce(2).saveAsTestFile(pat...
这里我主要是记录在Scala中使用gson.JsonParser时碰到的一些问题,假设我已经创建了一个JsonParser类,即val parser = new JsonPa...
1. Light GBM 简介 在数据挖掘和传统机器学习领域,提起大名鼎鼎的 XGBoost,相信很多人都听说过,尤其是在 Kaggle 赛场上,XGBoost 更是风光无限...
@Feng_d76c 我的理解是,在训练阶段decoder的输入output embedding这样一个向量是已知的,所以可以直接进行attention计算。但是在预测阶段,decoder输入output embedding中每一时刻的值都是根据前一时刻推出来,所以不能并行。
Transformer初识首先需要明确的是,Transformer是一个翻译模型。与之前主流的翻译模型相比,transformer的依然是一个encoder-decoder结构,改变的主要是enc...
@枯寂星空 哈哈,七界
XGBoost和LightGBM对GBDT的改进首先需要了解什么是GBDT。简单来讲,GBDT就是将多个相关性很高的基分类器结合起来的模型。模型中每次新增的基分类器都要尽可能的拟合之前所有基分类器没能拟合的残差信息,也...
哈哈,我周末白天都来公司免费吹空调的😂😂
失明症漫记昨晚八点多钟,正和我妈打着电话,只见风扇电线闪出一道火光,随后整个房间坠入黑暗之中。贫穷是万恶之源,这台电风扇本就短路过一次,强行截了一段电线缠上胶布勉强继续使用,可这次我闻...
一、抽象类 在java中抽象的关键字为abstract,抽象类被创造出来就是为了继承,简单明了地告诉用户跟编译器自己大概是长什么样子的。例如抽象类申明的语法: 抽象类有以下几...
大佐,猜猜我现在在哪?
沙漠里的七种武器你若以为沙漠只不过是一片荒芜,你就错了。你若问我,沙漠是什么呢? 那么我告诉你,沙漠是种酒,就像伏特加,听起来令人生畏,入口却不过如此,直到整瓶喝下去,忽然缓过神来,伏特加只...
本章讲的是评分预测问题,也就是如何通过已知的用户历史评分记录预测未知的用户评分记录。 评测算法 1. 平均值 取平均值作为预测结果是最简单有效的一种统计方法,取平均值...
本章主要讲了如何设计一个真实的推荐系统。前面几章都是从理论上讲述了什么是推荐系统?如何利用用户和物品的信息来设计和优化推荐算法?但推荐算法毕竟只是推荐系统的一部分,如何在...
第6章的标题是“利用社交网络数据”,为什么要用社交网络数据?答:好友的推荐对于增加用户对推荐结果的信任度非常重要。 社交网络定义了用户之间的联系,可以用图G(V,E,w...
本章主要讲了利用用户的上下文信息进行更加个性化的推荐。上下文包括用户访问推荐系统的时间、地点、心情等,本章主要是讲如何利用时间信息和地点信息优化推荐算法。用户特征和物品特...
本章主要讲的是如何利用利用用户的标签数据。推荐系统一种重要的工作方式是通过一些特征联系用户和物品,给用户推荐那些具有用户喜欢的特征的物品,而用户标签则是一种很重要的特征表...