汇总和计算描述统计 调用DataFrame的sum方法将会返回一个含有列小计的Series: 传入axis=1将会按行进行求和运算: NA值将会自动被排除(除非整个切片都是N...
简单之美 | Kafka+Spark Streaming+Redis实时计算整合实践http://shiyanjun.cn/archives/1097.html //我们的应...
最近一段日子,怎么在一个大的新闻候选集合(假设有10w条新闻)选出用来做 CTR 预估的小集合(假设是100条新闻)困扰我们已久,昨夜我夜观星象,突来灵感,遂有此文。 首先,...
1 背景知识 1.1 解决问题 解决HDFS不支持单条记录的快速查找和更新的问题。 1.2 适用情况 存在亿万条记录的数据库,只有千万或者百万条记录使用RDBMS更加合适 确...
在大量数据中对一些字段进行关联。 举例 ipTable:需要进行关联的几千条ip数据(70k)hist:历史数据(百亿级别) 直接join将会对所有数据进行shuffle,需...
写在前面的话:哈喽,大家早安、午安、晚安喽,欢迎大家指点,也希望我的内容可以温暖、帮助同在学习路上的人们~再次申明:本文的理论知识来自Peter Harrington的《机器...