qianzhenyang - 简书

发简信

qianzhenyang

11
关注
3
粉丝
3
文章
996

字数
0

收获喜欢
0

总资产

IP属地：四川

qianzhenyang

Spark LDA主题模型百万文本数据训练
前言 LDA是文本挖掘中最常用的主题模型之一，其可以理解为一篇文章有N个主题，每个主题有N个高频词汇，也可以理解为主题是一个bucket，里面装入一堆频率较高的词。本文根据搜...

931 1 0
qianzhenyang

Spark 大规模数据下基于物品协同过滤推荐
前言基于物品的个性化协同过滤推荐，即ItemCF ，说白了就是根据你喜欢的物品给你推荐相似的物品。不过作为推荐召回算法中的一种，也是重要的，该算法比较适合物品较少的场景，能...

512 0 0

qianzhenyang

不知不觉中，已经写了4万字
从2020年年初开始，就给自己定了一个目标，简书目标今年10万字，现在复盘，已经写了4万还差六万。几乎是一个月更一万。从最开始的无从下笔，到如今，每天一千字已经不费力，我想...

画眉壳壳
11744 105 674
qianzhenyang

SparkStreaming WordCount 文本分词统计之NioSocketServer
SparkStreaming是基于spark的流计算框架，其可以实现高吞吐量的，具备容错机制的实时流数据处理。 Spark Streaming将接收到的实时流数据，按照一定时...

398 0 0
qianzhenyang

程序员
小彤花园编，96494 篇文章，1663329 人关注

如果你是程序员，或者有一颗喜欢写程序的心，喜欢分享技术干货、项目经验、程序员日常囧事等等，欢迎投稿《程序员》专题。专题主编：小彤花园 http://www.jianshu.com/users/4a4eb4feee62/ 【程序员】专题拒稿指北：http://www.jianshu.com/p/7c8b33b5f63b 投稿须知： 1.收录相关技术文章，但不限于技术，也可以是项目经验类的文章和程序员日常。 2.文章內不得有任何推广信息。包括但不限于公众号、微博、微信，更不得在通过投稿后再修改文章加入推广信息。你可以将这些推广以及个人信息放在个人主页介绍里。 3.字数极少，段落混乱，大段代码没有放到代码框的文章不收录 4.不相关的内容不收录，请确认文章内容和本专题相关目前针对优质作者及爱好者，开设了官方程序员微信群，希望加入请发简信给主编小彤花园索取个人微信，主编会将你加入到【程序员】微信群，分享内容，收获知识。添加微信时备注昵称。
qianzhenyang