240 发简信
IP属地:四川
  • 120
    Spark LDA主题模型百万文本数据训练

    前言 LDA是文本挖掘中最常用的主题模型之一,其可以理解为一篇文章有N个主题,每个主题有N个高频词汇,也可以理解为主题是一个bucket,里面装入一堆频率较高的词。本文根据搜...

  • 120
    Spark 大规模数据下基于物品协同过滤推荐

    前言 基于物品的个性化协同过滤推荐,即ItemCF ,说白了就是根据你喜欢的物品给你推荐相似的物品。不过作为推荐召回算法中的一种,也是重要的,该算法比较适合物品较少的场景,能...

  • 不知不觉中,已经写了4万字

    从2020年年初开始,就给自己定了一个目标,简书目标今年10万字,现在复盘,已经写了4万还差六万。 几乎是一个月更一万。从最开始的无从下笔,到如今,每天一千字已经不费力,我想...

  • SparkStreaming WordCount 文本分词统计之NioSocketServer

    SparkStreaming是基于spark的流计算框架,其可以实现高吞吐量的,具备容错机制的实时流数据处理。 Spark Streaming将接收到的实时流数据,按照一定时...

个人介绍
专注大数据处理,流计算,图计算,机器学习技术,对知识图谱,问答系统,推荐系统等领域比较感兴趣。