240 发简信
IP属地:四川
  • Resize,w 360,h 240
    Spark LDA主题模型百万文本数据训练

    前言 LDA是文本挖掘中最常用的主题模型之一,其可以理解为一篇文章有N个主题,每个主题有N个高频词汇,也可以理解为主题是一个bucket,里面装...

  • Resize,w 360,h 240
    Spark 大规模数据下基于物品协同过滤推荐

    前言 基于物品的个性化协同过滤推荐,即ItemCF ,说白了就是根据你喜欢的物品给你推荐相似的物品。不过作为推荐召回算法中的一种,也是重要的,该...

  • SparkStreaming WordCount 文本分词统计之NioSocketServer

    SparkStreaming是基于spark的流计算框架,其可以实现高吞吐量的,具备容错机制的实时流数据处理。 Spark Streaming将...

个人介绍
专注大数据处理,流计算,图计算,机器学习技术,对知识图谱,问答系统,推荐系统等领域比较感兴趣。