240 发简信
IP属地:浙江
  • 北大开源了中文分词工具包:准确率远超THULAC、结巴分词!

    最近,北大开源了一个中文分词工具包,它在多个分词数据集上都有非常高的分词准确率。其中广泛使用的结巴分词误差率高达 18.55% 和 20.42,...

  • Resize,w 360,h 240
    spark实现user CF

    user CF是基于相似用户的推荐方法,实现这种推荐的基本思路是:计算出相似用户得分,获取相似用户的物品集合的打分,最后两个得分相乘,得出相似用...

  • Resize,w 360,h 240
    余弦相似度

    余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦...

  • Resize,w 360,h 240
    推荐系统的推荐策略

    推荐系统的目的是为客户推荐最合适的同类产品,这些产品包括文章、商品、音乐、视频等等,这些推荐系统比较成熟的例如淘宝、京东等各种电商的推荐(掌柜精...

  • Python 字典(Dictionary) keys()方法

    Python 字典(Dictionary) keys() 函数以列表返回一个字典所有的键。 keys()方法语法: dict.keys() 参数...

  • iterrows(), iteritems(), itertuples()对dataframe进行遍历

    iterrows():将DataFrame迭代为(insex, Series)对。 itertuples():将DataFrame迭代为元祖。 ...

  • hbase整合hive

    Hbase是被设计用来做K-V查询,但有时候也会遇到基于Hbase表的复杂统计,写MR很不方便。hive考虑到这一点,提供了操作Hbase表的接...

  • Resize,w 360,h 240
    Hbase知识要点

    hbase是列式数据库,rowkey是字典序的。每个列族是一个文件,将经常一起查询的列放到同一个列族中,减少文件的寻址时间。 数据模型: row...

  • Resize,w 360,h 240
    zookeeper

    zookeeper是松散耦合的分布式系统中粗粒度锁以及可靠性存储的系统,具有保管数据、提供监听等功能,存储的容量不高,具有开源、高效的、可协同工...