240 发简信
IP属地:青海
  • 120
    SimHash文档去重

    1. 首先SimHash的算法生成图如下图所示: 生成步骤如下: 对于每篇文章,选择分词作为该篇文章的特征,获取去掉噪音的词做为文档特征,为每个词赋予一个权重,该权重可以使用...