240 发简信
IP属地:上海
  • 使用别人训练好的词向量

    结果如下:[ 3.5057108 0.23193994 0.19731355 0.61829925 1.3409204 -1.118...

  • Resize,w 360,h 240
    使用gensim 框架 实现 LDA主题模型

    0、原理 整体过程就是:首先拿到文档集合,使用分词工具进行分词,得到词组序列;第二步为每个词语分配ID,既corpora.Dictionary;...

    0.6 9598 0 10
  • Resize,w 360,h 240
    Beta分布

    Beta分布 用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。...

  • Resize,w 360,h 240
    超图随机游走的关键词提取

    1什么是超图? 图模型很好理解,由若干条边连接定点组成的图,我们称之为图。那么什么是超图呢?超图和图最大的不同是:一条边可以连接多个定点,图1(...

  • Resize,w 360,h 240
    (转)LDA处理文档主题分布及分词、词频、tfidf计算

    这篇文章主要是讲述如何通过LDA处理文本内容TXT,并计算其文档主题分布,主要是核心代码为主。其中LDA入门知识介绍参考这篇文章,包括安装及用法...

  • 文本关键词提取算法-TextRank

    TextRank是一种用来做关键词提取的算法,也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的,所以首先简要介绍下Pa...

  • TF-IDF基本概念和原理

    1、TF-IDF基本概念 TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即...

  • Resize,w 360,h 240
    Scrapy爬虫模拟登陆豆瓣

    首先还是创建爬虫,其命令如下: 模拟登陆豆瓣的关键点1、分析真实post地址,寻找formdata;2、模拟post,构造类似的formdata...