岁月淡如水 - 简书

IP属地：上海

LDA主题模型Python源码实现

1344 0 0
使用别人训练好的词向量
结果如下：[ 3.5057108 0.23193994 0.19731355 0.61829925 1.3409204 -1.118...

2407 0 1

使用gensim 框架实现 LDA主题模型
0、原理整体过程就是：首先拿到文档集合，使用分词工具进行分词，得到词组序列；第二步为每个词语分配ID，既corpora.Dictionary；...

0.6 9650 0 10
Beta分布
Beta分布用一句话来说，beta分布可以看作一个概率的概率分布，当你不知道一个东西的具体概率是多少时，它可以给出了所有概率出现的可能性大小。...

0.2 4913 0 4
超图随机游走的关键词提取
1什么是超图？图模型很好理解，由若干条边连接定点组成的图，我们称之为图。那么什么是超图呢？超图和图最大的不同是：一条边可以连接多个定点，图1（...

1109 0 1
（转）LDA处理文档主题分布及分词、词频、tfidf计算
这篇文章主要是讲述如何通过LDA处理文本内容TXT，并计算其文档主题分布，主要是核心代码为主。其中LDA入门知识介绍参考这篇文章，包括安装及用法...

0.1 5323 0 6
文本关键词提取算法-TextRank
TextRank是一种用来做关键词提取的算法，也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的，所以首先简要介绍下Pa...

0.1 5679 0 3

TF-IDF基本概念和原理
1、TF-IDF基本概念 TF-IDF是Term Frequency - Inverse Document Frequency的缩写，即...

0.2 7002 0 1
Scrapy爬虫模拟登陆豆瓣
首先还是创建爬虫，其命令如下：模拟登陆豆瓣的关键点1、分析真实post地址，寻找formdata；2、模拟post，构造类似的formdata...

1240 1 1