NLP - 文集 - 简书

NLP

11篇文章 · 15304字 · 3人关注

fasttext
详情见 http://albertxiebnu.github.io/fasttext/

0.1 467 0 0
word2vec负采样
负采样算法任何采样算法都应该保证频次越高的样本越容易被采样出来。基本的思路是对于长度为1的线段，根据词语的词频将其公平地分配给每个词语： co...

1177 0 0

Skip-Gram 模型
什么是Word2Vec和Embeddings？ Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处...

1055 2 0
fasttext文本分类与原理
预备知识为了更好的理解fastText，我们先来了解一些预备知识。第一个是BoW模型，也叫做词袋模型。BoW模型（Bag of words）应...

1.7 17810 1 24
LDA建模
数据：首先我们来看一眼数据：语料库中有9篇文档，每篇文档为1行。数据保存在文件名为16.LDA_test.txt的文本文件中。程序：（1）...

0.1 526 0 0
word2vec与fasttext前篇
word2vec思想 word2vec的核心是神经网络，采用 CBOW（Continuous Bag-Of-Words，即连续的词袋模型）和 S...

0.4 3689 0 4
gensim训练词向量
txt文件是已经分好词的5W条评论，训练模型只需一句话：第一个参数是训练语料，第二个参数是小于该数的单词会被剔除，默认值为5,第三个参数是神经...

2934 0 3

HMM分词
模型 HMM的典型模型是一个五元组:StatusSet: 状态值集合ObservedSet: 观察值集合TransProbMatrix: 转移概...

397 0 0
gensim做主题模型
我调用了结巴分词做中文处理，所以同样手工写个文本列表回到过程中来，将范例的语句分词输出：得到的分词结果构造词典为了方便看，我给了个循环...

597 0 0