Avatar notebook default
NLP
11篇文章 · 15304字 · 3人关注
  • fasttext

    详情见 http://albertxiebnu.github.io/fasttext/

  • word2vec负采样

    负采样算法 任何采样算法都应该保证频次越高的样本越容易被采样出来。基本的思路是对于长度为1的线段,根据词语的词频将其公平地分配给每个词语: co...

  • Skip-Gram 模型

    什么是Word2Vec和Embeddings? Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型,它被大量地用在自然语言处...

  • fasttext文本分类与原理

    预备知识 为了更好的理解fastText,我们先来了解一些预备知识。第一个是BoW模型,也叫做词袋模型。BoW模型(Bag of words)应...

  • LDA建模

    数据: 首先我们来看一眼数据:语料库中有9篇文档,每篇文档为1行。数据保存在文件名为16.LDA_test.txt的文本文件中。 程序: (1)...

  • word2vec与fasttext前篇

    word2vec思想 word2vec的核心是神经网络,采用 CBOW(Continuous Bag-Of-Words,即连续的词袋模型)和 S...

  • gensim训练词向量

    txt文件是已经分好词的5W条评论,训练模型只需一句话: 第一个参数是训练语料,第二个参数是小于该数的单词会被剔除,默认值为5,第三个参数是神经...

  • HMM分词

    模型 HMM的典型模型是一个五元组:StatusSet: 状态值集合ObservedSet: 观察值集合TransProbMatrix: 转移概...

  • gensim做主题模型

    我调用了结巴分词做中文处理,所以同样 手工写个文本列表 回到过程中来,将范例的语句分词 输出: 得到的分词结果构造词典 为了方便看,我给了个循环...

文集作者