240 投稿
收录了19篇文章 · 7人关注
  • 浅谈中文分词与自然语言处理

    最近出于兴趣和需要,重新回顾中文分词技术,期间有些心得,以及一些关于自然语言处理的浅薄之见,这里简单分享一下。 首先,中文分词_百度百科里面简单...

  • Resize,w 360,h 240
    预训练好的词向量资源

    词向量是用来表示词的向量,通常也被认为是词的特征向量。现在已经成为自然语言处理的基础技术。词向量的好坏,会直接影响模型的实验结果,对于没有GPU...

  • OpenCC - 简体繁体转换

    最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了。这时候就知道OpenCC的强大了。哈哈,本来打算直接...

  • 如何感性地理解EM算法?

    如果使用基于最大似然估计的模型,模型中存在隐变量,就要用EM算法做参数估计。个人认为,理解EM算法背后的idea,远比看懂它的数学推导重要。id...

  • 中文机器翻译数据集

    Dataset WMT2018 AI challenger(英中翻译规模最大的口语领域英中双语对照数据集) UM-Corpus: A Large...

  • 基于距离的算法 曼哈顿,欧氏等

    曼哈顿距离 欧氏距离 标准化欧氏距离 夹角余弦 曼哈顿距离(Manhattan Distance) 曼哈顿距离是由十九世纪的赫尔曼·闵可夫斯基所...

  • torchtext安装

    使用如下命令安装torchtext

  • Resize,w 360,h 240
    Manjaro下安装使用kenlm

    kenlm是一个linux下快速轻量的语言模型训练工具。 下载 或者 安装依赖 编译安装 以上两种来源区别我也不是很清楚,没有细究。 安装Pyt...

  • 中文文本语料库整理(不定时更新2015-10-24).md

    声明:资源全部源自网络,如有侵权,请联系我将及时删除。 最近在网上找语料,多比较杂乱不全,所以这里做一次整理,方便大家。如果大家手里有可以分享的...

    1.0 gkiwi 6 34 1
  • Resize,w 360,h 240
    PageRank算法核心思想及数学支撑

    佩奇排名(PageRank),又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Goo...

    0.5 Nicky_Ye 1 12 1