自然语言处理 - 专题

投稿

自然语言处理

收录了19篇文章 · 7人关注

浅谈中文分词与自然语言处理
最近出于兴趣和需要，重新回顾中文分词技术，期间有些心得，以及一些关于自然语言处理的浅薄之见，这里简单分享一下。首先，中文分词_百度百科里面简单...

iamlightsmile 0 1
预训练好的词向量资源
词向量是用来表示词的向量，通常也被认为是词的特征向量。现在已经成为自然语言处理的基础技术。词向量的好坏，会直接影响模型的实验结果，对于没有GPU...

0.8 凌恒锋 1 6

OpenCC - 简体繁体转换
最近使用中文维基百科数据训练Word2Vec时，发现数据里面包含了很多繁体字，这就很尴尬了。这时候就知道OpenCC的强大了。哈哈，本来打算直接...

0.2 xiiao蜗牛 1 7
如何感性地理解EM算法？
如果使用基于最大似然估计的模型，模型中存在隐变量，就要用EM算法做参数估计。个人认为，理解EM算法背后的idea，远比看懂它的数学推导重要。id...

7.5 工程师milter 101 215 10
中文机器翻译数据集
Dataset WMT2018 AI challenger(英中翻译规模最大的口语领域英中双语对照数据集) UM-Corpus: A Large...

0.4 Quincy_baf0 0 3
基于距离的算法曼哈顿，欧氏等
曼哈顿距离欧氏距离标准化欧氏距离夹角余弦曼哈顿距离（Manhattan Distance）曼哈顿距离是由十九世纪的赫尔曼·闵可夫斯基所...

0.2 深思海数_willschang 0 6
torchtext安装
使用如下命令安装torchtext

0.3 iamlightsmile 0 6

Manjaro下安装使用kenlm
kenlm是一个linux下快速轻量的语言模型训练工具。下载或者安装依赖编译安装以上两种来源区别我也不是很清楚，没有细究。安装Pyt...

iamlightsmile 0 1
中文文本语料库整理(不定时更新2015-10-24).md
声明：资源全部源自网络，如有侵权，请联系我将及时删除。最近在网上找语料，多比较杂乱不全，所以这里做一次整理，方便大家。如果大家手里有可以分享的...

1.0 gkiwi 6 34 1
PageRank算法核心思想及数学支撑
佩奇排名（PageRank），又称网页排名、谷歌左侧排名，是一种由搜索引擎根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，以Goo...

0.5 Nicky_Ye 1 12 1