最近出于兴趣和需要,重新回顾中文分词技术,期间有些心得,以及一些关于自然语言处理的浅薄之见,这里简单分享一下。 首先,中文分词_百度百科里面简单...

收录了19篇文章 · 7人关注
最近出于兴趣和需要,重新回顾中文分词技术,期间有些心得,以及一些关于自然语言处理的浅薄之见,这里简单分享一下。 首先,中文分词_百度百科里面简单...
词向量是用来表示词的向量,通常也被认为是词的特征向量。现在已经成为自然语言处理的基础技术。词向量的好坏,会直接影响模型的实验结果,对于没有GPU...
最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了。这时候就知道OpenCC的强大了。哈哈,本来打算直接...
如果使用基于最大似然估计的模型,模型中存在隐变量,就要用EM算法做参数估计。个人认为,理解EM算法背后的idea,远比看懂它的数学推导重要。id...
Dataset WMT2018 AI challenger(英中翻译规模最大的口语领域英中双语对照数据集) UM-Corpus: A Large...
曼哈顿距离 欧氏距离 标准化欧氏距离 夹角余弦 曼哈顿距离(Manhattan Distance) 曼哈顿距离是由十九世纪的赫尔曼·闵可夫斯基所...
使用如下命令安装torchtext
kenlm是一个linux下快速轻量的语言模型训练工具。 下载 或者 安装依赖 编译安装 以上两种来源区别我也不是很清楚,没有细究。 安装Pyt...
声明:资源全部源自网络,如有侵权,请联系我将及时删除。 最近在网上找语料,多比较杂乱不全,所以这里做一次整理,方便大家。如果大家手里有可以分享的...
佩奇排名(PageRank),又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Goo...