1.选择语料库
这个是我项目私人的语料库
具体操作方法就是把所有要处理的文字放到一个文件里,标点符号什么的可以等在分词的时候逐行处理,反正要逐行分词~
如图:
只能窥探一角~
2.分词处理
分词工具我选择的是jieba
项目地址:https://github.com/fxsjy/jieba
这上面的文档齐全,足够
1)安装jieba:
看到网站上“全自动”安装几个大字了吧~安装好之后测试效果:
2)自定义词典
参考官方解释:https://github.com/fxsjy/jieba/blob/master/test/userdict.txt
我的语料库是体育相关的,所以很多词汇jieba里面是没有的,所以要添加自定义词典,把新词加进去。
看他的官方解释,如果你想让你自定义的词必须一定要被分出来,可以把最后一列的值调的很大,例如2000
我的词典如下:
添加了一些自定义的词
3)编写分词代码
逐行进行分词,并且处理标点符号以及停用词等。
代码放上来:
可以看到我把分词结果保存到了一个txt文件当中。
注意:我这里写的有问题,不要把换行符处理掉, word2vec 把一个单词的前面和后面的k个单词作为context训练, 其中会自动把换行符替换成 ,也就是句子分隔符。
ok,前期工作处理结束,下面进行word2vec训练,轻松愉快~