声明:资源全部源自网络,如有侵权,请联系我将及时删除。
最近在网上找语料,多比较杂乱不全,所以这里做一次整理,方便大家。
如果大家手里有可以分享的语料资源,欢迎分享出来,我会一并整理到此文。
2015-10-24 : 初版
中文语料,我把它们分为这样几种;
1. 原始语料,比如某某新闻,微博合集,一些未经处理的原始语料;
这个是xml格式,包含很多meta
2. 分词库(语料),最常见的比如搜狗分词库,结巴词库;
这种词库比较好找,也比较杂乱,这里我整理了几个不错的,在这里:all@百度盘
此处尽量按照『文本组成@词数量_出处』格式进行文件命名,如下:
- 这里比较推荐
分词_频数_词性@35万_结巴.txt
和分词_拼音@4万_搜狗.txt
两个词库。如果你有一些比如拼音
需求,也可以选择对应文本;- 需要注意的一点是,有一个
分类_分词@12大类5485文本1127万_搜狗.20151022.tar.gz
文件,这个是搜狗细胞词库所有的词了,里面包含非常多的各行业词汇,如下图,在针对特定行业ML时候,这些分词应该是比较有帮助的,特别是带有【官方推荐】
名字的,都非常不错。
3. 词性标注库(语料),比如98年人民日报词性标注库@百度盘;
此处尽量按照『词性标注@行数量_出处』格式进行文件命名。
相较于上面两种语料,此语料人工标注成本太高,所以也比较少。目前我也只有98年人民日报词性标注库。不过网上说人民日报2014年词性标注库也已经有了,但是需要授权,我也没拿到。
需要说明的几点:
- 除了维基中文dump(比较大)是在他们服务器上,其他我都整理在了我的百度盘上了,大家自行使用。
- 对于分类1中的语料库,大家可以尝试从数据堂找到更多资源。
我的中文文本语料库百度盘:http://pan.baidu.com/s/1gdJJ1FP
update:
- 保险行业语料库 (by@3a33c371b8c4)
另:博主建了一个NLP的QQ群,希望有兴趣的朋友加入,群号: 451175756