中文语料库

中文自然语言处理开放平台


由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试语料。 

语料库:http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15 

文本语料库:http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15

sogou文本分类语料库

文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。

地址:http://www.sogou.com/labs/dl/c.html

中文Web信息检索论坛

中文Web信息检索论坛(Chinese Web Information Retrieval Forum,简称CWIRF)是由北京大学网络实验室从2004年6月起建立并维护的以大规模中文Web信息为测试集的信息检索研究论坛。

CWT(Chinese Web Test collection, 中文Web测试集):

ComPaper10th 

Computer Paper collection with more than 10 thousand papers 

CWT70th 

     Chinese Web Test collection with 70 thousand pages 

     CWT70th顺序读取程序 

CWT200g 

     Chinese Web Test collection with 200 GB web pages. 

     CWT20g_of_200g 

     CWT200g样例下载 

     CWT200g顺序读取程序

CWT相关工具 

中文网页分类训练集

CCT2006

2006年3月中文网页分类训练集CCT2006, 编号YQ-CCT-2006-03. 根据常见的新闻类别而设定的分类体系,从新闻网站上抓取得到对应 类别的新闻网页作为训练集页面。它包括960个训练网页和240个测试网页, 分布在8个类别中。下载 

CCT2002-v1.1

2002年中文网页分类训练集CCT2002-v1.1, 编号YQ-WEBBENCH-V1.1,说明。 是在CCT2002-v1.0 的基础上对类别进行了部分修正. 是2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生, 人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。 它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。下载

-----------------------

一、语料库链接

下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。

(1).中科院自动化所的中英文新闻语料库http://www.datatang.com/data/13484

中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。

(2).搜狗的中文新闻语料库http://www.sogou.com/labs/dl/c.html

包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。

(3).李荣陆老师的中文语料库http://www.datatang.com/data/11968

压缩后有240M大小

(4).谭松波老师的中文文本分类语料http://www.datatang.com/data/11970

不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。这个网址免积分(谭松波老师的主页):http://www.searchforum.org.cn/tansongbo/corpus1.php

(5).网易分类文本数据http://www.datatang.com/data/11965

包含运动、汽车等六大类的4000条文本数据。

(6).中文文本分类语料http://www.datatang.com/data/11963

包含Arts、Literature等类别的语料文本。

(7).更全的搜狗文本分类语料http://www.sogou.com/labs/dl/c.html

搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载

(8).2002年中文网页分类训练集http://www.datatang.com/data/15021

2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。

————————————————————————————————————————————————

二、有效的分词工具

将预料库进行分词并去掉停用词,可以使用的分词工具有:

StandardAnalyzer(中英文)、ChineseAnalyzer(中文)、CJKAnalyzer(中英文)、IKAnalyzer(中英文,兼容韩文,日文)、paoding(中文)、MMAnalyzer(中英文)、MMSeg4j(中英文)、imdict(中英文)、NLTK(中英文)、Jieba(中英文),这几种分词工具的区别,可以参加:http://blog.csdn.net/wauwa/article/details/7865526。






(一) 国家语委 

1国家语委现代汉语语料库http://www.cncorpus.org/ 

现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

2古代汉语语料库http://www.cncorpus.org/login.aspx 

网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

(二) 北京大学计算语言学研究所 

1《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/ 

《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。

(三) 北京语言大学

汉语国际教育技术研发中心:HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp 

语言研究所:北京口语语料查询系统(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

(四)台湾中央研究院 

中研院语料库WWW版所有功能均开放使用,但为防主机资源耗用过剧及顾及数据传输之实际限制,暂以检索结果为限制的条件:院内检索限两万行数据,院外检索限两千行数据。 

1现代汉语平衡语料库http://www.sinica.edu.tw/SinicaCorpus/ 

专 门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性 的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

2古汉语语料库http://www.sinica.edu.tw/ftms-bin/ftmsw 

古汉语语料库包含以下五个语料库: 上古汉语、中古汉语(含大藏经)、近代汉语、其他、出土文献。部分数据取自史语所汉籍全文数据库,故两者间略有重迭。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。

3近代汉语标记语料库http://www.sinica.edu.tw/Early_Mandarin/

4树图数据库http://treebank.sinica.edu.tw/ 

「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經由電腦剖析成結構樹,並加以人工修正、檢驗後所得的成果。在中文句結構樹中,我們標示了中文句語意和語法的訊息。此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放下載。

5中英双语知识本体词网http://bow.sinica.edu.tw/ 

结合词网,知识本体,与领域标记的词汇知识库。

6搜文解字http://words.sinica.edu.tw/ 

包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。

7文国寻宝记http://www.sinica.edu.tw/wen/ 

在搜文解字的基础之上,以华语文学习者为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合,与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。

8唐诗三百首http://cls.admin.yzu.edu.tw/300/ 

以 国中、小学学生为主要使用对象,提供吟唱、绘画、书法等多媒体数据,文字数据报含作者生平、读音标注、翻译、批注、评注、典故出处等资料;检索点包含作 者、诗题、诗句、综合资料、体裁分类等;检索结果可以列出全文,并选择标示相关之文字及多媒体数据。并提供了一套可以自动检查格律、韵脚、批改的「依韵入 诗格律自动检测索引教学系统」,协助孩子们依韵作诗,协助教师批改习作。

9汉籍电子文献http://www.sinica.edu.tw/~tdbproj/handy1/ 

包含整部25史 整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

10红楼梦网络教学研究数据中心http://cls.hs.yzu.edu.tw/HLM/home.htm 

元智大学中国文学网络系统研究室所开发的「网络展书读—中国文学网络系统」,为研究中心负责人罗凤珠老师主持,红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。

(五)中国传媒大学 

1中国传媒大学文本语料库检索系统 

http://ling.cuc.edu.cn/RawPub/

2在线分词标注系统 

http://ling.cuc.edu.cn/cucseg/

3新词语研究资源库 

http://ling.cuc.edu.cn/newword/web/index.asp

4音视频语料检索系统 

http://ling.cuc.edu.cn/mmcpub(目前系统正在升级改造中)

(六)哈尔滨工业大学 

1哈工大信息检索研究室对外共享语料库资源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm 

该语料库为汉英双语语料库,10万对齐双语句对,文本文件格式,同义词词林扩展版,77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库,40个主题,文本文件格式,同一主题下是同一事件的不同报道,汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。

(七)清华大学 

汉语均衡语料库TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)

(八)香港教育学院 

语言资讯科学中心及其语料库实验室http://www.livac.org/index.php?lang=sc 

自1995年开始,以「共时」方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共时语料库。 本语料库最大特点是采用「共时性」视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了「历时性」,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。

(九)中国科学院计算技术研究所 

跨语言语料库http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升级) 

目前的双语句对数据库中有约180,000对已对齐的中英文句子。 本数据库支持简单的中英文查询服务。 查询结果包括句对编号、中文句子、英文句子、句对来源。

(十)中文语言资源联盟 

中文语言资源联盟http://www.chineseldc.org/ 

(Chinese Linguistic Data Consortium,简称ChineseLDC)的建立。ChineseLDC是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC 将建设和收集中文信息处理所需要的各种语言资源,包括词典,语料库,数据,工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。(之所以排名这么后,是因为是国家出钱的项目,却没有什么免费资源)

【网站】 

语料库在线 http://www.cncorpus.org/ 

现代汉语语料库 http://ccl.pku.edu.cn/corpus.asp?item=1 

古代汉语语料库 http://ccl.pku.edu.cn/corpus.asp?item=2 

汉英双语语料库 http://ccl.pku.edu.cn/corpus.asp?item=3 

HSK动态作文语料库 http://202.112.195.192:8060/hsk/login.asp 

北京口语语料查询系统 http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp 

现代汉语平衡语料库 http://rocling.iis.sinica.edu.tw/new/20corpus.htm 

LIVAC共時語料庫 http://www.livac.org/index.php 

兰开斯特汉语语料库 http://ling.cass.cn/dangdai/LCMC/LCMC.htm 

洛杉矶加州大学汉语语料库 http://www.lancs.ac.uk/fass/projects/corpus/UCLA/ 

中文新闻分类语料库 http://www.nlpir.org/?action-viewnews-itemid-145 

NLPIR 500万条twitter内容语料库 http://www.nlpir.org/?action-viewnews-itemid-263 

NLPIR微博博主语料库100万条 http://www.nlpir.org/?action-viewnews-itemid-232 

現代漢語語料庫詞頻統計 http://elearning.ling.sinica.edu.tw/CWordfreq.html 

欢迎关注新浪微博【对外汉语北京】 

中文句結構樹資料庫 http://turing.iis.sinica.edu.tw/treesearch/ 

搜狗文本分类语料库 http://www.sogou.com/labs/dl/c.html 

哈工大信息检索研究室对外共享语料库 http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm 

传媒大学文本语料库 http://ling.cuc.edu.cn/RawPub/ 

词语研究资源库 对外汉语北京 http://ling.cuc.edu.cn/newword/web/index.asp 

BFSU CQPweb多语言在线语料库检索平台 http://www.iresearch.ac.cn/paper/detail.php?ItemID=6358 

英汉双语平行语料库 http://www.luweixmu.com/ec-corpus/ 

babel 汉英平行语料库 http://icl.pku.edu.cn/icl_groups/parallel/default.htm 

中国法律法规汉英平行语料库(大陆) http://corpus.zscas.edu.cn/lawcorpus1/index.asp 

国家语言资源监测与研究中心 http://www.clr.org.cn/ 

British National Corpus http://www.natcorp.ox.ac.uk/

以下资源来自中国自然语言开源组织:http://www.nlpcn.org/ 

Google《纽约时报》标注数据集 

Google公布了一个《纽约时报》标注数据集: http://t.cn/RPsjAyl 训练集包括100,834文件,19,261,118标注实体。 测试集合包括9,706文件,187,080标注实体。Google Code项目链接: http://t.cn/RPsjAyl

360万中文词库包含,词性,词频 

来源:互联网。共有词条3669276个。统计了每个词条的词频以及词性信息。尽请down。。 下载地址:http://pan.baidu.com/s/1gdBtsTP 提取码:7s4j 

1-billion-word-language-modeling-benchmark 1.67G 

1-billion-word-language-modeling-benchmark-r13output.tar 语言模型词语搭配语料 链接: http://pan.baidu.com/s/1o6jZOtc 密码: x4sb

某购物网站6w多的商品数据。链接: http://pan.baidu.com/s/1o6DgcNS 密码: vi4l 包括商品名称价钱。以及图片链接地址分类id

内容自网络,如有侵权,请联系。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335