干货|NLP领域中文vs英文有什么异同点，中文NLP有什么独特的地方?

文章来源：知乎作者：刘知远、李嫣然

刘知远关于NLP的精彩回答

从实用文本分析技术而言，如果只做主题聚类、文本分类等任务的话，中英文最大差别就在于，中文需要做自动分词，相关工具包已经很多了，包括题主提到的Jieba，还有哈工大的LTP，北理工的ICTCLAS，还有我们组研制的THULAC。当然，在文本分类时，到底是选词还是Ngram作为特征，在SVM+BOW时代曾是个问题。进入到深度学习时代，就直接可以用基于字的神经网络模型了。

从NLP研究角度而言，中英文在词性标注、句法分析等任务上颇有差异。主要体现在英语有明显的屈折变化（单复数、时态等）而汉语缺少这些屈折变化，亦即有学者总结的“汉语重义合，英语重形合”。所以，英语里一个词被标为动词还是名词，没有太多争议；汉语里一个词应该被标为动词还是名词，例如“热爱学习”、“劳动光荣”中的“学习”、“劳动”如果按照英文语法规范应当标注为名词。著名语言学家沈家煊先生就曾提出“汉语动词和名词不分立”的理论。在句法分析层面汉语也有一些自己的特点，具体需要请教专业的语言学家解答了。

从更广阔的语言研究角度而言，我觉得中英由于各自承载了两种截然不同的人类群体的文化信息，所以在更深层的文化内涵会有更明显的分野，例如两种语言的词汇联想网络、隐喻风格等，可能会有更大的不同。也许在NLP技术日渐成熟之后，我们可以透过语言更加定量地分析两种不同文化的差异。在这方面我非常感兴趣，期待更多专家指点交流。

伴随着估值持续走高，Uber吸引了越来越多的投资者。Uber在从一家轿车服务公司成长为庞大的物流公司的同时，与诸多对手及监管机构进行着抗争，并旨在未来拿下无人驾驶汽车行业。它随时面对着自出租车行业甚至来自公司自己司机的种种威胁。伴随着估值持续走高，Uber吸引了越来越多的投资者。Uber在从一家轿车服务公司成长为庞大的物流公司的同时，与诸多对手及监管机构进行着抗争，并旨在未来拿下无人驾驶汽车行业。它随时面对着自出租车行业甚至来自公司自己司机的种种威胁。

李嫣然关于NLP在中文vs英文的精彩回答

说一点点个人做过的工作和觉得中文有趣以及不同的地方：

1. 中文是象形文字（logograms）——注：这句不严谨，现在大多数汉字都是形声字，一部分 component 提供语义，一部分提供发音；这句话主要是想说提供语义的那些 components 和最初甲骨文很多是象形。就像英语有一些前缀后缀词根一样，中文也有这样类似的语义相关的语素——偏旁部首。偏旁部首是两个不同的东西，可以粗略地认为，部首（radical）是最主要的偏旁（components）。比如大家都知道，三点水的字多数和河流和水有关系等等。

2. 所以很自然的一个想法就是像英文那些利用 subunits（前缀后缀词根）的研究工作一样，把中文的偏旁部首加进来提供额外的信息。

3. 更疯狂的一个想法是，像甲骨文时代一样，很多字本身的含义就是由多个偏旁的含义“组合”在一起的；而很多词的含义又是由组成的单个字的含义拼接在一起的。

由上述2和3的思想的驱动，我们过去做过一个工作：

Yanran Li, Wenjie Li, Fei Sun, and Sujian Li. Component-Enhanced Chinese Character Embeddings. Proceedings of EMNLP, 2015. [pdf] [bib]（https://link.zhihu.com/?target=http%3A//yanran.li/files/emnlp2015comp.pdf）是一个比较简单的工作，直接将 components 信息和字本身拼接在一起，作为 Word2Vec 模型的输入。这个工作后来还被改进到了很多更复杂的模型，得到了更好的一些结果[1][2]。同时，同期也有来自哈工大的研究团队发表了相似的研究成果[3]。这里值得一提的一点是，我们做的还是基于字级别的建模，并不是基于词的。虽然中文分词几乎被认为是标配，但是其实字级别的建模对于很多罕见词等等还是比较有帮助的，这个在后来和一些公司的交流中发现他们线上的一些模型也是字词结合的。但是在做这个工作的过程中，遇到了一些阻碍或者说可能未来继续的方向。一些也许也有意思的研究是：

4. 英文里，character-level 的一些相关建模和研究，比如 character-level LM[4][5] 都表现得效果不错。但是当时是觉得，英文的26个字母本身是没有任何含义的，所以如果把中文“下降”到偏旁部首这种有语义含义的级别，应该效果会很不错。然而效果只是轻微得好。这其中受限于：(1) 偏旁部首在汉字演化中改变非常大，不仅是形态，还有含义。尽管我们在做工作过程中进行了一些映射处理，但只是沧海一粟吧；(2)中文有时候也有非象形字，比如象声字，怎么识别和区分或者结合这两种字的建模也是个问题。

5. 就像刚才说的，我们希望中文多个字结合出来的词，也是有语义的。但是很多时候俩字结合出来意思就和单独俩字完全不一样了，这在英语里也比较少见。比如“美丽”，本身这俩字都是好看的意思，结合起来还是好看的意思。但是比如“东西”，这俩字明明是俩方位词，结合在一起就变成一种笼统的物体了。这种词义结合后的转变，其实应该可以用一些 NLP 的技术识别出来，并做一些有意思的研究。这个是我暂时还没进行下去但比较有兴趣的方向。

6. 在我本科的时候，学过一点点脑认知。当时有一些关于人脑到底是如何把文字和语义联系起来的研究，比如著名的格式塔理论等等。所以从最原始的出发点，我觉得现在的 NLP 技术也可以往这个方向探究一下。最近收到了一个心理测评机构的合作邀请，希望一起探究下中文字符认知的一些问题。超级开心啊！（感觉多少做了个有趣和有点意义的研究……QAQ

References:

[1] Jian Xu, Jiawei Liu, Liangang Zhang, Zhengyu Li, Huanhuan Chen. "Improve Chinese Word Embeddings by Exploiting Internal Structure". NAACL 2016.

[2] Rongchao Yin, Quan Wang, Rui Li, Peng Li, Bin Wang. "Multi-Granularity Chinese Word Embedding". EMNLP 2016.

[3] Yaming Sun, Lei Lin, Duyu Tang, Nan Yang, Zhenzhou Ji, Xiaolong Wang. "Radical-Enhanced Chinese Character Embedding". arXiv preprint 2014.

[4] Yoon Kim, Yacine Jernite, David Sontag, Alexander M. Rush. "Character-Aware Neural Language Models". AAAI 2016.

[5] Xiang Zhang, Junbo Zhao, Yann LeCun. "Character-level Convolutional Networks for Text Classification". NIPS 2015.

最后编辑于：2017.12.07 03:24:47

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

干货|NLP领域中文vs英文有什么异同点，中文NLP有什么独特的地方?

推荐阅读更多精彩内容