自然语言不过是巨量规则的集合,机器想要百分百理解自然语言,需要能够获取世界上所有的语料,也就是每一个字,每个人发出的每一个声音,才可能做到。
原因就是,有些规则是一个特定的圈子里所使用的,而这之外就没人能理解这一条规则。
从语言类型上来说,东方把ren这个音节定义为“人”这一概念,这是一条规则,而这条规则西方并没有。而西方把音节xjumën定义为“human”这一概念,东方也没有,相互就不可理解。
但我们可以吸收他们的语料,来接受这一条规则,于是就理解了这一音节的意义。
从更小的范围来说,可能有的人不知道“离心结构”在语言学里的意义,但可以解释给他们,也就是让他们认知这一条规则来是他们理解。
圈子有大有小,过去的圈子有词“阿堵物”,现在的圈子有“哦”,身边的圈子有“你好”,遥远的圈子有“bonjour”。如果不了解每一条规则,理解自然语言就无从谈起。
那要不,我们就只研究共时的,现在的,一种自然语言?规避考古和翻译的困难。
问题仍然很大。典型的,机器应该怎么理解“哦”呢?我们可以给机器知道“哦”表示