学习英语就是把大量的正确使用的数据输入分析。
今天借助计算机领域里的一些概念,总结一种基于数据驱动的英语学习思路。
传统上,我们在学英语的时候,老师都是给你讲语法结构,从主谓宾开始然后以此展开加上定状补。于是他们会告诉你,这个单项选择,应该要有一个状语,所以选择C;然后下次你要使用英语的时候,于是你想要先有个主语再有个谓语,然后我要填一个定语……当然要用英语吵架的时候你就蒙了,因为不知道要用什么时态。
这样做其实也没有问题,有许多人通过这个方式也学好了英语。但是按照计算机视角的理解而言,这是一种基于规则的驱动。也就是老师告诉你一组规则,然后你通过这些规则来引导你的学习,于是你需要在学习时想到这里有什么规则,然后针对你要用的词,来适配这条规则。
但是我个人却认为,自然语言的演化发展,来自于语言使用者的集体演进,而这是一个复杂的过程。而正因为其复杂,其中的很多规则,其实是后验归纳的。
什么叫后验归纳?就是在看到现象以后去总结原因。比如许多混迹在互联网上的讲师就是后验式的,他们看哪家公司成功了,就去以哪家公司的名义,开发一系列课程,并且美其名创业成功的XXX条铁律……但是这不妨碍他们仍然只是一家培训公司……
后验的一个问题就是,归纳的规则有时候不是很完备,于是你就会看到一条规则下面有123456条特例。其实英语语法就是这样的,这大概是为什么你一直看不下去的原因。因为当特例足够多的时候,规则的价值,就没有想象的那么大了。
今天说的是基于数据驱动的学习思路。规则其实是一种抽象,而要能理解抽象,就必须要有具象的积累和基础。
而计算机里,数据驱动的意思是,在模型建立起来之前,我先积累到足够多的样本案例,然后基于这些样本案例的学习,自行产生规则。通过这些规则,再对新的数据进行判定处理,再基于这些反馈,进一步优化规则。
有一点抽象。换成通俗地话就是,学习英语就是把大量的正确使用的数据输入分析即可。什么叫大量正确使用的数据?就是通过持续地练习,接触到足够多的样本,做足够深度的分析,确保足够充分的吸收。
我觉得如果一位学习者,能做到这一点,扎扎实实地推进自己的学习,英语的进步其实是很快的事情。而且像所谓的语法,词汇的问题,也从来不会是问题。
我就问你一个问题,英语是先有上帝设计了几条规则然后再产生了这门语言,还是一堆人用用用到最后大家都知道这些词是什么意思,于是有人总结下来形成了语言现象?
先定规则再生产语言的事情,计算机科学家不是没有做,只是现在做的还是不够好。不然哪一天我的公众号的文章也是用代码生成的话,那其实我倒可以省事很多……
当我们输入的数据量足够大的时候,我们的大脑还是会发挥一些作用的,而这个时候,你的语感什么的都来了。于是你再用语言的时候,你可以很轻松搞出正确的话来,因为你有积累过。
那,既然如此,为什么老师会倾向于从语法讲起呢?因为这样讲明确、简单、朴素、省事啊……
我就举一个例子。垃圾邮件的识别,在以前会手工加规则,如果标题含有“广告”判垃圾;如果含有XXX,就通过……这些规则都太笨,后面人们用统计模型的方式,收集了一堆的垃圾邮件做分词,然后通过贝叶斯来算概率,而到这个时候,你根本不需要知道是哪个因为所以,因为通过数据,有了模型出来,而这大概就是英语里面说的语感。
但是这必须要是你自己的语感,不是别人的语感……