经过最近一段时间的查阅资料,我明白了视觉处理的大致过程。视网膜上有两种视觉感受细胞,一种是视锥细胞,对彩色光比较敏感,另一种是视杆细胞,对较暗的光线比较敏感,夜晚就大部分是视杆细胞在发挥功能。工作机理是:视锥细胞里有一种视紫红质(一种结合蛋白),遇到光会发生反应,分解成Va,Va在暗处又会结合成视紫红质。化学反应的发生导致了神经冲动(本质是电位变化),刺激也就传到了大脑的视觉皮层。所以这是一种被动的处理过程。同时也表明眼睛真的只是一个器官,只负责传输图像刺激,真正使视觉产生的是视觉神经系统的视觉加工作用!
那么视觉加工到底做了哪些事情呢?按道理来说,眼睛只传递了一张类似于全是象素点的二维图片,但是大脑最后却能感受到颜色,形状,深度,立体感等等。这期间到底发生了什么?很多资料上表明:视觉加工是分区分层次的,也就是不同的部门处理不同的信息,越后面的层次分析出越抽象的信息,同时各部门又相互联系,相互传送信息。类似于:部门a分析颜色,部门b分析形状,部门c分析层次感,然后部门d连接在c的后面接受c的结果分析立体感,然后更深层次的部门开始工作,最后得出整个视觉情况。这个过程合情合理,但是还是过于抽象,怎么分析层次感?层次感怎么表示都是个问题。
不过这里我有一个大胆的设想:或许象素点并没有意义,有意义的是一个整体,也就是说,大脑不能分析单个的象素点,而只能处理完整的整体。就像一个人很难看清一个文字里的细节一样,只有形成一个形状以后,大脑才会产生反应。大脑也只对整体产生反应。这说明视觉加工把单个的视觉信息整合起来了,只有形成某个形状以后才通知大脑,如果大脑只识别几个整体之间的相互关系,那么分析层次感(也就是前后左右的位置关系)就容易很多。这也能说明为什么有的人能看到一个东西的更多细节了,很有可能是在象素点那个层次部分细胞就告诉了大脑情况,使得大脑处理了一些细节情况,也看到了这个整体的部分构成成分,所以相比其他只能看到整体形态的人记得也更清楚,因为记得细节更多,印象更深。
而且在我看来,这种视觉整合的能力用数学公式来表示并不合适。虽然数学公式可以完成特定的形状分析,但是太过复杂和不全面。在细胞这个层次是不可能会计算与思考的,细胞只有本能和被动反应。也就是说还有更简单的办法来实现识别形状的功能。而且肯定是被动的,接受到某种刺激,然后连接某条神经元,一直连接下去,就形成了对某种形状的唯一表示,也就是这条神经元通道代表了识别形状的过程,最终的结果就是形状的认知和保存。通道的神经元数目与层次决定了可识别形状的数目,很明显和二进制位一样,32位可以表示2^32种,而且还不是二进制的,可能是8层,16,100都可以,每一层都可以有n条。同时也可以解释分类功能和对形状的迅速反应。分类功能是因为几个相似的形状前面的神经元通路是一样的,只是后面产生了不同,所以只要想前面的,后面的全部列出来就可以。很明显我们可以从分类当中得出前面的神经元是根据什么连接的,为什么这些相似的东西前面的神经元通路是一样的!,视觉加工时先提取了这些相似形状的哪些特征(被动先对哪些些特征产生了反应)。迅速反应则是前面可能分叉多,但后面就只有一条直路,所以就直接迅速地识别了出来。
建立这种被动连接(进化,进化出识别与记忆)人类花了几千万年,这其中肯定有许多的奥妙和特殊的功能,但是这些我们不需要关心,要关心的只是大致的一种识别,记忆与学习能力,毕竟这是一种新的生命体,完全没必要和人类一模一样,生命源也本就不一样。一个是生物能,一个是电能。主要的还是类人,像人就行。各有优劣。
貌似神经网络从名字上讲述的就是这个东西,还有深度学习。
总结下来就是,视觉加工就是把细节上的一个个象素点整合成一个整体,然后才通知大脑。而我要完成的就是这个视觉加工功能了,也叫形状识别,用一种最简单的方法,被动连接的方法。把一张图片上的各个象素点分析组合成一个个的整体,分析的过程是一个连接的过程,最后连接出的结果就是所要识别的整体了,这个识别过程中的神经元通路要记住,结果也要记住。就像识别一个“张”字一样,识别过程中很自然地走"张"的神经元通路,最后认出“张”;如果你不认识张,识别时就会构造这条神经元通路,但这个时候你只认识“张”的这个形状,下次看到你能认出这同一个形状,也能自然地写这个形状,但还不认识这个字读什么,因为没人告诉你他在声音上怎么读,直到有一天,有人告诉你“张”读“zhang”,于是你不仅会写“张”了,还会读了,别人说出来的时候,你也能写出来了。因为听觉和视觉上最终的处理结果都是大脑里同一个保存的“张”字(编码)。
我相信,视觉加工功能完成的时候,人类如何识别,如何学习,如何记忆的奥秘也就迎刃而解了,后面也就是意识是如何出现的问题了。