视觉研究的前世今生(下)
王天珍§4 视觉研究的信息时代§4-1 概述50年代末Bell实验室的B. Julesz设计了随机点立体图对,发现即使没有单眼线索,只要左右眼图像有视差,实体镜下一样能产生深度感。这样引起了立体视觉理论的革命:学术界过去一直以为,只有先识别物体才能产生深度感,现在发现只要有视差,就能在实体镜下恢复深度感,不是先识别后产生立体视觉,而是立体视觉产生在识别之前。这一重大发现使得MIT 人工智能实验室的Marr 和Poggio 等想到,可以利用摄像机获得的两个有视差的图像,测量对应点之间的视差就可以恢复物体和景物的深度,从而重建并识别图像中的物体,完成视觉的任务。Marr依此建立了他的3D重建的计算视觉理论,发表在他的遗作”视觉计算理论“一书中,这本书很快风靡学术界,不但影响了计算机视觉也影响了神经生理学,神经心理学等有关的学科,复杂的视觉过程变成了可以用计算机处理的信息加工过程,视觉研究进入了一个新的时代-信息加工时代,在某种意义上在更高的层次上,重新回到笛卡儿派的数学学说。但计算机视觉理论界还没有来得及高兴,工程上巨大的计算困难,3D重建表象理论逻辑上的混乱,遮挡问题的心理物理实验研究发现的立体视觉产生不完全依赖视差的结果,神经生理学,解剖学的新发现等问题,一起使得重建理论在新世纪初渐渐退出了学术界的视野,其中90年代国际知名杂志“CVGIP:IMAGE UNDERSTANDING ”组织的两次大的讨论(1991,1994)起了很大的推进作用。但是该理论至今在心理学表象研究中还是有一定影响,计算机视觉中也还有少数人仍然在尝试有没有新的算法来挽救这种理论。由于Marr把视觉信息加工过程分成了三个阶段,提倡对视觉表像的重视,80-90年代西方学术界掀起了表象研究热。对什么是合适的视觉表像,从心理,生理,病理,计算各个学科全方位的进行了研究。除了Marr外,I biederman ,T. Poggio , S. Edelman , MJ .Tarr ,logothetics等学者,也都加入到对视觉表象的研究中。众多的模型在90年代后期开始被系统的分类,主要按照坐标系来分成两大类:一种以物体为中心,以Marr,I biederman为代表提倡这种模型;另一种以观察者为中心,以logothetics等在电生理一线工作的科学家为主,支持这种理论。 2005年被Marr等嘲笑,批评几十年的祖母细胞有了新的实验证据。在加州理工学院的RQ Quiroga,C Korch和UCLA 的I Fried ,MIT 的G Krieman,一起在癫痫病人的中颞叶用微电极发现了会对著名人物和景物发放的细胞。如对影星安妮斯登发放的细胞,这些细胞有着概念细胞的功能,不论刺激是该影星的正面,侧面,背面,不论服饰和照明,只要是有关该影星的刺激,该细胞都会放电,这些细胞被视为脑中物体的不变的视表象。虽然以Barrow为代表的一线工作的不少知名的神经生理学家,几十年用众多实验事实一贯支持祖母细胞说,但因为无法合理解释祖母细胞的工作原理,无法说明单个细胞不会引起组合爆炸问题,尤其因为Marr的批评,祖母细胞说而被长期冷落,但旧的理论完全无法解释现在的发现,Quiroga等的工作使对祖母细胞的研究重新回到了学术界的聚光灯下。1994年武汉汽车工业大学(武汉理工大学)的王天珍提出了版式并行检索算法(Plate Parallel Retrieval Hypothesis)用在汉字识别上,2001年王在IEEE的神经网络联合大会上提出可以以此算法来解释我们的神经系统是如何用单个细胞在脑中表示一个物体的,利用这种算法完全可以避免组合爆炸问题。2013年王利用接近联想法则,原则上解释了祖母细胞的信息加工机理,认为不变的视表象可能是今后视觉研究的工作方向。§4-2 Julesz 的RDSBela Julesz是Bell 实验室的匈牙利籍的计算机工程师,在处理航测数据时,他知道利用立体图对可以从伪装中很容易的发现目标。例如对英国40 年代用飞机和氢气球从两个邻近点拍摄的德国科隆莱茵河浮冰立体图中,可以看到在浮冰中挟带着有趣的深度表面,尤其是在桥的防波柱附近。但是当他读了一些心理学有关立体视觉的文献时,大吃一惊的发现,当时心理学界流行的观点是立体视觉需要先单眼识别。50年代末,刚好Bell 实验室有了大型的计算机,为了证明自己的观察(工程界的常识),他用计算机设计了有视差的随机点立体图对(RDS-random-dot stereogram),这些单眼看起来完全无序的图像到了立体镜下,就出现了设计要求的各式各样的深度图案。证实立体视觉前于识别,甚至能够改变原来的单眼图形。Julesz的工作震惊了学术界,但是文章的发表很不顺利,他投到美国光学学会会刊的文章被当时光学界的权威K Ogel 否决了。幸运的是他得到了Bell 实验室领导的支持,发在实验室的杂志上。这样一个里程碑似的计算机设计改变了立体视觉理论研究。为视觉研究打开了一扇新的门。晚年Julesz在谈到自己的工作时,说他之所以能设计RDS,是因为他是一个计算机工程师。他认为RDS的出现是两种文化的冲突,两种语言的交汇(工程和心理学),他不埋怨K Ogel。他说对于一个年轻的科学工作者来说被一个有名的学者作为学术上的对手,比有一个有力的支持者更有益。RDS很快被生物物理所的郑竺英介绍到到中国来,她与海军总院的的眼科医生彦少明合作,一起把RDS用到立体视觉的检查上,在1985年出版了国内第一本“立体视觉检查图”,成了中国特有的颜氏标准。§4-3 Marr 的视觉计算理论,3D 重建表象的前因后果§4-3-1 Marr 的视觉计算理论RDS的出现引起了立体视觉理论的革命,RDS使人们认识到立体视觉产生在识别之前,只要有视差,不需要单眼形式知觉,就能产生立体感。这一重大发现使得麻省理工大学(MIT)人工智能(AI)实验室的Marr 想到,可以利用摄像机获得的两个有视差的图像,测量对应点之间的视差,就可以恢复物体和景物的深度,从而重建并识别图像中的物体,完成视觉的任务。他提出了模型,对视觉问题进行了理论分析,但他得了白血病,在1980年35岁的英年早逝。他的同事和朋友将他的遗作整理出版,书名为“Vision:A Computational Investigation into the Human Representation and Processing of Visual Information” 翻译成中文名为”视觉计算理论“(1988,译者:姚国正,刘磊,汪云九。)Marr1945年出生在英国,毕业于剑桥三一学院,本科,硕士主修数学,博士方向是理论神经科学,毕业论文(1969-1971)关于哺乳类的脑功能。他关于小脑,海马的论述,直到30年后依然能为解剖,生理数据检验。1973年他来到MIT 的AI研究所作为访问学者,77年得到心理系的教职,80年成为终生教授。他的学术背景,使他能用数学方法去研究脑的功能。考虑到视觉研究一直被认为是了解脑功能的突破口,所以从七十年代他开始了对于视觉模型的理论研究。在视觉计算理论一书中,Marr回顾了从Lattvin的青蛙小虫侦察器,Gross 的手检测器,Barlow的神经元教义,祖母细胞等五十,六十年代生理学的研究,指出七十年代后有关研究报告中断,说明祖母细胞的不足凭信。对图像处理专家A Rosenfeld的经验法也表示了批评。提出要在更高层次,一般的考虑问题。他从信息理论的角度,确定视觉是一种信息处理过程。他认为要对这种过程分析,首先是要了解外部的景物和物体在脑内部是如何被表象(表征,representation)的。(译文在有关表象内容的翻译有些含糊,因此中文的“视觉计算理论”给理工科出身的工程计算方面的研究者带来很多困惑。按照心理学百科全书的解释,表象(征)可以理解为信息在长时记忆中的存贮方式,这样问题就比较清楚了。)他指出任一个信息处理机需要三个层次的工作:1,计算理论;2,表象和算法;3,硬件实现。他指出了即然视觉是一个信息处理问提,就可以被看作一个信息的表象问题,也是一个如何推导出这种表象的计算问题,和如何执行上述两种任务的计算机体系结构的问题。经过分析他认为视觉的任务就是从图像中得到一个完全确定的形状描述。需要三个表象阶段:(1),二维图形性质的表象,例如光强度的变化。(2)以观察者中心的坐标系中的可见表面性质的表象,其中包括表面朝向,离观察者的距离,以及朝向和距离的不连续性;表面的反射情况,以及对主要照明情况的某种粗略的描述。(3)被观察形状三维结构和组织的以物体为中心的表象,以及在这种坐标系下对物体表面性质的一些描述。全书的重点在表面性质的表象,被称为2.5维表象。计算的依据是Julesz的RDS 实验结果:只要视差不需要单眼形状识别,就能从随机点立体图对中得到物体的立体视,换言之得到物体各点上的深度。方法就是依据位置略有差别的两幅景物立体图片,找出其中对应物体特征点的视差,用简单几何的计算恢复深度。困难就在于寻找立体图中的对应点,被称为对应性问题。Marr 为此作了一些假设。唯一性,连续性,内极线等并把遮挡存在时双眼不对称区作为噪声抛弃。这本书站在哲学,心理学一般理论的高度,通过对立体视觉,神经生理学,病理学的实验结果分析入手,拿出具体的计算理论和方法,这对于多年在一线工作,而找不到一个一般理论指导,仅靠经验和试错法计算机视觉界来说,于同甘露,一时人心拯奋,以为不出十年通用的计算机视觉系统就会出现。据上海交通大学图像所的李介谷教授1992年回忆(PR AI 266-271),1984年他在加拿大蒙特里尔召开的国际模式识别会议上,不止一次地听到国外有关人士以兴奋的口气说起:“用不了五年,人们一定可以创造出类比于人类视觉的计算机视觉系统。” §4-3-2Marr 的视觉计算理论引起的计算机视觉理论之争 但是后来不论是在理论还是在实践方面,3D重建理论所碰到的麻烦是当时完全没有想到的。1988年,IEEE会刊组织了第一个有关计算机视觉的专题。其中马里南大学自控所的Rosenfeld在介绍计算机视觉的3D 模式时,就专门介绍了Marr的理论,结构框图中专门介绍2.5维表面朝向,不过他将Marr的重建归结于“形状从X”方法类。而 Rosenfeld 的同事Aloimonos就在他的视形状计算一文里,指出Marr的一般理论在实际工程中是无能的,因而在开发实际系统时用形状从X(阴影,纹理,轮廓,运动,立体视)比较现实,提出了主动视觉。但是,Aloimonos的文中还是强调要按照Marr的精神做,可见过了6年,工程学术界已经发现Marr的理论的一些问题,尤其是一线的做识别,导航,避障系统的研究人员,但此时,谁也还没有公开指责这种一般高大全的理论。在这个专题中,宾州大学计算机系系主任Ruzena Bajcsy系统介绍了主动视觉,将其作为知觉的控制策略和模型。密西根大学电机及计算机系的Q Stout 为了解视觉问题,提出匹配视觉算法到并行结构。另外,图像的并行算法也在此专题的多篇文章里被提出。而Marr 的同事和合作者T Poggio 则解释早期视觉是个病态提出的问题,都是不适定的,需要专门的算法和并行的硬件,他通过研究,引入一种特殊的正则化方法来解这个问题。1991年一月,吃够了3D重建苦头的计算机视觉界的怨气,在国际知名的杂志“CVGIP:IMAGE UNDERSTANDING”组织的第一次有关计算机视觉理论和实践的讨论中大爆发。实际工作者对当时的理论误导实际研究工作反映强烈。密西根大学电机及计算机系的Ramesh Jain 及斯坦福大学Thomas Binford写了计算机视觉中的“无知,近视及天真”一文批评计算机视觉界既缺少理论也缺少实验,过分重视用形状从X的研究上,认为像路灯下的醉鬼,和皇帝的新衣(因为交叉学科效应,大幅度的跨学科,以至一个领域的专家(计算机)会被另外领域(数学,心理学)的忽悠,发生从众效应,没有重视分割和信息的表象问题的研究。这次讨论中,马里南大学的Aloimonos和 Rosenfeld大致同意 Jain 及Binford的看法,认为Marr的重建理论对机器视觉系统来说是太高,没有必要。但是,他们为Marr的理论辩解说,理论与实践的脱节是因为计算量太大,太复杂。他们认为计算机视觉的目的是为了研究完成某一任务需要哪些视觉信息,并且如何从图像中获得这些信息,即在复杂场景中运动和识别有关物体,不必要完全恢复客观世界,换言之,需要有目的的定性视觉完成导航和识别。中国学术界迅速回应了这次讨论,1992年12月“模式识别与人工智能”杂志组织了一个对应的专题,由国内计算机界著名学者发表了一组文章,参加的有宣国荣,李介谷,吴立德,边肇祺等。这组专题认为计算机视觉几十年的工作还是有成积的,出了不少专用系统,如游泳运动员训练系统,漫步机器人,占斧式巡航导弹等。Marr的理论还是应该得到充分肯定,争论是有益的,计算机视觉要更多的面向应用。但是计算机视觉的问题并没有解决。实际工作者的批评声音越来越大,主动视觉,定性视觉,目的视觉大有取代3D重建理论之势。3D重建理论学派坐不住了,1994年七月由耶鲁大学心理系的Michale Tarr及计算机系的 Michael Black联合在CVGIP:IMAGE UNDERSTANDING发文,捍卫重建学派。引起了计算机视觉理论界第二次大专题讨论(对话),一共十一篇文章,因为关系计算机视觉各流派理论的生死存亡,也是最重要的一次讨论。第一篇文章是Michale Tarr 和 Michael Black的”对话:在视觉中表象角色的计算与演化展望“(“DIALOGUE: A Computational and Evolutionary Perspective on the Role of Representation in Vision”),文中,他们指出目的学派近来一直批评一般视觉的重建理论无成果和不实际,想以强调功能和任务的目的视觉取而代之,但是重建研究是可行的,为理解和模型人类及机器的一般目的视觉提供框架,从演化展望的视觉目的去检验,包括光流的恢复都支持这种假说。一些具体情况下,目的研究可能是合适的,但是它对人类广泛的视任务,就不足了。他们强调要理解视觉,认为视觉问题是反光学问题,本身就是病态提出的,参考和限制本身就是不可避免的,主动视觉是好的,他们也不拒绝目的视觉研究,认为他是视觉研究的一个流派但是更适合说明青蛙的行为,而不是人类,,如果目的视觉是一个一般视觉的限制版,当然更好。 早就憋了一肚子气的目的学派的Aloimonos作了回答。在我学习到什么(What I Have Learned)一文中,他首先尖锐提出,视觉是什么?他说他理解的视觉就是识别过程,是联想,解释,指导,及选择的过程,与重建没有一毛钱的关系。他批评说,Marr认为视觉是一个从给定图像中得出完全精确景物和性质的表象的过程,这是一个一般的建议,而一般只存在在理论中。而人的视觉是生物视觉的特例,而按蜜蜂视觉研究专家Horridge的观点,人和蜜蜂在视觉控制行为中没有什么不同,人类不计算光流。光流方程中,一个方程两个未知数。不加附加限制根本不可解。视觉有目的,目的就是行动。目的,定性,主动三位一体,一个回答作什么,第二怎么做,第三怎么获得数据。13篇论文中,最有意义的是Simon Edelman 的,他提出了解决的方案:没有重建的表象。他首先指出,从哲学上来说,重建的表象可以追索到Aristotle,Hume,及Berkeley,他们认为景物的表象是能够适应任何视觉任务的被表示物体的几何复制。他批评说,重建的表象,从实用主义的角度来说,是一种可怜的选择,理由有三个:第一,实际工程的计算说明从没有任何限制的真实数据中恢复简直是不可能的;其次,即使可以计算,也没有必要;第三重建的景物只有白痴才能理解。然后他给出了解决的办法,他从洛克的“人类理解论”中找到了灵感。洛克在智力表象的语义问题部分建议,一个概念能够表象(示)一个物体,不需要像Aristotle提出的在任何意义上类似该物,只要他能被该物自然可预测的激发就行。他介绍用微电极作的电生理实验发现猴MT ( Middel temporal,中颞)细胞对视域中特定物体发放。而近年D Perrett等在灵长类IT(inferotemporal cortex)上再次发现能对面孔发放的面孔诊察细胞指出面孔可能是被表征在IT。他最后提出可以在Gibson 的直接知觉和Marr的重建表象中间找一个合适的位置。由没有重建的表象在视觉理论中起关键作用。在Brook 极端的没有表象的目的视觉,和Marr没有目的的重建法式间作一个调和。整个讨论专题以主流的重建学派接纳目的学派为结束。这是从80年代来计算机视觉学术界针对主流理论最强的一次论战。他以目的学派挑战重建理论开始,从理论上找出了重建理论的致命点-重建,结束了重建理论一统天下的局面。让人不解的是,国内这次迟迟没有回应。国外这次讨论两年后,大约是96年,当笔者在华科大图像所的资料室CVGIP杂志上看到这一组讨论,在全国杂志上搜,都没有找到相关的报道。不得已,花了差不多一年时间消化这一组广泛涉及哲学,心理学,神经生理学,神经病理学,数学,计算机,通信,自动化的论文专题,写了有关的综述。开始还找不到地方发,某国内一级学报,回答说他们不搞理论,欢迎算法,软件和系统的研究。只到了98,99年有关的综述才开始得以在学校(武汉汽车工业大学,现武汉理工大学)的学报以及‘模式识别和人工智能’,“信息与控制”上发表。国内学术界回避对主流理论的批评和讨论可见一斑。Simon Edelman在2001年在为社会及行为学的国际百科全书介绍Marr的生平时说,对Marr的引证的比对他理解的多,他对理论神经生理学的影响比人们估计的更大。他的在神经生物学的主流杂志上被作为脑计算理论的创始人。Marr的学派曾经坚持特殊的视觉计算理论,认为执行视觉任务需要在系统内重建一个内部模型。现在的研究者使用在70年代还没有出现的技术和概念作研究,大量神经生物学和行为学的新发现的积累,提供了新的理论出现的基础,说明视觉并不要求几何重建。Marr的重建表象的实验基础来源于Julesz用RDS作的立体视觉实验,RDS实验说明不需要单眼形体知觉,只要有视差,就能引起深度感。Marr正是依据这一点,用立体几何的方法推出根据立体图对两幅图中对应点的视差计算该点深度的,这个方法的关键就是要从立体图对中找到同一实际点的对应点,称为对应性问题,是重建理论工程实现的中最关键问题。也就是说,Marr的表象之所以是原物的重建(复制),不仅是因为Aristotle的哲学和70-80年代计算机图论的影响,而且是因为有Julesz用RDS作的立体视觉实验,有从初看起来有可能实现的计算基础。但这一个基础被80年代末以来关于遮挡问题的研究几乎完全否定了。1,在Marr的理论中被当作噪声抛弃的单眼区,经过一代人的心理物理实验的证实是产生深度感的最重要原因,是不能被抛弃的,视差连续性条件不能满足。2,加拿大约克大学的Hiroshi Ono 和他的同事们用实验定量的测量了双眼融合时遮挡物体和背景的变化,得出了双眼融合时,由于遮挡图像的线索,视阈的一部分位移和压缩完成融合。武汉理工的王天珍提出了双眼融合时的视动反馈模型,不但将解剖上发现的两个视系统有机联合起来,也合理解释了遮挡存在时双眼融合产生立体视,竞争,或者引发复视的原因。这样Marr约束性条件中的唯一性也就不存在了;3,多伦多大学及约克大学生理学家用RDS实验发现(2003,Strabismus,11,1,9-16)脑搜索匹配图像在整个2D网膜区,而不是沿着内极线,这样Marr的信徒们提出的内极线假说也没有了实验依据。2002年的欧洲视知觉会议(ECVP‘02),举办了一个关于Marr的理论的专题讨论:标题为“MARR‘S VISION-20 YEARS AFTER”,S Ullman 作了一个回顾,他说Marr的观念,在80年代是领先的,90年代已经被2 D直接研究替代,但是他定义视觉研究的三个层次,但在一些特殊领域的经典工作仍然是有意义的。从2002年到现在,又是10 多年过去,视觉机理的研究依然还在路上,但是Marr的3D重建理论虽然已经淡出了,但是他提倡的,不能就事论事,要用表象来一般性地研究视问题,却大大推动了视觉理论研究。§4-4 视觉表象研究§4-4-1概述Marr在视觉计算一书中强调,视觉研究不能老是就事论事凭经验,用胡凑法解具体问题,需要高端大气上档次,要探索一般视觉的规律,要研究物体如何在视系统中被表象,虽然他的重建表现已经渐渐淡出,但是他提倡对视觉表象研究的重视,却被视觉理论界广泛接受。从80年代以来,不少学者对于视觉表象进行了深入的研究,著名的研究者除了Marr以外,还有Irving Biederman,Michael Tarr,NK Logothtis,T Poggio,Shimon Edelman等。通过系统的研究,学者们对什么是视觉表象,已经有了哪些模型,怎么分类,在90年代逐渐清楚起来。表象模型的分类主要是是按视觉表象坐标中心的选取来分(DI Perrett)。按此标准,表象理论分为两大类,一类是物体中心(又称为视图不变,视图独立)模型,代表人物是Marr和 Biederman。模型大部分是80年代或者更早一些时候提出,因为受CAD(计算机辅助设计,Computer Aided Design )及计算机图论(Computer Graphics)的影响认为视觉表象(视觉系统中存贮的物体信息)是物体和景物的复制,或者是有关标准基元的组合关系。最著名的是Marr的3D重建表象和Biederman用基元识别理论(RBC-Recognition by Components)。Marr的3D重建表象没有得到心理物理的实验结果支持(S Edelman,1994);基于视差的计算又被遮挡问题的研究所挑战;计算机视觉的实践也不支持,现在渐渐被淡忘。但是Biederman的识别被基元理论由于得到他本人和其他学者心理物理实验部分结果的支持,还有市场,Biederman本人也还在坚持这方面的工作。 另一种表象模型的坐标系建立在观察者处,称为观察者中心表象(视图特定),也称为视图相关模型,这样的模型,将从每一个特殊角度看到的某个物体的不同图像作为不同物体看待,从理论上讲,要求系统的内存是个天文数字,改进的办法是用几个特殊的特征视图用插值法作为计算模型的基础。这部分模型的支持者不少是从事实际实验研究的的神经生理学家,如DI Perrett,NK Logothetis,对3D重建模型持批评和改进态度的Edelman,T Poggio 也在其中。§4-4-2物体中心模型因为学术界认为物体识别就是比较感官输入信息与物体内部信息的过程,内部的表象应该能够说明一个物体的恒常性,能从改变的2D网膜图像中抽取不变的3D 结构。但是观察者中心理论将物体的每一个投射到网膜上的2D图像作为一个新的不同物体,使得存储量达到天文数字,克服这个缺点的办法就是用物体中心理论,物体中心模型系统的坐标不是以观察者为参考系的,而是以物体本身作为长轴。视觉的物体中心模型来源于一个共同的假设,认为视系统中存储的世界的表象就是物体的几何复制。主要的流派是Marr的3D重建模型和Biederman的RBC。Marr的3D重建表象前面已经介绍的很多了,这里主要简单介绍Biederman的基元识别理论(RBC-Recognition by Components)。这个理论又称为基元结构描述理论(GSD-Geon-Structural-Descriptions)。基元结构描述理论假设人类的视系统,是用原始的称为基元(geons)的体积基元间的结构关系来表示基本层的物体类的。它的关键特点是,同样物体被推出的表象就与观察点无关,只要是出现在图像中知觉特征有同样的构造。因此单个物体的表象必须包括几个特征或者质的视图,每一个组成一个不同的GSD,每一个的观察点仅仅为着一个有限范围的观察点。2007年MJ Tarr 在心理学进展(Annu. Rev. Psychol. 58:75-96)杂志上回顾从80年代来视物体识别的进展,评价Marr的模型,说他提不出实验支持,但是Biederman的RBC 因为作了实质性的改进,得到自己和其他人的心理实验支持。但是作为一个80年代基本层可行的识别模型,仅仅解释观察者如何识别基本层的物体,但无法应用到一般物体识别方面,还是不能适应时代的进步。Biederman本人一直到2014年还有文章和书出版,还在坚持自己的基元结构描述理论(GSD),认为神经生理学在猴的IT (inferior temporal cortex )和FMRI决定的人的LOC(lateral occipital complex)缺损,细胞表示的高度不变性都支持他的理论。§4-4-3观察者中心模型观察者中心表象理论考虑3D物体作为该物体2D 视图的集合。心理物理和神经生理学的实验结果基本都支持这种理论。观察者中心理论编码依赖观察者相对被识别物体的位置,观察者中心描述物体是从物体被看见的特殊观察点着眼的,因此观察者中心表象需要能从各个不同的透视图识别物体。这样的编码提出了一个问题,一个物体不同的视图可能被当作不同的物体存储,为了识别需要的2D视图就将是一个天文数字。NK Logothtis等通过大量心理物理和电生理实验,发现动物和人识别的能力(误差率和反映时)是物体网膜投影的函数,即与新视图偏离熟悉视图的角度有明显的函数关系。解决的办法是找一些分开一定角度的基本视图作为框架,利用数学插值法构建模型。NK Logothtis,T Poggio,Michael Tarr,等都是支持者。§4-5 祖母细胞-不变的视表象近代科学史上几乎没有任何概念,像“祖母细胞”一样在理论上,受到如此长期的谩骂攻击,但它反映的现象又被如此多的实验神经生理学家反复用实验证实,引起一场长达40多年的祖母细胞之争,延续至今,没有定论。一切可以追溯到1947年加拿大脑外科医生Penfield 的报告,他在报告中说他在1938年治疗癫痫病人时发现,患者过去的视听经验能被手术电极激活。此后刺激皮层时会引起过去视听经验的现象多次发生,到了60年代,已经能定位在颞叶皮层。从那时起神经外科医生,神经生理学家就注意上了颞叶,知道那儿的细胞有着特殊的再现视场景的功能。1967年经历过二战,且有过在军队里处理大量头部负伤病人经验的波兰条件反射学派的神经心理,生理学家,Jerzy Konorski 写了“脑的整合活动”一书,书中他推测脑中一些特殊的部位存在一些细胞,单个神经元能对复杂的视刺激,如:脸,手,感情表示,活动物体,地点敏感,他称之为灵性细胞(gnostic),并指出了它们分布的区域,例如,面孔区就在腹颞皮层(ventral temporal cortex)空间域在后顶皮层(posterior parietal cortex),这都为后来的行为实验和电生理实验证实。1969年MIT的神经生理学家Jerry Lettvin 在“知觉及知识的生物学基础”课堂上为了调动学生的兴趣,即兴根据有关灵性细胞的研究编了一个“母亲细胞“的故事,故事里的母亲细胞有这样的特点:第一,它们分布在脑中一定部位;第二,数量大约18000多;第三,它们只对特定的事物母亲发放,切不论显示的图像中母亲的发型,衣着,场合,照明,是正面还是侧面,这些细胞不仅对母亲的图像发放,对母亲的声音,名字也发放,有语义功能,像概念。故事中主人公脑中的母亲细胞都被切掉,因此,他失去了母亲的概念,故事中的神经外科专家只能研究祖母细胞了。这个小品立即引起年轻学生极大兴趣,故事不胫而走,“祖母细胞”很快风靡了神经生理学界,就连大名鼎鼎的英国皇家学会会员Barlow 也是这个故事的粉丝,在他的“知觉心理的神经元教义”一文中直接引用了“祖母细胞”这个概念。 其实在“祖母细胞”流行之前,就已经有不少科学家发现猴的IT 细胞对一些特定视物体发放。科学发现的路艰辛又漫长,不象一些人看见的在斯德哥尔陌领奖会上的荣耀。根据CG Gross 2007年的回顾,从65年开始,他们研究团队就发现在猴的IT 部位,一些细胞对面孔敏感,手脸检测器也相继被戏剧性地发现。他们的发现最开始登载在“科学”(1969)和“神经生理”(1972)杂志上,但是很长时间无人再理会他们,直到12年后DI Perrett 开始报告IT的面孔选择细胞。虽然年轻学生,和一线有关神经科学家们(生理学家,神经工程师,外科专家)对祖母细胞偏爱有加,但是反对的声音立刻出现。除了前面提过的计算视觉理论界的泰斗Marr 的嘲笑和批评,PDP(并行分布式处理-parallel distributed processing)理论的创始人McClelland,及其他一些心理学,神经生理学的理论界人士也纷纷著文反对祖母细胞说。祖母细胞的问题在于它的信息加工机制是不明确的,反对之声到了LH Finkel能在与Barlow为了书评争论时,公开指责他相信臭名昭著的祖母细胞(nature 1988),大名鼎鼎的Barlow只能举出Gross,Perrett Roll等同事的实验工作来回击。正如1973年Colin Blackmore 说的这一争论已经变为一场旷日持久的所谓祖母细胞问题之争。一边是一线工作的神经科学家,另一边是一些所谓的理论学家,这一争论持续了40多年,其间FMRI技术使用给了科学家们很大的帮助,神经生理学,神经解剖学,神经病理学有了长足的发展。两条视通道的假说(what,where)被证实。但是这并不能说服祖母细胞的反对者。到了2005年,Nature刊登了加州理工的RQ Quiroga,C Korch和UCLA 的I Fried ,MIT 的G Krieman的文章,报道他们如何在癫痫病人的中颞叶用微电极发现了会对著名人物和景物发放的细胞,如对影星安妮斯登,对总统克林顿,对悉尼大剧院发放的细胞。这些细胞有着概念细胞的功能,不论刺激是该影星的正面,侧面,背面,不论服饰和照明,甚至是有该影星名字的图片,只要是呈现有关该影星的视刺激,该患者的某些IT细胞就会放电。这些细胞和Lettvin故事中的祖母细胞完全一致,视图不变,且有语义功能。但是就是发现这个现象的Quiroga也不敢称这些细胞是祖母细胞。这些细胞被称为“脑中视物体的不变的视表象。Charles Connor 在评论这个研究时,说没人愿意被说成相信臭名昭著的祖母细胞,但是现在事实摆在这儿,大家不得不改变看法,但是祖母细胞只是一种稀疏编码的极限,从实验结果看来这些细胞不是关于视表象的,不是视结构的几何变换,不是编码基于视觉表观的记忆,而是编码基于概念的记忆。但是他质疑个别细胞层次能够形成这样的抽象的,记忆基于的表象。2009年Bristol 大学实验心理系的Jeffrey Bowers,在心理学回顾杂志上发文顶祖母细胞,认为祖母细胞所反映的局域模型在生物上是可行的,引起了新一轮的论战。参加的不但有神经网络的创始人之一的McClelland,还有Quiroga和他的团队。这样正常的学术争论反映一个问题,祖母细胞的信息加工机理是不清楚的,祖母细胞到底是怎样表象一个外部物体的。王天珍在2001年IEEE的国际神经网络大会上发文,根据她对视频图像的研究,提出了一个模型,解释祖母细胞是如何形成的。她首先根据对视频流的心理物理实验(口头报告法)提出物体在脑中表象的形成遵循两个法则:一个是时空连续性法则;另一个是多感官接近联想法则。通过这两个法则就能把同一个物体不同条件下的图形以至声音文字联系起来。其次,她根据她在90年代初为汉字识别提出的版式并行检索法解决了多幅图像存贮检索时天量存贮量的问题。04年她的研究小组又做了视频跟踪研究,解决了视频流中人物确定的问题,从原则上解释了祖母细胞是如何形成的。06年根据对遮挡问题的研究,她提出了视动反馈模型,将脑中两个视通道联系起来。从神经生理和神经解剖的角度解释了祖母细胞的信息加工的具体路径。
视觉研究的前世今生(五)王天珍§5 视觉研究在中国§5-1中国古时侯的视觉研究中国有史以来最早的视觉研究可以追朔到孔子。先秦郑国人列御寇(公元前450-公元前375年)著“列子”,其中“列子汤问”记载孔子东游时,看见两个小孩争辩,是中午还是早上太阳离人近?”一个说:我认为太阳刚升的时候离人近,因为像伞盖一样大,而中午远,因为看起来只有盘子大。另一个说:不对,太阳刚升时天很凉,到了中午像煮开了锅一样热。所以中午近,孔子不能回答。“这个故事不仅非常有哲理,而且在自然科学研究方面也含义深长。前面一个小孩说的有关距离知觉,至今,就是一些专家也不能回答的很周全。后一个不仅关于视觉,更主要涉及天文,气象,地理,也是个大问题。孔子专攻人际关系,社会学,不能回答很自然。但说明春秋时期,学者对视觉的思考和研究就很深入了,不会比希腊差。但是汉武帝罢黜百家独尊儒术,使得中国的自然科学研究包括视觉研究落后了。但是有关应用方面还是有不少亮点,比如眼镜的发明,一般科学史上都提到意大利,但是依据北宋沈栝(1031-1095)的梦溪笔谈,可知那时就对凸凹镜成像原理解释得很清楚,而且1260年马可波罗游记中描叙了中国老人戴着眼镜看小字的景象,因此也有人认为眼镜是从中国传到欧洲的。§5-2中国近现代视觉研究满清末年西学东渐,柏克莱的“视觉新论“也在1934年被关文运教授翻译出来,在1935年由商务印书馆出版,我个人认为这算是现代视觉研究在中国的开始。该书在57年由于批判的需要被再版,至今没有新的译本出现。该书的出版使中国学生知道了距离知觉研究的过往,了解了距离知觉产生的原因。对中国现代知觉心理学有影响。后来战事连连,直到解放后,科学院建立,视觉研究才由贝时璋主持的生物物理所和潘菽主持的心理所从新开始。贝时璋不但是科学大家也是战略科学家,他高瞻远瞩主要表现在两个方面:1,生物物理所成立时人员的选用:所成立时录用人员不拘于生物学科,使得大量不同学科的人员(物理,数学,自动化,计算机)能在同一个研究机构工作,有利于新发明,新思想产生;2,生物物理所建立时选址:生物物理所选址与心理所相邻。我去时,两所不仅相邻,而且从一所的草坪就可以直达另一所,一所的研究人员散步思考问题时就可能和另一所的研究人员交流,53年院系调整后理工科的学生不懂文科的缺陷,看来就由地理位置的优势得到了改善,生物物理本来就是交叉学科,再与心理学研究接邻,不同学科思想碰撞出成果的可能就更大,现在看来正是一步高棋。生物物理所的视觉研究组就是在这样的背景下,79年由原来由贝时璋院士亲自抓的理论组(59年,生物控制论组,仿生组)基础上成立,组长为郑竺英教授。当时正是世界上视觉研究热,经过文革的洗礼,重新成立的理论组的方向就定义为视觉研究。郑竺英是中国名教育家郑晓沧的女儿,贝时璋的关门弟子,浙大1950年生物系毕业。中国的视觉研究能有今天的水平,她功不可没。中国有句成语,“海纳百川,有容乃大,壁立千仞,无欲则刚”。用这句话来形容郑竺英教授是很合适的。1959年她担任生物物理所理论组组长,当时的目标是生物控制论,但由于时局的缘故很快改名为仿生室,下分生物原形组,数学模拟组,电子模型组。进了很多年轻人,78年后改为视觉的信息加工研究室,她担任室主任,目标视觉信息加工,最多时下设十个课题组,由于她心胸豁达,业务精湛,外语好又善于协调人际关系,能够调动各方面的力量,该室成绩斐然:1,姚国政,刘磊,汪云九翻译了Marr 的“视觉计算理论”引领了中国计算机视觉研究;2,郑竺英从80年代开始不仅将Julesz的RDS引入国内,引导了国内立体视觉的研究,而且与海军总医院的颜少明医生合作提出了立体视觉的颜氏检测标准;3王书荣鸟类峡核研究,刁云程猫视皮层细胞方向研究,郭爱克关于果蝇的研究都走在当时国内的前沿。4,吴新年关于遮挡问题的研究,吴新年研究遮挡问题时,已经退休了,副研究员。为了把Gillam 等关于遮挡问题的研究介绍进国内,他以汪与九的名义带博士生,填补了国内这方面研究的空缺,敬业和追求真理的精神令人敬佩,后来接着他对遮挡问题研究的有王天珍和中南民族大学生医所的杨仲乐。郑竺英老师除了引领了生物物理所的视觉研究,也指导了浙江大学的视觉研究,王天珍后来在遮挡问题上的研究,也是因为她的指引。视觉研究小组后来由郭爱克,刁云程负责,郭后来到上海神经所,刁生病后,视觉研究室也就慢慢地取消了,代以脑与认知研究国家实验室,负责人是陈霖院士,他因80年代坚持整体识别而著名。脑与认知研究国家实验室主要以FMRI 为实验手段研究人类的认知功能,包括视觉,其中用FMRI对成千中老年人的海马随年龄萎缩的概率统计研究,对汉字识别时脑区活动情况的研究都在国内外领先。但是现在国外对FMRI研究也有不同看法认为分辨率太低,无法精准说明视觉信息到底是如何加工的。心理所的荆其诚教授从60年代就研究年代就研究距离知觉,研究双眼辐合,87年出版了专著“人类的视觉”。对视觉研究在中国的发展起了推动作用。80年代心理所在汉字识别方面作了不少工作,汉字是表意文字,形音义结合,和拼音文字的学习机理不同,它的视知觉研究很有意义,当时有个俞柏林研究员作了很多研究工作,很有意思但英年早逝,非常可惜。北京大学心理系的系主任沈政教授养了一群猴子,用微电极实验研究IT上细胞对图形的反映,实验结果猴子的颞叶细胞对熟悉的研究员和饲养员放电。在国内一直领先。但不知他退休后工作是否还能继续?华东师范大学的郭可敬在汉字认知的信息处理方面做了很多工作。让学术界知道汉字认知和拼音文字不同,反映视觉和听觉加工脑机制的不同。在南方引领视觉研究的是复旦的生命科学院,院长寿天德教授,学术渊博,治学严谨,他原来在中国科技大学工作,后来调来复旦,研究猫关键期的视剥夺对猫的皮层脑细胞功能的影响,是中国第一本神经生理学的作者,影响很大,很多从事视觉研究的博士说,我们是读着寿老师的书入门的。著有“视觉信息处理的脑机制”等专著。计算机视觉国内影响比较大的是自动化所的马颂德老师。另外军事医学科学院的徐广第教授,64年发明的双眼合像视标解决了飞行员的高空近视,著有‘眼科屈光学“一书。而温州医学院视光学院的王光霁主编的“双眼视觉学“填补了这方面的空白。总的来说,改革开放后,视觉研究突飞猛进,但是第一流的研究并不多。自己的感受,国外对于学术争论很开放,你再有名,别人不同意你的观点,只要言之有理有椐,就可以批评,就像CVGID 90年代组织的两次大论战,言辞的尖锐,在国内是不可想象的。但是国内学术界的内耗也是外界不能理解的。有的人担任行政职务时间比较长,得罪了人,研究做得再好,院士就是上不去。有的人开始共事不错,后来为了一些事,硬是把另外人排出单位去。这二十年就更厉害,胜者为王,当了领导,人家的成绩都是他的,通吃。现在的院士有几个不是先当官后当院士。如此下去怎么能有一流的成绩出来呢?老的大师不提,现在只要多几个郑竺英,寿天德,学术研究就会更有成绩。 总算在年前赶完了,就是它了,30年的工作基本在这儿,我尽力了。不足错误肯定有,输入文字和标点符号更不用提,现在顾不得这些,先拿出来,是驴子是马先溜一溜。
页:
[1]