当前位置: 首页 > 期刊 > 《眼视光学杂志》 > 1999年第4期
编号:10277479
立体视觉机制的研究进展
http://www.100md.com 《眼视光学杂志》 1999年第4期
     作者:黄欣 胡聪 金贵昌

    单位:上海医科大学附属眼耳鼻喉医院眼(黄欣);青岛医学院附属医院眼科(胡聪);中国科学院北京生物物理研究所(金贵昌)

    关键词:

    眼视光学杂志990425 1838年Wheatstone发明了立体镜使人看到了深度景观并发现了双眼视差,从而揭开了双眼的奥秘,自此开拓了一个崭新的空间视觉研究领域。一个半多世纪以来,立体视觉研究一直是一个十分活跃的领域,60年代双眼驱动细胞的发现及计算机产生的随机点立体图对为立体视觉研究带来了一场革命[1],近40年来,立体视觉研究在心理物理和神经生理学方面均取得了令人瞩目的进展,本文将就近年来立体视觉机制的研究进展作一综述。

    1 立体视觉的神经生理学研究

    1959年以前在立体视觉产生机制中占主导地位的一直是心理作用[1]。1959年,两篇几乎同时发表的文章掀起了一场有关双眼视觉机制的革命。首先是Hubel和Wiesel有关猫纹状皮层存在双眼驱动细胞(Binocularly-activated cortical cell)的报道[2],第一次明确了来自双眼的视觉信息在很早的阶段就发生汇合[1]。第二个报道是Julesz提出的随机点立体图(Random-dot stereograms,RDS)[3],这种图排除了立体视觉的单眼线索,认为视差是产生立体视的充分条件,因此深度感知的神经机制一定发生在对形状感知之前[1]
, 百拇医药
    1965年,Bishop和Barlow及他们的学生Pettigrew和Blake-more分别用单细胞记录的方法发现了视差敏感性双眼神经元(Disparity-selective binocular neuron)。他们之后所进行的一系列工作建立了双眼深度分辨的神经基础[1]。1970年,Hubel和Weisel报道了猴子18区的视差敏感细胞[4],认为18区至少有两个独立的功能即连接中线两侧的视野与立体视觉机制有关。1973年他们在猫17区只找到很少的视差敏感细胞并由此认为猫、猴17区并不存在双眼深度感知的主要机制[4]。1979年,Clarke等在新出生的羊的次级视皮层记录到双眼驱动细胞。Pettigrew在猫头鹰顶脑Visual Wulst核最上面的表层上找到对双眼视差敏感的细胞。可见对双眼视信息于初级视皮层(17区)还是于次级视皮层(18区)处理仍有争议,在不同的动物也不相同。由于双眼水平视差和垂直视差的存在,视差敏感细胞也就分别对水平视差或垂直视差敏感。有些细胞对两者都敏感。1971年Redieck提出只有对水平视差敏感的细胞才在立体感知中真正有效。1982年Mayhew和Longuet-Htggins证明了垂直视差与水平视差结合可估计出物体与注视点的相对深度,单独由垂直视差可判断出物体的距离和方向,垂直视差保证了水平视差和凝视点的相对关系。由此从神经生理上揭示了皮层细胞可以识别水平视差和垂直视差以及它们在识别深度上的作用,但神经系统对这些信息进一步加工的机制尚不清楚。
, 百拇医药
    1977~1984年G.Poggio等人在清醒猴子的皮层上记录到体视细胞[5~7]。他们证明了立体视觉的加工开始于纹状皮层,并辨别出深度选择性神经元上存在两大类细胞,每一类又包括具有相反反应行为的两个功能型。一类是调制(调谐)神经元,对注视点附近很窄区域的视差有反应,包括调制兴奋性神经元和调制抑制性神经元;另一类为交互神经元,对于交叉视差和非交叉视差有交互兴奋和抑制反应,包括“近”细胞和“远”细胞,前者对交叉视差敏感而后者对非交叉视差敏感,在零视差时有很陡峭的反应,从最大的兴奋突然变为最大的抑制。他们认为调制神经元对应于精细立体视而交互神经元对应于粗略立体视[4]。另有一种神经元被称为扁平调制神经元,它们对所有的视差都具有兴奋性[8]。1985年Poggio等又在皮层17区和18区又发现了对只包含视差线索的动态随机点立体图起反应的神经元。以上发现说明了17区细胞是整体立体视的神经基础[6]

    1987年Pettigrew等人研究了猫视网膜神经节细胞(X-、Y-、W-)经外侧膝状体至皮层的投射通路在处理双眼视差时的不同作用[9]。X、Y、W均投射至17区,Y型至18区,W型至19区。认为Y系统(至17、18区)处理注视平面以内的会聚视差(Convergent disparities)即交叉视差,而X系统(至17区)处理注视平面的双眼信息即零视差,W系统(至19区)处理注视平面以远的发散视差(Divergent disparities)即非交叉视差。他的研究支持了1977年Levick的假说。
, 百拇医药
    1988年Livingstone和Hubel指出,猴子的初级视觉系统包括几个分离且相互独立的亚系统,以此来分析同一视网膜像的不同方面。根据视皮层1区、2区和更高级的区域的细胞对颜色、立体觉和方向的选择性,将它们分为三种亚型。小细胞系统(Parvocellular stream)对形状和颜色有选择性敏感,而大细胞系统(Magnocellar stream)对深度和运动成分敏感。在低一级水平,视网膜和外侧膝状体的细胞也以它们的颜色选择性、对比敏感性、时间特性和空间分辨性而被分为二个亚系统。这些细胞的选择性决定了不同的视觉功能(如色觉、深度觉、运动、形状感知等)应存在不同的对应关系[10]。1990年Schiller等研究发现初级视觉系统中的颜色成分通道(Colour-opponent channel)是颜色、轮廓、精细模式和精细立体觉的关键,而宽带通道(Broad-band channel)是快速闪光和运动感知的基础,其它通道可能与亮度、粗略形状感知、低空间频率立体觉和对比敏感性有关,并指出小细胞系统与精细立体视觉的加工有关,而大细胞系统与粗略立体视觉的加工有关[11]
, 百拇医药
    有关静态立体视(即位置立体视PS)和动态立体视(即运动立体视MS)的研究也较多。神经生理学研究证明PS和MS的中枢部位不同,并且出现在初级视皮层双眼相互作用的早期阶段[6]。有正常PS的猫和猴的纹状区(17区)神经元对PS的视觉线索极为敏感[6,12],前纹状区(18区和正常猫的Clare-Bishop皮层、正常猴的颞上皮层)对MS的视觉线索敏感[13,14]。Hishi Kitaoji研究了斜视病人的残存MS和PS,也认为PS和MS的中央型和周边型具有不同的神经机制[12]

    神经科学研究视觉的主要目的是确定与视觉刺激传入相应的中枢区域。1997年Cumming应用动态随机点立体图研究皮层Ⅲ区的神经元是否直接接受双眼立体视深度的感知信息,结果表明Ⅲ区视差选择性神经元接受反相关(Anticorrelated)随机点立体图的视差信息,说明它们并不明确地产生立体视觉,因为视觉系统被反相关随机点立体图刺激后并不产生深度感知[15]。Masson的研究表明来自Ⅲ区的视差信号可能对于快速非自主控制眼球运动起非常重要的作用,这种眼球运动在极短时间被诱发,从而导致了双眼成像特征的匹配,并且使它们的视觉输入信息来自于皮层通路的早期阶段,即在深度感知之前[16]
, http://www.100md.com
    2 立体视觉的心理物理学研究

    主要有以下三个假说[8]

    2.1 The Keplerian Hypothesis

    天文学家Johannes Kepler提出,双眼视差是深度感知的有效刺激,该观点在立体视的早期研究中较有影响。Richard评论该观点为“只是对于具有双眼视差(Binocular parallax)的外部信息的一个内部反应”,引伸开来就是由于每一个或一级特殊的细胞代表一个方向,故每一个或一组细胞也就代表每一视差,但是这种观点无法解释对应问题(Correspondence problem)。神经生理研究发现了视差敏感细胞之后这个假说则不再成立。

    2.2 Richards'Pool Hypothesis

    1970年由Richards提出人的视觉系统包含三个“Pool”:分别对应于交叉、非交叉及近零视差,近零视差的“Pool”与注视平面附近较高的立体视锐度相关。由其观点来看,交叉和不交叉视差的“Pool”的相对激活将引起一个特殊的深度感知,而不是一个假定的神经成分突然由一个带有独特信号的深度转至另一特殊深度的感知。其依据是一些立体视异常的人虽然不能感知交叉视差却能区分非交叉视差,反之亦有;另有部分病人仅在注视平面附近几弧分的范围内有正常立体视锐度;正常人则能够区分交叉视差、非交叉视差和近零视差。此假说在神经生理学上得到了Poggio及其同事的支持,他们发现纹状皮层约50%的神经元及V2区更高比例的神经元对视差敏感[6,7],V1区和V2区只存在两类神经元即前述的调制神经元(调制兴奋性神经元和抑制性神经元)和交互神经元(“近”细胞和“远”细胞)。
, 百拇医药
    2.3 Julesz's Local-global Distinctions及随机点立体图对(Random-dot stereogram,RDS)

    1960年Bela Julesz开发出RDS,是立体视觉研究的一个里程碑。原理是利用计算机制作两张结构完全相同的随机点模式图片,但每张图均有部分相对应的区域在水平方向上作了相对的平移(内移或外移)。单独一张图片不能得到任何深度知觉的印象,但如果放在立体镜下,左右眼分别看左右图,相对内移形成交叉视差的立体像凸出于平面;相对外移形成非交叉视差的像凹陷于平面。如果将两张图分别用两种颜色(通常为互补的红绿色)重叠着套印成一张复合图片,通过特制的滤光片(红绿镜片)来观察,同样可以产生立体视觉效应。Julesz又于1964年设计出一种动态随机点立体图(Random-dot cinematogram,RDC),也称为随机点立体电影[17]。这种动态RDS由许多帧成对的随机点图组成,每一帧的左右立体图对是相关的,但各帧之间却不相同,顺序向下延续,由于随机点位置不断变化,观察者初看时只能感知为“雪花”,当两眼融合后则可清晰感知不断运动着的深度图形。这种动态RDS的图形运动没有单眼线索。
, 百拇医药
    RDS与经典线条立体图对的差别[17,18]:①经典立体图对有单眼线索而RDS无任何单眼线索;②经典立体图对得到的是局部立体视信息,而RDS得到的是整体立体视信息,整体立体视发生在比局部立体视更为高级的神经分级系统上;③RDS每一点都有视差,双眼融合拓展了经典的融合极限;④RDS对的每一点均有视差信息,是研究双眼匹配的好材料,在双眼深度知觉信息加工方面具有无比优越的研究价值;⑤由计算机产生,其三维图形可预先设计并精确控制每一点的位置,研究视觉现象在深度上的表现或作为视差刺激都是线条立体图所无法比拟的。RDS在立体视觉研究方面的巨大贡献[17,18]:①说明视差是产生立体视的充分条件,而不需要任何图形线条的轮廓;②说明双眼立体视觉是与生俱来的,不要任何后天的经验或知识的支持和帮助,为视觉计算理论提供了突破口;③提供了一种客观检查立体视的工具;④可对许多经典的视觉现象作进一步分析。

    Julesz称立体视觉为“中央眼”知觉(Cyclopean eye),因为两只眼的映像在大脑皮质的中央视区相结合是产生深度知觉的基础,故又称RDS为Cyclopean RDS。他以RDS为基础,通过改变两眼随机点图的质地、大小、清晰程度及加以人为的噪声干扰等作了许多有关立体视机制方面的研究,发现在一定限度内仍可得到立体感知,称为大脑立体视觉的可塑性[19]。他还提出了协同模型,认为立体视的感知是一个协同过程,需要一定的潜伏期,即需要一个从无序到有序的过程,并存在多重稳态及滞后现象[18,20]
, 百拇医药
    Julesz首次提出了整体系统概念,即整体立体视(Global stereopsis),这是由随机点图对所得到的有关形状和运动的深度感知能力。他认为大脑经过评价左右眼整体的各个随机点之间所有可能的匹配之后,去除错误的配对,保留正确的配对,即选择了立体图对刺激中最经常发生的视差信息。与之相应是局部立体视(Focal stereopsis),是处理轮廓图形局部特征的双眼视差信息的能力,为传统的立体视。两者是完全不同的,推测前者可能与精细视差有关,后者受粗略视差操纵。由此将立体视的加工过程分为两类,一类为整体的精细的加工过程,另一类为局部的粗糙的加工过程[8,18,21]。这个理论同样得到神经生理学证实,Poggio及同事发现与整体立体视系统有关的神经元存在于猴子的中央视皮层的V1区和V2区,在所观察的230个神经元中,约20%对中央眼随机点立体图发生反应[22],这些神经元只对“正确”的双眼匹配信息作出反应。Tyler经研究认为粗略局部立体视与大细胞通路有关,精细整体立体视与小细胞通路有关[23]
, http://www.100md.com
    综上所述,立体视觉的形成过程主要包括两个阶段:第一阶段是抽取双眼物像中的某种基元,然后进行基元匹配并检测出视差信息;第二个阶段是从所获得的视差信息中感知深度现象(即立体视觉)[21]。另外,Julesz对立体视的形成过程提出三个假设:1)分别有检测各单眼信息的图案辨别机制,之后两眼信息汇合,形成立体视觉;2)两眼信息先汇合,此后图案辨别机制才开始活动,检测出双眼视差的信息成分而形成立体视觉;3)假设1与2共同作用形成立体视觉。其中以假设3作为立体视觉形成过程最合适[24,25]

    2.4 空间频率与立体视

    视觉心理物理研究的另一个重要进展是视觉系统空间频率特性的研究。空间频率(Spatial frequency)指在一定空间单位长度里光亮强度起伏的次数,是40年代傅立叶光学发展出现的新概念。Hubel和Wiesel关于视皮层细胞对棒条宽度有选择性反应的发现,表明视觉系统对不同空间频率具有选择性。心理物理实验已利用三种不同的方法证明了人的视觉通道存在空间频率通道[17]。Campbell利用神经的适应现象进行实验,证明了视觉系统适应某一频率的光栅后对该频率的反差阈值提高。Campbell和Robson利用复杂图形的光栅和正弦调制的光栅进行比较实验,均可说明视觉系统中存在着多个对空间频率敏感的通道,每个通道有其最佳的“过滤频率”。同时Maffei利用电生理方法也证明猫视觉神经系统中神经节细胞、外侧膝状体和视皮层均对空间频率具有选择性[22]。1979年Wilson提出四个空间频率的通道模型,随后又有六通道说、七通道说[26]
, 百拇医药
    1970年Blakemore报道了用频率上稍有差别的二张条纹图(光栅)分别给人的左右眼看,则感受到一排栅条斜立在面前,低频的一边离人远高频的一边离人近。这就是频差引发的深度感知(与视差无关),是一种新的立体视。1979年Tyler用更细致的实验证实了这种由两眼频差引起的深度体视,并提高一个新的词汇—Diffrequency,即频差。

    我国学者郑竺英、葛霁光和周清等认为空间域的视差和频率域的频差之间有对应关系并且频率效应可以克服视差,立体图对在空间域的视差就是它在频率域中的频差,频差与深度呈线性正比关系。推测视觉系统在加工深度信息时,可能根据图像的空间频率对客观存在的深度线索——双眼视差进行频差分析和综合[17,27,28,29]

    有关频差引起的立体视的神经生理学基础尚未确立,视觉系统是否存在对频差敏感的细胞以及由频差建立立体视及双眼匹配的模型问题都有待进一步研究。
, 百拇医药
    2.5 立体视觉中视差信息在视觉系统中的编码方式

    视差是双眼立体视觉的主要机制,但是图像的视差怎样由皮层双眼细胞来进行编码?早期推测是由双眼性细胞左右感受野的位置差异来对应,并有一些心理物理和生理实验的证据。最近的一些研究表明,感受野的相位差是视差编码的主要方式,感受野的位置差则在某种程度上是一种补充[30]

    参考文献

    1 Bishop PO,Pettigrew JD.Neural mechanisms of binocular vision.Vision Res,1986,26∶1587~1600

    2 Hubel DH,Wiesel TN.Receptive fields of single neurones in the cat's striate cortex.J Physiol,Lund.1959,148∶547~591
, 百拇医药
    3 Julesz B.Binocular depth perception of computer-generated patterns.Bell System Tech J,1960,39∶1125~1162

    4 Hubel DH,Wiesel TN.Cells sensitive to binocular depth in area 18 of the macaque monkey cortex.Nature,1970,225∶41~42

    5 Poggio GF,Fischer B.Binocular interaction and depth sensitivity of striate and prestriate cortical neurons of the behaving rhesus monkey.J.Neurophysiol,1977,40∶1392~1405

, 百拇医药     6 Poggio GF,Jalbt WH.Mechanisms of static and dynamic stereopsis in foveal cortex of the rhesus monkey.J.Physiol,1981,315∶469~492

    7 Poggio GF,Poggio T.The Analysis of stereopsis.Ann.Rev,Neurosci,1984,7∶379~412

    8 Regan D,Frisby JP,Poggio GF,et al.The perception of stereodepth and stereomotion.visual perception(The Neuro-physiological Foundation,Edited by lothar Spillman and John S.werner),1990,371

, 百拇医药     9 Pettigrew JD,Drener B.Parallel processing of binocular disparity in the cat's retinogeniculucortical pathways.Proc.R.Soc.Lond.B,1987,232∶297~321

    10 Livingstone M and Hubel D.Segregation of form,color,movement and depth:Anatomy,physiology and perception.Science,1988,240∶740~

    11 Schiller PH,Logothetis NK,Charles ER.Functions of the colour-opponent and broad-band channels of the visual system.Nature,1990,343(3)∶68~70
, http://www.100md.com
    12 Hiroshi Ritaoji,Keisuke Toyama.Preservation of position and motion stereopsis in strabismic subjects.Investigative Ophthalmology and Visual Science,1987,26(8)∶1260

    13 Cynader M,Regan P.Neurons in cat parastriate cortex sensitive to the direction of motion in three-dimensional space.J.Physiol(London),1978,27∶549

    14 K.Toyama,Y.Komatsu,T.Kozasa.The responsiveness of Clare-Bishop neurons to motion cues for motion stereopsis.Neuro-science Res,1986,4∶110
, http://www.100md.com
    15 Cumming BG,Parker AJ.Responses of primary visual cortical neurons to binocular disparity without depth perception.Nature,1997,389∶280

    16 Masson GS,Busettini C,Miles FA.Vergence eye movement in response to binocular disparity without depth perception.Nature,1997,389∶280

    17 郑竺英主编.双眼立体视觉的信息加工.北京:科学出版社,1998.23~90

    18 Julesz B.Stereoscopic vision.Vision Res,1986,26∶1061~2012
, http://www.100md.com
    19 B.Julesz.Binocular depth perception without familiarity cues.Science,1964,145∶356

    20 Julesz B.Binocular disappearance of monocular symmetry.Sci.N.Y.,1986,13(3)∶657~658

    21 侯川.立体视觉的发生机理与检测.中国斜视与小儿眼科杂志,1995,3∶141

    22 Wilson HR,Bergen JR.A four mechanism model for threshold spatial vision.Vision Res,1979,19∶19~32

    23 Tyler CW.A stereoscopic view of visual processing streams.Vision Res,1990,30(11)∶1877~1895
, 百拇医药
    24 杨雄里译.眼的光学与视觉,生理光学.北京:科学出版社,1983.220

    25 Ogle KN.Some aspects of stereoscopic depth perception.J.Opt.Soc.Amer,1967,57∶1073

    26 Maffer L,Fiorentii A.Spatial frequency rows in the striate visual cortex.Vision Res,1977,17∶257~264

    27 郑竺英.双眼频差平行加工深度的模拟.生物物理学报,1990,6(2)∶248~253

    28 周清.不同视觉通道中频差所引发的深度感知.生物物理学报,1990,6(2)∶207~211

    29 葛霁光.频差在立体视觉信息加工中的作用:频差克服视差,生物物理学报,1992,8(3)∶516~570

    30 张志磊,葛霁光.立体视觉中视差信息在视觉系统中的编码方式—位置差?相位差?生理科学进展,1999,30(2)∶166~168

    (收稿:1999-09-06,修回:1999-10-12), http://www.100md.com