中医舌象自动分析中舌色、苔色分类方法的研究
作者:王爱民 赵忠旭 沈兰荪
单位:北京工业大学信号与信息处理研究室 北京 100022
关键词:舌象分析;医学图像处理;LVQ神经网络分类器;样本筛选;特征选择
北京生物医学工程000302 摘 要 研究计算机舌象分析方法,对推动中医舌诊的进一步发展、促进中医现代化的进程具有重要的意义。本文基于学习矢量量化(LVQ)神经网络分类器,实现了舌象分析中的舌色、苔色自动分类。在分类器的设计中,提出了基于“2σ”准则的训练样本筛选方法,并采用Fisher比率作为色度空间选择的依据,有效提高了分类正确率。实验表明,采用本文方法能够获得与中医专家相一致的结果。
Research on the Tongue Color Classification in Automatic
, 百拇医药
Tongue Analysis of Traditional Chinese Medicine
Wang Aimin
(Laboratory of Signal & Information Processing, Beijing Polytechnic University,Beijing 100022)
Zhao Zhongxu
(Laboratory of Signal & Information Processing, Beijing Polytechnic University,Beijing 100022)
Shen Lansun
(Laboratory of Signal & Information Processing, Beijing Polytechnic University,Beijing 100022)
, 百拇医药
Abstract
Automatic tongue analysis will be of important meaning for traditional chinese medicine to develop, promote modernization. Tongue color automatic classification, based on LVQ neural networks classifier, is proposed in this paper. In the design of the tongue color classifier, training samples selection based on the rule of “2σ” is proposed, and Fisher Ratio is used as a basis in color space selection, such that the accuracy of the classifier is improved. Experiments showed that the results obtained with this method are in accordance with those of the experts of traditional chinese medicine.
, http://www.100md.com
Key words:Tongue analysis, Medical image processing, LVQ neural network, Training samples selection, Feature selection
0 引 言
舌诊,是通过观察舌象以了解人体生理功能和病理变化的一种中医诊察方法。三千多年的中医舌诊历史表明,舌在五官九窍中反映内在脏腑病变最为全面、灵敏,因而舌诊受到历代医家的重视,成为中医诊断疾病的重要依据之一。但是长期以来,舌诊都是依靠医生的目视观察进行判断分析,并用语言文字描述,缺乏客观化、定量化的度量手段,成为舌诊应用、发展和交流中的制约因素。显然,研究舌诊的客观度量方法,对推动中医舌诊的进一步发展、促进中医现代化的进程具有重要的意义。
近年来受到广泛关注的舌象客观度量方法是计算机舌象自动分析[1—3],在标准的成像环境下采集受试者的彩色舌图像,再进行图像处理与分析,对舌色、苔色、舌苔的厚度与湿度、齿痕、裂纹等舌象指标进行分类与定量化。
, 百拇医药
在这些舌象指标中,舌色与苔色及其分布是舌诊辨证论治的主要依据。舌色是指舌质的颜色,临床将其分为淡红、淡白、红、暗红、青紫等类型;苔色是指舌苔的颜色,主要有白、黄、灰、黑等类型。中医望舌时不仅要判断舌色、苔色的主要类型,还要描绘出舌色、苔色在舌面上的具体分布情况。因此,实现舌图像中舌面上各局部区域的舌色、苔色自动分类,才能符合中医舌诊要求。
已有的舌色、苔色分析方法中[1,2],或根据一幅舌图像中R,G,B的整体统计值进行人工分类,或利用鼠标在舌图像中选取感兴趣点或小正方形区域,显示该点的R,G,B值或区域的R,G,B均值,尚未实现符合上述舌诊要求的舌色、苔色自动分类。
为此,本文提出了一种基于学习矢量量化(LVQ)神经网络的舌色、苔色自动分类方法,分类结果能够客观、完整地描述舌色、苔色的种类和分布情况。此外,在分类器的设计中,提出了基于“2σ”准则的样本筛选方法,并采用Fisher比率作为色度空间选择的依据,有效提高了分类正确率。实验表明,采用本文方法能够获得与中医专家相一致的结果。
, 百拇医药
1 舌象分析仪简介
我们研制的舌象分析仪[3—6]由图像采集设备、标准光源、计算机、高分辨率的显示器、打印机、机架构成,其硬件结构如图1所示。
图1 舌象分析仪的结构图
在选择和构成舌象分析仪的硬件时,所考虑的关键问题是舌图像采集环境的标准化,因为这直接关系到舌象自动分析的准确性。经过大量的实验与比较,我们在电动可升降式仪器平台上进行了二次加工,构成了一个封闭的成像环境,并将光源、图像采集设备、舌体的相对位置固定,达到了成像条件的统一性。其中光源应与中医舌诊时的光照条件相近似,因而采用两只OSRAM全光谱的L18/72-965 BIOLUX标准光源,具有极佳的显色性,显色指数Ra=96,色温为6500K,光谱特性接近于平均昼光。光源的照明几何条件为45/0。图像采集设备为KODAK DC260数码相机,图像解析度1536×1024。采用基于人体工程学设计的前额托和下颚托使受试者的面部几何位置相对固定和统一。
, http://www.100md.com
我们还制作了色标,经国家计量院标定后用于舌象分析仪的校正,具体方法见[3]。此外,受试者的伸舌姿态也影响舌图像的采集质量。在中医的配合下,我们总结了一套伸舌要领,并实时指导受试者,取得了较好的效果。
研制中的舌象分析仪的软件包括人机界面、彩色校正、舌图像数据库、舌图像处理与分析等部分。其中舌图像处理与分析软件又包括舌体分割、舌色与苔色自动分类、舌色与苔色定量化描述、舌苔厚度分类、其它特征分析。本文主要介绍有关舌色与苔色分类的研究工作,其它有关工作参见文献[3-6]。
2 学习矢量量化(LVQ)神经网络分类器[7]
矢量量化是一种高效的数据压缩技术,基本原理是在误差代价函数最小的情况下,用离散的确定矢量逼近连续的随机矢量。学习矢量量化(LVQ)方法是在给定初始量化矢量(Voronoi矢量)的基础上,使用有类别属性的训练样本,通过自监督、自适应学习的方法来校正这些初始量化矢量,在若干次迭代后,所形成的矢量基本反映了模式的统计分布。基于这些矢量估计模式的概率分布,并对未知模式进行分类判决,就构成了LVQ分类器。
, 百拇医药
图2 LVQ神经网络模式
分类器结构示意图
由于LVQ分类器在模式空间所形成的判决面是由Voronoi矢量形成的超多面体,能够适应复杂的模式分类问题,在多种应用领域取得了较优的效果,因此我们将其用于舌图像彩色分类问题。
LVQ分类算法可以使用具有竞争机制的神经网络来实现,构成了LVQ神经网络分类器。其网络结构如图2所示。
网络的输入层为样本的n维特征矢量,共有n个节点;网络的隐层为模式匹配层,该层的节点数为Voronoi矢量的个数M,应用时需根据实际情况选定,经验公式为: (1)
其中N为训练样本总数。隐层与输入层的连接权值为M个n维Voronoi矢量,它将输入矢量与这些连接权值进行匹配,匹配度送至MAXNET网络,来竞争学习其中的最大值,对应的Voronoi矢量就是输入矢量的最近邻样本。
, 百拇医药
LVQ神经网络模式分类器的训练和测试算法的具体步骤可参见[7]。
3 训练样本集的构成
分类器的构成和参数选取依赖于训练方法和训练样本。对于舌图像彩色分类问题,从理论上看,典型舌图像中的每一个象素点都具有一个色彩状态,都可以成为一个训练样本。然而,实际上人工鉴定每一个象素点的色彩种类具有很大的困难。因此,我们在若干典型图像中选出一系列图像子块,由中医专家逐块确定类别后构成训练样本集。样本(图像子块)的大小必须兼顾好的统计特性和好的精确度,本文的实验将其选为16×16。图3给出了部分训练样本的示例。
图3 舌色、苔色分类的训练样本示例
在上述训练样本集中,不可避免地会存在一些不利于分类的离群样本(outliers)。舌图像彩色分类中出现离群样本的原因在于:
, http://www.100md.com
(1)一个图像子块中可能存在多种类别的彩色,而中医只能将其定为一种类别,从面造成量化误差。
(2)舌图像中存在阴影、反光、噪声等,由于人眼具有彩色恒常性,因此在分类时不受这些不利因素的影响,仍能正确分类。但是这些因素将造成分类器的性能下降。
(3)中医在鉴别时对某些样本发生了主观分类错误。
识别并删去离群样本,能够有效改善分类器的性能。识别离群样本的准则可以根据具体情况而定,由于离群样本对LVQ分类器的干扰主要作用于基于欧氏距离测度的自监督学习准则上,因此方差可以作为识别准则。本文提出识别离群样本的“2σ”准则。
根据统计学原理,当总体X服从正态分布(X~N(μ,σ2))时, (2)
, http://www.100md.com
式中μ为均值,σ为标准方差。在样本数据整理过程中,把大于μ+2σ和小于μ-2σ的数据,作为可疑异常点删去,称为“2σ”准则。根据(2)式,采用“2σ”准则,把正常样本误判为离群样本的概率小于4.54%。本文的实验表明,这种样本筛选方法有效地提高了测试图像的整体识别率。
4 色度空间的选择
表征图像彩色特性的特征为色度空间中的色度坐标,彩色图像所提供的原始数据是各象素点的R,G,B色度值,还可以转换成其他色度坐标。
常用的色度空间有RGB,HSI,Ohta,YUV等,其转换关系为:
(1)RGB到HSI色度空间[8]: (3)
, http://www.100md.com
I=0.299R+0.587G+0.114B
(2)RGB到Ohta色度空间[9]: (4)
(3)RGB到PAL制YUV色度空间: (5)
分别计算每一个样本色度坐标的均值,构成样本的特征矢量。采用不同的色度空间,分类结果也不同。选择对分类最有效的色度空间,对提高分类正确率具有重要的意义。
用于指导特征选择的类别可分离性判据已有很多,但都不具有普遍意义。我们通过大量的实验发现,对于LVQ神经网络舌图像彩色分类器,在选择色度空间时,Fisher比率是一个很好的判据,与训练样本的回判错误率有着较强的相关性。
, 百拇医药
Fisher比率Fi是Fisher投影的优化目标函数,定义为: (6)
其中tr( )表示矩阵取迹运算,Sb为C个模式的类间散布矩阵,St为C个模式的总体散布矩阵,Sb、St分别定义如下: (7) (8)
式中Ni为第i类模式的样本总数,m(i)为第i类模式的样本特征矢量均值,m0为所有模式的样本特征矢量均值,x(i)k为第i类模式第k个样本的特征矢量。
, 百拇医药
从定义中可以看出,较大的Fisher比率对应着较大的类间离散性和较小的类内相似性,因而代表了对分类有利的特征。
5 实验与讨论
我们对7幅测试舌图像(未用于构成训练样本集)进行了关于样本筛选的实验,所用分类器的输入特征是RGB色度矢量,隐层节点数选为25。训练样本集为3类(淡红舌类、白苔类、淡黄苔类)718个样本,经“2σ”准则识别出68个离群样本,筛选后剩余650个样本。表1列出了采用LVQ神经网络分类器的分类结果,第1栏是采用全部718个样本训练LVQ网络的分类正确率,第2栏是仅采用筛选后的650个样本训练的分类正确率。从中可以看出,采用“2σ”准则筛选样本有效地提高了分类器的性能。
对于上述经样本筛选后、3类650个训练样本,分别计算4种色度空间下的Fisher比率,结果如表2所示。可以看出,Ohta(I1,I2,I3)色度空间的Fisher比率最大,因此应该选择Ohto色度值I1,I2,I3作为LVQ舌图像彩色分类器的输入特征矢量。
, 百拇医药
表1 采用“2σ”准则筛选样本与不进行样本筛选的分类正确率(测试图像)
舌象1
舌象2
舌象3
舌象4
舌象5
舌象6
舌象7
未经样本筛选
0.6598
0.6602
0.6261
, 百拇医药
0.5362
0.8605
0.7717
0.7214
经过样本筛选
0.7128
0.7684
0.8835
0.8372
0.8824
0.7889
0.8333
, 百拇医药 表2 4种色度空间的Fisher比率
R,G,B
H,S,I
I1,I2,I3
Y,U,V
Fisher比率
0.3328
0.3081
0.3790
0.3402
为了验证基于Fisher比率的色度空间选择方法的有效性,同时验证LVQ网络隐层节点数(即量化矢量数)经验值(见式(1))的正确性,我们对650个训练样本进行了不同色度空间、不同隐层节点数的分类实验,回判正确率如表3所示。表3 不同色度空间、不同隐层节点数的训练样本回判正确率 量化矢量数M
, http://www.100md.com
R,G,B
H,S,I
I1,I2,I3
Y,U,V
M=10
0.9093
0.8031
0.9336
0.9115
M=15
0.9314
0.7633
, http://www.100md.com
0.9535
0.9425
M=20
0.9181
0.7699
0.9580
0.9425
M=25
0.9381
0.7456
0.9735
0.9381
, 百拇医药 M=30
0.9447
0.8119
0.9646
0.9447
M=35
0.9381
0.8097
0.9602
0.9425
M=40
0.9358
0.7788
, 百拇医药
0.9580
0.9469
通过表2和表3可以看出:不同色度空间的回判正确率与其Fisher比率具有很好的相关性;M>20后,回判正确率变化不大。由于网络的运算速度随着M的增加而减慢,因而可取M=25,与经验值()相符合。
下面给出两幅舌图像的分类结果。图4-a(5-a)为原图像;图4-b(5-b)为分割出的舌体部分,并划分成16×16大小的子块;图4-c(5-c)为所有子块的分类结果,其中的数字含义如下:0(空白子块)、1(淡红舌色)、2(白苔色)、3(淡黄苔色)。
从图4-c、5-c可以看出:图4所示的舌为全白苔,只有舌边露出少量淡红色舌质;图5所示的舌为淡黄苔偏中后、白苔偏中前,舌边尖表现出淡红舌色。这两幅图像的分类结果与中医专家的分类相对照,符合率均达到85%以上。少数区域误分类的原因在于出现了阴影、反光等,例如图4中的舌根区域存在阴影,判为少量淡黄苔,与中医不符。
, 百拇医药
6 结束语
由于LVQ神经网络分类器能够形成复杂的判决表面,因此适用于复杂的模式分类问题。本文将其用于计算机舌象分析中,提出了一种实用的舌色、苔色自动分类方法,取得了与中医专家目视判断相一致的实验结果。我们将在此基础上进一步进行舌色、苔色的定量化研究。
感谢北京市中医管理局、北京市中医研究所等单位在协助采集舌图像和舌色、苔色鉴定方面所提供的帮助。
图4-a原图
图4-b舌体
, http://www.100md.com
图4-c分类结果
图5-a原图
图5-b舌体
图5-c分类结果
基金项目:本文受到国家自然科学基金资助(项目编号:69971004)。
作者简介:王爱民(1970—),女,博士生,讲师。
7 参考文献
[1] 赵荣莱,危北海,等。舌质舌苔的计算机定量描述和分类。中医杂志,1989,(2):47.
, 百拇医药
[2] 翁维良。临床舌诊图谱与疾病治疗。学苑出版社。1997,北京。
[3] 赵忠旭,王爱民,沈兰荪。舌象分析仪中彩色校正的研究。电子测量与仪器学报,1999,13(3):1—5
[4] Zhao Zhongxu, Wang Aimin, Shen Lansun, et al. An automatic tongue analyzer of chinese medicine based on color image processing. 4th Inter Conference on Electronic Measurement & Instruments Conference Proccedings, Harbin, China, 1999,830—834
[5] Wang Aimin, Shen Lansun, Zhao Zhongxu. Fuzzy automatic detecting the thickness of tongue-covering from a tongue image. 4th Inter Conference on Electronic Measurement & Instruments Conference Proccedings, Harbin, China, 1999,863—867
, 百拇医药
[6] 赵忠旭,王爱民,沈兰荪。基于数学形态学和HIS模型的彩色舌图像分割。北京工业大学学报,1999,25(2):67—71
[7] Kohonen T. Self organizing maps. Springer, 1997,Berlin.
[8] Yang C C. Efficient luminance and saturation processing techniques for color images. Journal of Visual Communication and Image Representation, 1997,8(3):263—277
[9] Ohta Y, Kanade T and Sakai T. Color information for region segmentation. Comput Graphics Image Processing, 1980,13:224~241.
(1999-06-18收稿,1999-07-10修回), 百拇医药
单位:北京工业大学信号与信息处理研究室 北京 100022
关键词:舌象分析;医学图像处理;LVQ神经网络分类器;样本筛选;特征选择
北京生物医学工程000302 摘 要 研究计算机舌象分析方法,对推动中医舌诊的进一步发展、促进中医现代化的进程具有重要的意义。本文基于学习矢量量化(LVQ)神经网络分类器,实现了舌象分析中的舌色、苔色自动分类。在分类器的设计中,提出了基于“2σ”准则的训练样本筛选方法,并采用Fisher比率作为色度空间选择的依据,有效提高了分类正确率。实验表明,采用本文方法能够获得与中医专家相一致的结果。
Research on the Tongue Color Classification in Automatic
, 百拇医药
Tongue Analysis of Traditional Chinese Medicine
Wang Aimin
(Laboratory of Signal & Information Processing, Beijing Polytechnic University,Beijing 100022)
Zhao Zhongxu
(Laboratory of Signal & Information Processing, Beijing Polytechnic University,Beijing 100022)
Shen Lansun
(Laboratory of Signal & Information Processing, Beijing Polytechnic University,Beijing 100022)
, 百拇医药
Abstract
Automatic tongue analysis will be of important meaning for traditional chinese medicine to develop, promote modernization. Tongue color automatic classification, based on LVQ neural networks classifier, is proposed in this paper. In the design of the tongue color classifier, training samples selection based on the rule of “2σ” is proposed, and Fisher Ratio is used as a basis in color space selection, such that the accuracy of the classifier is improved. Experiments showed that the results obtained with this method are in accordance with those of the experts of traditional chinese medicine.
, http://www.100md.com
Key words:Tongue analysis, Medical image processing, LVQ neural network, Training samples selection, Feature selection
0 引 言
舌诊,是通过观察舌象以了解人体生理功能和病理变化的一种中医诊察方法。三千多年的中医舌诊历史表明,舌在五官九窍中反映内在脏腑病变最为全面、灵敏,因而舌诊受到历代医家的重视,成为中医诊断疾病的重要依据之一。但是长期以来,舌诊都是依靠医生的目视观察进行判断分析,并用语言文字描述,缺乏客观化、定量化的度量手段,成为舌诊应用、发展和交流中的制约因素。显然,研究舌诊的客观度量方法,对推动中医舌诊的进一步发展、促进中医现代化的进程具有重要的意义。
近年来受到广泛关注的舌象客观度量方法是计算机舌象自动分析[1—3],在标准的成像环境下采集受试者的彩色舌图像,再进行图像处理与分析,对舌色、苔色、舌苔的厚度与湿度、齿痕、裂纹等舌象指标进行分类与定量化。
, 百拇医药
在这些舌象指标中,舌色与苔色及其分布是舌诊辨证论治的主要依据。舌色是指舌质的颜色,临床将其分为淡红、淡白、红、暗红、青紫等类型;苔色是指舌苔的颜色,主要有白、黄、灰、黑等类型。中医望舌时不仅要判断舌色、苔色的主要类型,还要描绘出舌色、苔色在舌面上的具体分布情况。因此,实现舌图像中舌面上各局部区域的舌色、苔色自动分类,才能符合中医舌诊要求。
已有的舌色、苔色分析方法中[1,2],或根据一幅舌图像中R,G,B的整体统计值进行人工分类,或利用鼠标在舌图像中选取感兴趣点或小正方形区域,显示该点的R,G,B值或区域的R,G,B均值,尚未实现符合上述舌诊要求的舌色、苔色自动分类。
为此,本文提出了一种基于学习矢量量化(LVQ)神经网络的舌色、苔色自动分类方法,分类结果能够客观、完整地描述舌色、苔色的种类和分布情况。此外,在分类器的设计中,提出了基于“2σ”准则的样本筛选方法,并采用Fisher比率作为色度空间选择的依据,有效提高了分类正确率。实验表明,采用本文方法能够获得与中医专家相一致的结果。
, 百拇医药
1 舌象分析仪简介
我们研制的舌象分析仪[3—6]由图像采集设备、标准光源、计算机、高分辨率的显示器、打印机、机架构成,其硬件结构如图1所示。
图1 舌象分析仪的结构图
在选择和构成舌象分析仪的硬件时,所考虑的关键问题是舌图像采集环境的标准化,因为这直接关系到舌象自动分析的准确性。经过大量的实验与比较,我们在电动可升降式仪器平台上进行了二次加工,构成了一个封闭的成像环境,并将光源、图像采集设备、舌体的相对位置固定,达到了成像条件的统一性。其中光源应与中医舌诊时的光照条件相近似,因而采用两只OSRAM全光谱的L18/72-965 BIOLUX标准光源,具有极佳的显色性,显色指数Ra=96,色温为6500K,光谱特性接近于平均昼光。光源的照明几何条件为45/0。图像采集设备为KODAK DC260数码相机,图像解析度1536×1024。采用基于人体工程学设计的前额托和下颚托使受试者的面部几何位置相对固定和统一。
, http://www.100md.com
我们还制作了色标,经国家计量院标定后用于舌象分析仪的校正,具体方法见[3]。此外,受试者的伸舌姿态也影响舌图像的采集质量。在中医的配合下,我们总结了一套伸舌要领,并实时指导受试者,取得了较好的效果。
研制中的舌象分析仪的软件包括人机界面、彩色校正、舌图像数据库、舌图像处理与分析等部分。其中舌图像处理与分析软件又包括舌体分割、舌色与苔色自动分类、舌色与苔色定量化描述、舌苔厚度分类、其它特征分析。本文主要介绍有关舌色与苔色分类的研究工作,其它有关工作参见文献[3-6]。
2 学习矢量量化(LVQ)神经网络分类器[7]
矢量量化是一种高效的数据压缩技术,基本原理是在误差代价函数最小的情况下,用离散的确定矢量逼近连续的随机矢量。学习矢量量化(LVQ)方法是在给定初始量化矢量(Voronoi矢量)的基础上,使用有类别属性的训练样本,通过自监督、自适应学习的方法来校正这些初始量化矢量,在若干次迭代后,所形成的矢量基本反映了模式的统计分布。基于这些矢量估计模式的概率分布,并对未知模式进行分类判决,就构成了LVQ分类器。
, 百拇医药
图2 LVQ神经网络模式
分类器结构示意图
由于LVQ分类器在模式空间所形成的判决面是由Voronoi矢量形成的超多面体,能够适应复杂的模式分类问题,在多种应用领域取得了较优的效果,因此我们将其用于舌图像彩色分类问题。
LVQ分类算法可以使用具有竞争机制的神经网络来实现,构成了LVQ神经网络分类器。其网络结构如图2所示。
网络的输入层为样本的n维特征矢量,共有n个节点;网络的隐层为模式匹配层,该层的节点数为Voronoi矢量的个数M,应用时需根据实际情况选定,经验公式为: (1)
其中N为训练样本总数。隐层与输入层的连接权值为M个n维Voronoi矢量,它将输入矢量与这些连接权值进行匹配,匹配度送至MAXNET网络,来竞争学习其中的最大值,对应的Voronoi矢量就是输入矢量的最近邻样本。
, 百拇医药
LVQ神经网络模式分类器的训练和测试算法的具体步骤可参见[7]。
3 训练样本集的构成
分类器的构成和参数选取依赖于训练方法和训练样本。对于舌图像彩色分类问题,从理论上看,典型舌图像中的每一个象素点都具有一个色彩状态,都可以成为一个训练样本。然而,实际上人工鉴定每一个象素点的色彩种类具有很大的困难。因此,我们在若干典型图像中选出一系列图像子块,由中医专家逐块确定类别后构成训练样本集。样本(图像子块)的大小必须兼顾好的统计特性和好的精确度,本文的实验将其选为16×16。图3给出了部分训练样本的示例。
图3 舌色、苔色分类的训练样本示例
在上述训练样本集中,不可避免地会存在一些不利于分类的离群样本(outliers)。舌图像彩色分类中出现离群样本的原因在于:
, http://www.100md.com
(1)一个图像子块中可能存在多种类别的彩色,而中医只能将其定为一种类别,从面造成量化误差。
(2)舌图像中存在阴影、反光、噪声等,由于人眼具有彩色恒常性,因此在分类时不受这些不利因素的影响,仍能正确分类。但是这些因素将造成分类器的性能下降。
(3)中医在鉴别时对某些样本发生了主观分类错误。
识别并删去离群样本,能够有效改善分类器的性能。识别离群样本的准则可以根据具体情况而定,由于离群样本对LVQ分类器的干扰主要作用于基于欧氏距离测度的自监督学习准则上,因此方差可以作为识别准则。本文提出识别离群样本的“2σ”准则。
根据统计学原理,当总体X服从正态分布(X~N(μ,σ2))时, (2)
, http://www.100md.com
式中μ为均值,σ为标准方差。在样本数据整理过程中,把大于μ+2σ和小于μ-2σ的数据,作为可疑异常点删去,称为“2σ”准则。根据(2)式,采用“2σ”准则,把正常样本误判为离群样本的概率小于4.54%。本文的实验表明,这种样本筛选方法有效地提高了测试图像的整体识别率。
4 色度空间的选择
表征图像彩色特性的特征为色度空间中的色度坐标,彩色图像所提供的原始数据是各象素点的R,G,B色度值,还可以转换成其他色度坐标。
常用的色度空间有RGB,HSI,Ohta,YUV等,其转换关系为:
(1)RGB到HSI色度空间[8]: (3)
, http://www.100md.com
I=0.299R+0.587G+0.114B
(2)RGB到Ohta色度空间[9]: (4)
(3)RGB到PAL制YUV色度空间: (5)
分别计算每一个样本色度坐标的均值,构成样本的特征矢量。采用不同的色度空间,分类结果也不同。选择对分类最有效的色度空间,对提高分类正确率具有重要的意义。
用于指导特征选择的类别可分离性判据已有很多,但都不具有普遍意义。我们通过大量的实验发现,对于LVQ神经网络舌图像彩色分类器,在选择色度空间时,Fisher比率是一个很好的判据,与训练样本的回判错误率有着较强的相关性。
, 百拇医药
Fisher比率Fi是Fisher投影的优化目标函数,定义为: (6)
其中tr( )表示矩阵取迹运算,Sb为C个模式的类间散布矩阵,St为C个模式的总体散布矩阵,Sb、St分别定义如下: (7) (8)
式中Ni为第i类模式的样本总数,m(i)为第i类模式的样本特征矢量均值,m0为所有模式的样本特征矢量均值,x(i)k为第i类模式第k个样本的特征矢量。
, 百拇医药
从定义中可以看出,较大的Fisher比率对应着较大的类间离散性和较小的类内相似性,因而代表了对分类有利的特征。
5 实验与讨论
我们对7幅测试舌图像(未用于构成训练样本集)进行了关于样本筛选的实验,所用分类器的输入特征是RGB色度矢量,隐层节点数选为25。训练样本集为3类(淡红舌类、白苔类、淡黄苔类)718个样本,经“2σ”准则识别出68个离群样本,筛选后剩余650个样本。表1列出了采用LVQ神经网络分类器的分类结果,第1栏是采用全部718个样本训练LVQ网络的分类正确率,第2栏是仅采用筛选后的650个样本训练的分类正确率。从中可以看出,采用“2σ”准则筛选样本有效地提高了分类器的性能。
对于上述经样本筛选后、3类650个训练样本,分别计算4种色度空间下的Fisher比率,结果如表2所示。可以看出,Ohta(I1,I2,I3)色度空间的Fisher比率最大,因此应该选择Ohto色度值I1,I2,I3作为LVQ舌图像彩色分类器的输入特征矢量。
, 百拇医药
表1 采用“2σ”准则筛选样本与不进行样本筛选的分类正确率(测试图像)
舌象1
舌象2
舌象3
舌象4
舌象5
舌象6
舌象7
未经样本筛选
0.6598
0.6602
0.6261
, 百拇医药
0.5362
0.8605
0.7717
0.7214
经过样本筛选
0.7128
0.7684
0.8835
0.8372
0.8824
0.7889
0.8333
, 百拇医药 表2 4种色度空间的Fisher比率
R,G,B
H,S,I
I1,I2,I3
Y,U,V
Fisher比率
0.3328
0.3081
0.3790
0.3402
为了验证基于Fisher比率的色度空间选择方法的有效性,同时验证LVQ网络隐层节点数(即量化矢量数)经验值(见式(1))的正确性,我们对650个训练样本进行了不同色度空间、不同隐层节点数的分类实验,回判正确率如表3所示。表3 不同色度空间、不同隐层节点数的训练样本回判正确率 量化矢量数M
, http://www.100md.com
R,G,B
H,S,I
I1,I2,I3
Y,U,V
M=10
0.9093
0.8031
0.9336
0.9115
M=15
0.9314
0.7633
, http://www.100md.com
0.9535
0.9425
M=20
0.9181
0.7699
0.9580
0.9425
M=25
0.9381
0.7456
0.9735
0.9381
, 百拇医药 M=30
0.9447
0.8119
0.9646
0.9447
M=35
0.9381
0.8097
0.9602
0.9425
M=40
0.9358
0.7788
, 百拇医药
0.9580
0.9469
通过表2和表3可以看出:不同色度空间的回判正确率与其Fisher比率具有很好的相关性;M>20后,回判正确率变化不大。由于网络的运算速度随着M的增加而减慢,因而可取M=25,与经验值()相符合。
下面给出两幅舌图像的分类结果。图4-a(5-a)为原图像;图4-b(5-b)为分割出的舌体部分,并划分成16×16大小的子块;图4-c(5-c)为所有子块的分类结果,其中的数字含义如下:0(空白子块)、1(淡红舌色)、2(白苔色)、3(淡黄苔色)。
从图4-c、5-c可以看出:图4所示的舌为全白苔,只有舌边露出少量淡红色舌质;图5所示的舌为淡黄苔偏中后、白苔偏中前,舌边尖表现出淡红舌色。这两幅图像的分类结果与中医专家的分类相对照,符合率均达到85%以上。少数区域误分类的原因在于出现了阴影、反光等,例如图4中的舌根区域存在阴影,判为少量淡黄苔,与中医不符。
, 百拇医药
6 结束语
由于LVQ神经网络分类器能够形成复杂的判决表面,因此适用于复杂的模式分类问题。本文将其用于计算机舌象分析中,提出了一种实用的舌色、苔色自动分类方法,取得了与中医专家目视判断相一致的实验结果。我们将在此基础上进一步进行舌色、苔色的定量化研究。
感谢北京市中医管理局、北京市中医研究所等单位在协助采集舌图像和舌色、苔色鉴定方面所提供的帮助。
图4-a原图
图4-b舌体
, http://www.100md.com
图4-c分类结果
图5-a原图
图5-b舌体
图5-c分类结果
基金项目:本文受到国家自然科学基金资助(项目编号:69971004)。
作者简介:王爱民(1970—),女,博士生,讲师。
7 参考文献
[1] 赵荣莱,危北海,等。舌质舌苔的计算机定量描述和分类。中医杂志,1989,(2):47.
, 百拇医药
[2] 翁维良。临床舌诊图谱与疾病治疗。学苑出版社。1997,北京。
[3] 赵忠旭,王爱民,沈兰荪。舌象分析仪中彩色校正的研究。电子测量与仪器学报,1999,13(3):1—5
[4] Zhao Zhongxu, Wang Aimin, Shen Lansun, et al. An automatic tongue analyzer of chinese medicine based on color image processing. 4th Inter Conference on Electronic Measurement & Instruments Conference Proccedings, Harbin, China, 1999,830—834
[5] Wang Aimin, Shen Lansun, Zhao Zhongxu. Fuzzy automatic detecting the thickness of tongue-covering from a tongue image. 4th Inter Conference on Electronic Measurement & Instruments Conference Proccedings, Harbin, China, 1999,863—867
, 百拇医药
[6] 赵忠旭,王爱民,沈兰荪。基于数学形态学和HIS模型的彩色舌图像分割。北京工业大学学报,1999,25(2):67—71
[7] Kohonen T. Self organizing maps. Springer, 1997,Berlin.
[8] Yang C C. Efficient luminance and saturation processing techniques for color images. Journal of Visual Communication and Image Representation, 1997,8(3):263—277
[9] Ohta Y, Kanade T and Sakai T. Color information for region segmentation. Comput Graphics Image Processing, 1980,13:224~241.
(1999-06-18收稿,1999-07-10修回), 百拇医药