当前位置: 首页 > 期刊 > 《口腔颌面外科杂志》 > 2000年第2期
编号:10244119
不同语音输入法的比较研究
http://www.100md.com 《口腔颌面外科杂志》 2000年第2期
     作者:陈阳 王国民

    单位:陈阳(上海第二医科大学附属第九人民医院口腔颌面外科 200011);王国民(上海第二医科大学附属第九人民医院口腔颌面外科 200011)

    关键词:语音输入法;计算机语音工作站;腭咽闭合功能不全

    口腔颌面外科杂志000207 摘 要:目的 比较不同语音输入法的异同,为进一步认识汉语病理性语言的音声特征提供参考。方法 11例腭咽闭合功能不全患者,男性6例,女性5例;年龄7~35岁,平均16.18岁。被检敏感音为/m/、/pa/、/ku/,分别直接和间接输入计算机语音工作站,测定音长、能量、音高和第一、二、三共振峰,并使用统计软件(SPSS9.0)对数据进行处理和分析。结果 两种语音输入法的音长、音高和第一共振峰无明显差异(P>0.05),而能量和第二、三共振峰有明显差异(P<0.01)。结论 直接语音输入法和间接语音输入法有一定的区别,二者不能互相代替。
, http://www.100md.com
    中图分类号:R782.2 文献标识码:A 文章编号:1005-4979(2000)02-0117-03

    COMPARISON OF DIFFERENT SPEECH INPUT

    CHEN Yang, WANG Guo-min

    Department of Oral & Maxillofacial Surgery, the Ninth Hospital,Shanghai Second Medical University, Shanghai 200011

    Abstract: Objective To compare between two methods of speech input, with the aim of providing a reference for further research of phonetic feature of Chinese pathological speech. Methods Eleven patients (6 male, 5 female) with velopharyngeal incompetence (VPI) were available for study. Subjects ranged in age from 7 to 35 years with a mean age of 16.18 years. The sensitive utterance studied was /m/, /pa/, /ku/, which was input into computer speech lab(CSL) directly and indirectly. Domain, energy, pitch and the first, second, third formant of the utterance were measured by computer. The data acquired were analyzed by SPSS9.0 software. Results The data failed to show any difference in domain, pitch and the first formant (P>0.05) between two methods, but it revealed obvious difference in energy and the other formants (P<0.01). Conclusion There was distinction in two methods of speech input, which didn't substitute each other.
, 百拇医药
    Key words: Speech input; Computer speech lab; velopharyngeal incompetence

    在唇腭裂序列治疗中,语音治疗已越来越受到广大临床医师的重视。但有关病理性语音的研究在国内尚不多见。随着计算机技术的高速发展,计算机语音工作站(computer speech lab, CSL)也已进入了语音研究领域,它可以直接对语音进行图像化和定理分析,使“只能听”的声音“可视化”,使人们对语音的特性有了更加深入、全面的了解。由于大量的临床语音资料均由磁带保存,本文通过对病理性语音的直接输入和间接输入进行对照研究,希望能够阐明两种方法之间的异同,为进一步认识汉语病理性语音的音声特征提供参考。

    1 材料与方法

    研究对象:选自1999年6月~1999年9月在上海第二医科大学附属第九人民医院口腔颌面外科确诊的11例腭咽闭合功能不全(velopharyngeal incompetence, VPI)患者,男性6例,女性5例,年龄7~35岁,平均16.18岁,其中6例为腭裂术后腭咽闭合功能不全,3例为咽成形术后腭咽闭合功能不全,2例为先天性腭咽闭合功能不全。所有患者智力正常,无明显听力障碍,熟练掌握普通话,未接收过语音治疗。
, 百拇医药
    研究方法:被检者取坐位,自然放松,距麦克风5cm,练习被检敏感音/m/、/pa/、/ku/后,直接输入CSL4300B(美国KAY公司)和录音(日本松下公司EAC录音器材)。录音机距麦克风5cm,磁带播放录音再次输入CSL。样本采样频率为10000Hz,均测量音长(DOMAIN)、能量(ENERGY)、音高(PITCH)和第一、二、三共振峰(FORMANT)的平均值。重复三次,取平均值。使用SPSS9.0对数据行配对t检验。

    2 结果

    间接输入法的平均能量较直接输入法低,而它的第二、三共振峰的平均值较直接输入法高(见表1),且有统计学上的差异(P<0.01),见表2。直接输入法的音长、音高和第一共振峰的平均值较间接输入法高,但无统计学上的差异(P>0.05),见表2。

    表1 统计量

    均值
, 百拇医药
    例数

    标准差

    标准误

    1

    音长a

    音长b(SEC)

    33

    33

    0.568

    0.551

    0.123

    0.138

    0.021
, http://www.100md.com
    0.024

    2

    能量a

    能量b(dB)

    33

    33

    67.627

    61.965

    6.097

    6.900

    1.061

    1.201

    3
, http://www.100md.com
    音高a

    音高b(H2)

    33

    33

    200.899

    192.945

    47.001

    44.261

    8.182

    7.705

    4

    第一共振峰a

, 百拇医药     第二共振峰b(H2)

    33

    33

    461.617

    427.653

    177.252

    162.330

    30.856

    28.258

    5

    第二共振峰a

    第地共振峰b(H2)
, http://www.100md.com
    33

    33

    1240.445

    1413.815

    235.222

    216.350

    40.947

    37.662

    6

    第三共振峰a

    第三共振峰b(H2)

    33
, http://www.100md.com
    33

    2249.395

    2438.370

    257.777

    218.276

    44.873

    37.997

    注:末位字母为a是直接输入法,末位字母为b是间接输入法。

    3 讨论

    CSL:CSL是一种动态音频频谱分析议,可将声音信号转变为可视图谱并输入计算机,具有语音信号获取、分析、编辑和回放功能,能提供图谱中的各种物理量并显示它们之间的动态关系。它操作简单、技术先进,分析手段主要包括波形图、FFT频谱和LPC滤波曲线、语图和音高,为语音学研究提供了一种准确而有效的仪器,也是目前国际上在语音分析中最常用和先进的仪器之一。它的优点为:对患者无损害,不带来痛苦,在学龄前儿童中也可广泛应用,既可研究元音,又可研究辅音,重复性和可靠性好。其不足之处是需要有一定的专业知识,同时其价格昂贵,还需要计算机、打印机和电腭图等配套设备,难以在基层医院推广。
, 百拇医药
    VPI的诊断:VPI的诊断并不复杂,常包括以下几个方面:详细询问病史、体格检查、语音清晰度测试、辅助检查(包括X线、内窥镜、呼气流体力学、超声、电腭图、EMG、CT等)和智力、个性和可教性的评价(包括IQ测试,个性测试和其它测试)。值得注意的是语音清晰度测试的手段。国际上通常是使用各种严格设计且经过科学论证的字表进行测试。如美国一般使用Iowa Pressure Articulation Test(IPAT),现在国内也有类似的《汉语语音清晰度测试字表》[1]。它既能较全面地评价语音障碍的程度,又能客观地语音反映障碍的类型。还有比较重要的VPI的临界值,Warren[2](1964)用气流动力学方法对健康人和腭咽模型进行的试验研究表明区别腭咽闭合是否完善的腭咽口面积的临界值是20mm2,McWilliams[3](1981)采用鼻流计、压力气流仪、口腔气压计、和多位X线电影投照等四种方法结合语音检查对腭裂术后患者的腭咽闭合状况进行了深入的研究,提出应将临界值修订的15mm2,腭咽口面积0~5mm2者可认为有完善的腭咽闭合。Mayo[4](1998)再次将临界值修订为10mm2。也有学者(1985)认为语音效果优劣的不一定与腭咽通道的大小有直接关系,腭咽结构的神经肌肉运动模式才是最主要的影响因素[5]。总而言之,腭咽口闭合面积是一个重要依据,但它并非是诊断VPI的唯一标准。
, 百拇医药
    表2 配对t检验

    均值

    标准差

    标准误

    t

    自由度

    概率

    1

    音长

    0.017

    0.190

    0.033

    0.522
, 百拇医药
    32

    0.605

    2

    能量

    5.662

    4.576

    0.797

    7.108

    32

    0.000

    3

    音高

    7.953
, http://www.100md.com
    40.556

    7.060

    1.127

    32

    0.268

    4

    第二共振峰

    33.963

    127.678

    22.226

    1.528

    32

    0.136
, 百拇医药
    5

    第二共振峰

    -173.370

    219.213

    38.160

    -4.543

    32

    0.000

    6

    第三共振峰

    -188.975

    217.105

    37.793
, 百拇医药
    -5.000

    32

    0.000

    被检音的选择:音声研究中被检音的选定非常重要。VPI患者的异常语音有其自身的特点,以辅音为主,其语音清晰度往往较低,通常包括声门爆破音、咽喉爆破音、咽喉摩擦音等[8]。本研究所选的/pa/、/ku/均为VPI患者的敏感音,它们最容易在声门爆破音和咽喉爆破音中检测出。/m/为双唇鼻辅音,它代表声波在鼻腔内的共振状况,对于过低鼻音的检测有重要的意义。此三个音节也是选自于《汉语语音清晰度测试字表》。

    语音的特征:音色、音高、响度和音长是语音的四要素。它们为笔者提供了区别所有语音的最方便的方法[7] 。音色是声音互相产生区别的本质特征。发音方法、发音体以及共鸣腔形态的不同都会产生音色上的差异。对音色的区别可以通过波形、共振峰频率等表征语音声学特征的物理量表现。国内有学者报道:“腭裂语音”的第一共振峰与正常人接近,而第二、三共振峰均低于正常人[8]。本研究选择了第一至三共振峰为对象,第一共振峰与开口度成正比;第二共振峰与舌位前后成反比,也与园唇有关,唇越园,第二共振峰越低;第三共振峰与软腭的升降有关,软腭降低,咽腔面积增大,第三共振峰就越低。根据本研究结果:两种语音输入法的第一共振峰无统计学差异,这是因为患者在发相同音节时开口度不会有较大变化。而间接输入法的第二、三共振峰明显高于直接输入法,这可能与录放音器材对不同频率的语音处理不同有关,也可能与患者对敏感音的不稳定发声有关。音高是一种听觉的主观心理量,人们对声音信号频率的感觉表现为音调的高低,即音量。任何声音都有基频和许多谐波组成。音高的确切数值用声音的基频表示,而不包括声音的谐波部分。本研究显示:两种语音输入法的音高无统计学差异。这说明录音对声音的基频影响较小。响度也是一种听觉的主观心理量,它受声强的制约。音接输入法的能量值明显低于直接输入法,可能与录放音过程中能量的损耗有关,也可能与每次发音的响度不同有关。音长在辅音中非常重要,起着区别特征的作用。它包括声母时长和韵母时长。本研究所指音长是指整个音节的长度。两种输入法的音长基本相同。这说明患者每次发音的长短基本一致。
, 百拇医药
    综上所述,直接语音输入法和间接语音输入法虽然在音高、音长和第一共振峰上保持一致,但在决定音色的第二、三共振峰上有明显的差别。这说明二者难以互相代替。建议在语音研究中固定使用一种输入法,以保持数据的准确性和可靠性。本文校对:顾云峰

    作者简介: 陈阳(1971-),男,河北,住院医师

    参考文献:

    [1] 王国民,朱川,袁文化,等.汉语语音清晰度测试字表的建立和临床应用研究[J].上海口腔医学,1995;4(3):125-127.

    [2] Warren DW. Velopharyngeal orifice size and upper pharyngeal pressure-flow patterns in cleft palate speech: a preliminary study[J]. Plast Reconstr Surg, 1964;34:15.
, 百拇医药
    [3] McWilliams BJ. A comparatives study of four methods of evlauating velopharyngeal adequacy[J]. Plast Reconstr Surg, 1981;68:1-10.

    [4] Mayo R, Warren DW, Zajac DJ. Intratoral pressure and velopharyngeal function[J]. Cleft Palate Craniofac J, 1998;35(4):299-303.

    [5] Folkins J W. Issues in speech motor control and their relation to the speech of dividuals with cleft palate[J]. J Cleft Palate 1985;22:106.

    [6] 王国民,袁文化,蒋莉萍,等.腭裂术后语音障碍和声音特征的研究[J].中华口腔医学杂志,1995;30(6);334-336.

    [7] 吴宗济,林茂灿.《实验语音学概要》[M].高等教育出版社,1987.

    [8] 王国民,袁文化,蒋莉萍,等.语音仪在腭裂整复术后异常语音分析中的研究[J]. 口腔颌面外科杂志,1995;5(4):189-191.

    收稿日期:1999-11-01, http://www.100md.com