首页 >> 语言学
发声态研究的相关问题与VoiceSauce的使用
2020年12月21日 14:56 来源:《方言》 作者:凌锋 史濛辉 袁丹 沈瑞清 字号
2020年12月21日 14:56
来源:《方言》 作者:凌锋 史濛辉 袁丹 沈瑞清

内容摘要:

关键词:

作者简介:

  内容提要:本文对发声态的一些相关问题进行了梳理,澄清了现存研究中的一些概念上的误解,并对发声态产生的空气动力条件进行了解释。此外,还介绍了与发声态相关的主要声学参数和一些相关研究。在此基础上,本文推荐使用目前国际上比较常用的发声态声学参数分析软件VoiceSauce,并详细介绍如何利用该软件进行发声态研究。

  关 键 词:发声态;声学参数;VoiceSauce

  作者简介:凌锋,上海大学;史濛辉,莱顿大学;袁丹,华东师范大学;沈瑞清,新加坡国立大学。 

  基金项目本研究得到国家社科基金项目“汉语方言介音类型实验研究(16BYY150)”的资助。

  零 引言

  0.1 启动(initiation)、发声态(phonation)和调音(articulation)是语音三要素。其中启动指语音的气流来源和方向,发声态主要指喉部活动,调音指的是声道共鸣和发音特征。跨语言研究表明,不同的发声态在很多语言中都有音位价值(详细参见Gordon & Ladefoged 2001)。在国内学界,早期发声态研究主要集中于民族语中(如孔江平2001);近年来,随着汉语方言研究的不断深入,学者们也已逐渐关注发声态在汉语方言中所起的重要作用(如朱晓农2005,2009)。在汉语方言声调的研究中,即便不进行专门的发声态研究,也常会面临非常态发声带来无法正常提取基频值的问题,这说明了关注发声态的必要性。

  随着大家对发声态问题的重视,汉语方言的各种发声态也陆续被学者们发掘出来。目前汉语方言中比较常见的发声态主要包括:气声(如大部分北部吴语,参看Cao & Maddieson 1992;Ren 1992)、嘎裂声(如台州话,参看朱晓农2004)、假声(如岳阳话,参看彭建国和朱晓农2010)等。这些研究不光丰富了我们对汉语方言的认识,也有力地推动了世界语音学的进步。

  但是,总体来说,国内学界有关发声态的研究并不是很成熟。形成这一现状有多方面的原因。其中固然和缺少必要的实验设备有关,因为研究发声态最好使用专门的仪器(如电子喉头仪),但这些仪器往往售价昂贵且操作复杂。目前国内多数文科科研机构和院校并没有购置这类仪器。当然,即便不依赖这些仪器,单纯的声学分析也能提取很多发声态相关的参数。只是问题在于,现有常用的语音软件都不能直接提取发声态的相关声学参数。要测量这些参数,必须通过手工测量,或者编写脚本(如Praat脚本)的方式才能完成。这就给大多数研究者设立了比较高的技术门槛。再者,与发声态相关的参数非常多,并不能简单只用一两个参数就解决所有与发声态相关的问题。如何解读这些参数,对于非专业进行实验语音研究的研究者来说是一个很大的困难。如果不能真正理解这些参数的意义,很可能会造成误读。事实上,我们也看到,由于对发声态相关的基本概念及性质了解不够准确,现存的部分研究出现了一些误读参数的情况。

  0.2 为了降低发声态研究的门槛,方便研究者提取相关发声态声学特征,美国加州大学洛杉矶分校(UCLA)语言学系和电子工程学系合作开发了一款简单易用的软件VoiceSauce(Shue et at.2011)。VoiceSauce(后文简称为VS)是一个基于Matlab开发的声学分析软件,不但可以完成很多声学参数的测量,还可以分析Electroglottograph(EGG)结果文件,并把结果直接输出到EMU语音数据库(EMU Speech Database Management System)。同时,VS还能够自动完成批量参数提取。这对于想要进行发声态声学分析但没有编程基础的学者来说,无疑是个非常方便合用的工具。

  壹 发声态的声门姿态、空气动力条件和声音传播条件

  在目前国内涉及发声态的研究中,最容易出现的问题主要有两个:一是概念上把声门形态与发声态直接划等号;二是测量时只考虑最后的声学参数结果,直接把声学表现等同于对应的发声态。针对这两个误区,我们首先要明确的是,发声态概念中可以进一步区分出三个因素:声带的松紧开合、空气动力条件和声音传播条件。以下简单介绍这三个因素。

  1.1 声带的松紧开合与声门的控制机制有关(Laver 1980)。声门主要由两个部分构成,一是声带主体之间的“韧带声门”,二是后端勺状软骨之间的“软骨声门”。或分别称为“音声门”和“气声门”。勺状软骨可以控制韧带声门的开合,至少可以区分出三种开合状态,分别是:开、闭合、紧闭。而在韧带声门关闭的时候,软骨声门又可以单独控制开合,因此在之前韧带声门三种开合状态上,同时又分别可以与软骨声门开合两种状态配合,形成五种不同的整体声门开合状态。此外,声带的纵向松紧程度与音高的变化直接相关。一般来说,声带松弛,音高变低;声带紧张,音高变高。但声带在“纵向极度拉紧”状态时,其振动方式与其他情况完全不同,只有声带边缘参与振动,形成一种独特的假声发声态。因此声带的松紧开合其实可以分解成三个参数,分别是:韧带声门开合、软骨声门开合和纵向是否极度拉紧。

  1.2 空气动力条件主要指发声时通过声门的气流情况。声带要发出声音,不但需要声带自身的调节,还需要有气流通过,否则不可能产生声音。形成气流的必要条件是在声门上下维持一定的气压差。与发声态有关的声门压差有两个重要的临界值:一个是由层流变成紊流产生噪音的压差阈值;另一个是让声带振动起来的“发声阈压”(phonation threshold pressure,简称PTP。参看Titze 1988)。所以即便是相同的声门松紧开合状态,也会由于空气动力条件不同而实现为不同的发声态。这一点往往是有些研究者所忽略的。

  综合考虑声门松紧开合与空气动力条件,可形成如下页表1所归纳的不同发声态。表中清浊发声态大类分别用宋体和黑体来表示。

  

  不同学者对发声态的分类、定义和命名都不大一样。本小节只是简单介绍了学界相对达成共识的发声态分类。Catford(1977:93-116)、Laver(1980;19964:184-200)、Ladefoged和Maddieson(1996:47-77)以及朱晓农(2009)都对发声态有更细致的分类和论述。而要进一步了解发声态与喉部、咽部控制的复杂关系,可以参看Esling等(2019)。目前来看,除了常态浊声以外,最常见的发声态主要是气声(很多学者把呼气浊声和耳语浊声统一归为气声)和嘎裂声两种。

  1.3 听者对发声态的感知还取决于声音传播的介质。当声道阻碍很大乃至完全闭塞时,声源的中高频信号大多被声道软组织吸收;而当声道阻碍不大的时候,声源特征基本都可以正常传播到外界。因此,当声道阻碍比较大的时候,不同发声态之间的差别非常小,在声学上主要只能明显区分出无声和周期振动(即清和浊)两种发声态大类;只有在声道阻碍不大的时候,我们才可以方便地利用声学参数来确定发声态小类。比如说吴语的清音浊流塞音声母,位于单念或者前字位置时,在声学上的表现是闭塞段为无声的清音,而塞音除阻后的元音开头部分却是浊声上叠加浊气流(如赵元任1928:27-28;Cao & Maddieson 1992)。单从声学上来说,似乎塞音闭塞段和除阻段发声态完全不同。但很多研究证明,从闭塞到除阻,软骨声门一直是打开的状态(Ren1992)。只是空气动力条件和传播条件不同,故而造成两部分声学结果差异很大。因此,直接把声学表现等同于对应的发声态也是有失偏颇的。

  贰 发声态声学参数简介

  发声态相关的声学参数很多。Vs软件可以一次性测量15种声学参数,包括:①基频(F0);②共振峰(Formant);③H1、H2、H4;④A1、A2、A3;⑤2K;⑥5K;⑦H1*-H2*,H2*-H4-;⑧H1*-A1*,H1*-A2*,H1*-A3*;⑨H4*-2K*;⑩2K*-5K*;(11)Energy;(13)CPP;(13)Harmonic to Noise Ratios-HNR;(14)Subharmonic to Harmonic Ratios(SHR);(15)epoc,excitation strength(epoch,SoE)。这些声学参数大多可用于考察发声态,也可以用于声调、元音共振峰、噪音成分的分析研究。这15种参数大致可以分成以下4种类型。

  2.1 基础参数:基频、共振峰、能量

  VS提供了一些基础声学参数提取的功能,这些参数虽然不能直接反映发声态,但很多发声态的参数都需要基于这些基础参数来计算。因此,这部分参数的提取质量直接关系到其他参数的提取。基础参数包括基频、共振峰、能量。

  其中基频测量VS提供了三种计算方法:Straight(Kawahara等1999)、Snack( 2004)和Praat(Boersma& Weenink 2008),它们都来自目前网络公开的算法或者共享软件。Shue等(2011)比较了这几种算法的结果,认为在没有嘎裂声的情况下,Straight算法的结果是最理想的。不过Straight算法的缺点是可以调整的参数不多,只能在设置窗口中调整基频测量的上下限和测量时长,如果测量有误修正起来不方便。大致来说,Straight算法适于不熟悉Praat的研究者使用;熟悉Praat的研究者如果发现测量结果有问题,可以改选Praat算法来测量,其参数设置与Praat软件是一样的。

  共振峰测量也提供了Snack和Praat两种算法供使用者选择。如果不需要太多参数调整,可使用Snack算法。

  能量是计算了每5个声波周期内部的均方根得到的参数。该参数一般对发声态研究的作用并不明显。

  2.2 谐波振幅

  VS可以测量多个谐波的振幅,包括:H1,H2,H4,A1(最靠近第一共振峰的谐波),A2,A3,H2K(最靠近2000Hz的谐波),H5K(最靠近5000Hz的谐波)。这部分数据较少直接使用,而主要是以这些值为基础进一步计算频率斜率。

  频谱斜率(spectral tilts)是区分不同发声态类型的重要特征。因为不同的发声态无论声带开闭时间比例,还是开闭的速率都有差异。这两者都会影响最后频谱的倾斜程度。频谱倾斜可以通过比较不同频域谐波的振幅差来体现(Gordon和Ladefoged 2001)。所以,研究发声态最常用的声学指标就是各个谐波之间的振幅差值。

  VS可以计算的谐波差包括7种,分别是:H1-H2,H2-H4,H1-A1,H1-A2,H1-A3,H4-H2K和H2K-H5K。其中应用最广泛的是H1-H2,即第一、二谐波之间的振幅差异,它是由Bickley(1982)引入语言学研究。跨语言研究显示,H1-H2能较好地体现发声态的区别(如Gordon&Ladefoged 2001;Keating等2010),主要反映声带的开合度(Holmberg等1995;Ni Chasaide&Gobl 1997)。气声发声态通常表现为较强的H1。如在Gujarati语(Fischer-Jorgensen 1967)和Hmong语(Huffman 1987)中的测量都显示,气声发声态的H1要明显高于非气声。H1对于气声及非气声的区别在一系列感知实验中也得到证实,如在Guj arati语(Bickley 1982)和 语(Ladefoged1983)中。一般来说气化程度越高,频谱的向上倾斜程度就越高(H1>H2)。而嘎裂发声态的H1相较于H2往往较弱,这导致越接近嘎裂声,频谱的向下倾斜程度越高(H1<H2);而常态发声的频谱倾斜程度则是在两者之间。气声、嘎裂和常态这三种发声态谐波差的区别在Zapotec语(Gordon&Ladefoged 2001)和Mazatec语(Blackenship 2002)中都有较为清晰的体现。

  除此之外,第一谐波与各共振峰谐波差H1-A1(H1-A2、H1-A3)也能起到区分发声态的作用(Hanson1997),这些参数主要反映了声带闭合速率的区别(Stevens 1977;Cho等2002),速率越低则数值越大,相应气化程度也越强。Hanson等(2001)认为H1-A1更多反映了声门后部的开合情况。在一些研究中,共振峰谐波与低频谐波之间的差值能比H1-H2更为有效地区分气声与常态发声,如Blankenship(2002)的实验显示,在Chong语中H1-A2更效;而Di Canio(2009)的研究显示,在Takhian Thong Chong语中则H1-A3更为有效。H2-H4参数主要和声带体的僵硬度有关,H2-H4差值越小,声带体的僵硬程度就越高。Bishop和Keating(2012)认为假声可以靠H2-H4和其他发声态区别开来。此外,英语和汉语普通话的研究表明,H2-H4还与人们对声音的性别感知有关(Kuang 2011;Bishop & Keying 2012)。H2K和H5K属于高频谐波,Garellek(2015)的研究显示,这两个参数与英语中的嘎裂发声态有关。

  利用谐波参数来讨论发声态的区别也存在一些问题。比如最常用的参数H1-H2。由于调音是对原始嗓音频谱的再调节,低频共振峰会对前两条谐波的原始数量关系造成干扰。所以要采用这个参数,最好通过一定逆滤波算法来去除共振峰的影响。如果不进行逆滤波处理,则至少要避免采用第一共振峰比较低的高元音作为调查对象。因此,除了可以直接计算谐波差值,VS也提供了基于共振峰校正(formant corrections)的谐波差值。为了区分未校正的谐波差,校正值在软件中用加“*”表示。这种校正算法来自Hanson(1997)和Iseli等(2007),主要功能是通过共振峰值和带宽值来逆推声源谐波振幅。由于Matlab软件的限制,“*”符号在VS中无法输出,因此在输出结果中以“c”表示校正结果,“u”表示未校正结果。

  此外,如Kreiman等(2012)的研究显示,H1-H2的改变与声门开合状态的实际变化并不是完全线性相关的;即使在同一个语言中,H1-H2的个人差异性也很大,只能靠加大样本量来提高测量精确度。此外,H1-H2还有性别局限,如Hillenbrand等(1994)发现H1-H2更适用于女性。Simpson(2012)的研究进一步指出,H1-H2参数在表示气声方面有性别差异,女性的气化程度一般高于男性,这是由于女性潜在的鼻化度所造成的,鼻化程度越强,H1-H2也越高。因此Simpson认为还需要使用其他能直接体现噪音水平的参数来测量气化程度,如HNR和CPP,详见2.3。

  间谐谐波比(Subharmonics-to-Harmonics Ratio,简称SHR)也是嗓音音质描写的一个重要参数(Keating等2015)。SHR主要涉及到正常谐波之间出现的类似谐波的频率成分问题,这些成分就是间谐波(subharmonics,也可称为interharmonics)。我们在测量音高的时候,如果音段是非常态浊声,经常会出现一些很难确定其基频的情况。尤其有一类常见的嘎裂声,存在大小周期现象。所谓大小周期,就是波形上有振幅一大一小的振动周期交替出现,两者时长也不大一样。如果通过手工标记,每个振动都当作单个周期,则基频曲线会呈现出高低交替锯齿形来,而且基频曲线可能在与常态浊声段相邻处出现一个八度的断层。所以对于这样音段的音高到底是多少,是很难判断的。从感知实验的结果看(Sun&Xu 2002),音段的音高取决于间谐波和谐波的振幅比率,也就是间谐谐波比。大致来说,如果比值小于0.2,那么音高基本由谐波来决定;如果比值大于0.4,则比正常情况低一个八度;如果大于0.2小于0.4,则音高感知很模糊,在两可之间。因此,如果调查涉及了有间谐波的声音,必须先计算SHR,才能确定音段的音高值。间谐波本身就是嘎裂声的一个重要指标,Sun(2002)的研究显示,SHR值在0.2-0.4的声音比其他范围的声音嘎裂感更重。

  2.3 噪音水平:HNR和CPP

  谐波噪音比(Harmonics to Noise Ratio,简称HNR谐嗓比)测量的是谐波总能量与噪音总能量之间的比值。一个声音中噪音成分越多,HNR值也就越小,反之越大。由于气声态中有大量噪音能量,所以在音质相似的情况下,气声元音和常态元音相比谐噪比值总会偏小。Ladefoged等(1985)曾采用这个参数来区分气声与常态这两种发声态。Tian&Kuang(2016)对上海话的研究结果表明,HNR能够区分老年男性、女性的两个声域。HNR也被一些学者用于区分嘎裂声和常态发声。由于基频不规则的声波往往会伴随一定量的噪音,因而HNR值低则说明基频振动不规则导致了喉门噪音。Miller(2007)以及Zhang和Hu(2018)也将基频不规则与HNR值相关联,他们分别考察了Juj 'hoansi语和箬坑徽语的发声态问题。但需要注意的是,嘎裂声包含多种不同的类型,并不是所有类型都伴随明显的噪音。其中气泡音(vocal fry)这种类型就没有喉门噪音,相应的HNR值较高(详见Keating等2015)。

  在VS中,计算HNR采用了de Krom(1993)的算法。VS提供了多个频段的HNR结果,其中HNR05为0-500Hz的HNR、HNR15为0-1500Hz的HNR,HNR25为0-2500Hz的HNR。HNR也有比较大的局限。首先,元音音质差别比较大的两个音的HNR值没有比较意义。因为不论什么发声态,总体频谱总是越到高频能量越小。所以共振峰集中在低频的元音谐波总能量总是比共振峰偏高的元音谐波总能量大。比如常态发声下/u/的HNR值往往接近40dB,而/i/的HNR值一般在20dB左右。其次,由于这个参数只是比较谐波和噪音的能量,所以它并不能分辨噪音的来源。即便是常态发声,如果调音过程中有噪音源,HNR同样会偏低。

  因此,除了区分发声态之外,HNR还可以用来区分普通元音和擦化元音,比如凌锋(2011)就采用HNR这个参数对苏州方言中的普通/i/和擦化/i/进行了比较。结果显示,擦化/i/的HNR值显著小于普通/i/。腭位调查也显示擦化/i噪音的主要来源在于调音。

  倒谱突显峰值(Cepstral peak prominence,简称CPP)是另一种用于反映声音中的噪音水平的声学参数。CPP测量的是倒谱峰与倒谱回归线的距离。一个声音中噪音成分越多倒谱峰到回归线的距离就越小。一般来说,气声态的CPP值小于常态发声的CPP值。谐波振幅差等参数测量的准确性极易受到如共振峰、基频抖动(jitter)以及振幅抖动(shimmer)等多种因素的影响,但CPP测量则不受此限制(Hillenbrand等1994:776)。Esposito(2006)使用CPP、H1-H2、H1-A1、H1-A2、H1-A3、A2-A3以及(H1+H2)/2)-A1这8种声学参数测量了10种不同语言/方言的发声态,测量中控制了音段(舌尖塞音+a)、性别(只选取男性发音)、时长(250ms)以及F0(115-110Hz),测量结果表明CPP是区分气化和常态发声态最稳定的参数。

  近年来,越来越多学者采用CPP进行气声与其他发声态的对比研究。如Wayland & Jongman(2003)、Avelino(2010)、Miller(2003,2007)和Berkson(2013)分别对高棉语(Khmer)、美洲印第安的Yalálag Zapotec、非洲语言Juj' hoansi以及印度语的Marathi进行了CPP值的测量。

  国内学者如袁丹(2014)采用H1-H2和CPP等声学参数来分析淳安威坪方言全清平声字的声母浊化问题。该研究比较了阴平和阴去字分别在5组元音前的发声态的不同,测量结果表明CPP值能够有效的区分威坪方言中的气化和常态发声,但H1-H2值却未达显著,可见CPP在发声态测量中对元音音质的依赖性较小。袁丹(2019)同时采用Hl-H2和CPP两个声学参数考察皖南吴语铜泾片方言中送气擦音、不送气擦音以及送气塞擦音三类发声态,研究例字都选用了非高元音例字,研究结果表明这两种参数都能有效区分该方言中元音段的送气和不送气两种发声态。孙谨(2018:333)运用CPP来区分野落语的气声和常态发声,实验结果表明,常态发声的CPP值总是大于气化发声的CPP值,并且配对T检验结果显示有显著差异,从而得出结论,野落语具有气化和常态两种不同的发声类型。

  不过需要注意的是,与HNR一样,CPP同样不能区分噪音的来源是发声还是调音(Miller 2007)。

  2.4 激励特征

  激励期(epoch)在语言学研究中目前还不是很广泛。语音发声的基本模型是声源—滤波模型(Source-filter model,如Fant 1960),即把声带音看作激励源,把声道看成一个滤波器。虽然所谓浊声的激励源就是声门产生的一系列脉冲,但是在单个脉冲区间,不同时间点的激励作用并不一样。其中最显著的激励发生在声门闭合瞬间(glottal closure instant,简称GCI),这就是所谓激励期(Gauffin & Sundberg 1989)。准确定位激励期对很多其他测量都有价值。比如它有助于精确测量基频,因为基频的本质就是声门连续的开闭过程,定位了闭合瞬间,就可以精确测量周期时长。在音质测量方面,激励期附近的音段不但信噪比最佳,而且因为声门关闭,使声门以上的声道和气管不会发生声学耦合,因此对这一时段的声音分析能最好地反映调音特征(Yegnanarayana & Gangashetty 2012)。

  与激励期紧密联系的参数是激励强度(strength of excitation,简称SoE)。因为不同发声态声门闭合时长和闭合速度都不一样,相应其激励强度也就不会一样。因此激励强度也是一个可以有效量化声源特征的参数。如前文所述,声门状态不同,可能由于传播条件造成声学结果很相似。而激励强度则仍然可以区分出声门的不同状态。比如Thati等人(2012)发现,在塞音闭塞段,常态浊声的激励强度比气声要低。随之带来的结果是常态浊声塞音从闭塞段过渡到元音的时候SoE值会出现一个突然上升,而气浊声塞音闭塞到元音的过渡段SoE值的变化比较平缓。Seyfarth & Garellek(2018)的研究结果也同样表明常态浊声比气声的激励强度低。

  2.5 以上几个参数虽然都可以反映发声态的差异,但各有局限。因此,比较合理的办法是尽量不要只采用单一参数,而应该综合使用这些参数。Blankenship(2002)是早期综合这些参数来研究发声态区别的经典研究,他通过三项参数:H1-H2,H1-F1和CPP研究了Mazatec语、Tagalog语,Chong语以及Mpi的发声态。结果表明CPP能够有效区分气化和常态发声类型,但在区分常态和喉化发声类型时效果却并不理想。Garellek&Keaing(2011)运用H1*-H2*、H1*-A1*、H1*-A2*、CPP、F0、F1、B4这7个声学参数测量了Mazatec语的三种发声态,发现H1*-H2*、H1*-A1*、H1*-A2*、CPP这4个参数能较好的区分Mazatec语的三种发声态,测量结果还显示男性和女性气化发声态的CPP值有显著差异,男性比女性更加气化。Kuang(2013)也综合了这些参数分别研究了汉语普通话、彝语以及清江苗语的发声态情况。史漾辉等人(2016)利用这些参数对吴语黎里方言中“送气分调”的问题进行了研究。孟晓红和张梦翰(2017)指出在区分语言发声态的声学特征中,最常见的谐波差(H1-H2)是最有效、最普适的语音声学特征,之后依次为第一谐波与第一共振峰振幅差(H1-A1)及第一共振峰带宽,但作者同时也指出不能只依靠单一特征来进行判定。

  叁 VoiceSauce操作

  3.1 VoiceSauce的安装

  VS软件可以在它的主页http://www.phonetics.ucla.edu/voicesauce/中免费直接下载。由于VS是基于Matlab开发的,它可以在Matlab中运行,也可以在PC上独立运行。主页上同时提供了Matlab中运行的m-code和供无Matlab环境PC使用的安装文件。如果用第二种方式,需要先安装一个Matlab的运行包(主页上也提供了下载链接)。

  3.2 参数设置

  安装完成后,打开软件会跳出两个窗口。其中一个全黑的窗口是控制台界面,只需等待,不需进行特殊操作。之后会弹出VS的主界面(见下页图1),有8个按钮,分别是:参数提取(Parameter Estimation)、参数显示(Parameter Display)、输出到文本(Output to Text)、输出到EMU(Output to EMU)、数据调整(Manual Data)、设置(Settings)、关于(About--)和退出(Exit)。如果需要自定义测量的参数,或者用默认设置得到的结果不理想,可以进入设置窗口设定各项参数后再进行测量。如果只用默认设置,就无需考虑这一步。这里先介绍一下VS中的参数设置。在主窗口点击“设置”按钮可调出设置窗口(见下页图2)。

  

  

  设置窗口有若干分区,一般需要调整的是基频设置,共振峰设置和Textgrid设置三个部分。VS内置了一些算法工具进行相关参数测量,它也允许调用外置程序进行测量。大家可以在基频和共振峰设置区的顶部选择要使用的算法工具,点选不同的算法不光为了测量基频共振峰本身,也是给后续发声态参数计算指定以哪种算法的结果作为数据基础。

  设置窗口最上方是基频参数设置区。基频提取默认是使用Straight算法。Straight算法设置比较简单,只需要设置预期基频结果的上下限,一般来说使用默认值即可。或者按发音人性别采用不同的参数,比如男性发音人可以使用50Hz-250Hz,女性发音人可以使用150Hz-350Hz。

  设置窗口第二排左侧是共振峰和带宽参数设置区。共振峰提取最常用的是Snack算法。Snack算法有两个参数可以更改。Pre一般不用改。LPC order和提取到的共振峰数量相关,数值越高,得到的共振峰越多。如果碰到元音/u/这样共振峰比较靠近的元音,可以考虑把这个系数提高。如果在提取界面(参见图3)选择了采样率定为16kHz,那么默认的LPC order可以定为18,如果结果不理想,可以在16-20范围内修正。

  

  设置窗口第三排左侧是标注文件设置区。Textgrid设置中可以填入需要忽略的标注段和读取层的序号。忽略的标签需放在半角的双引号中,多种标签则用半角的逗号分隔。比如默认设置为“””,”“,”SIL””,意思是忽略标注为空白或者只有空格的和标注为“SIL”(一般表示无声段)的音段。层序号则是指明VS读取哪一层标注,默认为第1层。

  3.3 参数提取

  测量计算功能在“参数提取”中。点击该按钮后会出现如图3的对话窗口。

  对话窗口顶部是列表框,会列出测量文件夹中所有的波形文件。在文本输入框“Input(*.wav)directory:”中,用户可以直接输入测量文件夹的路径,也可以通过点击旁边“Browse…”按钮用鼠标定位路径。定位路径后,这个窗口最上方的列表框会列出当前文件夹中存放的所有波形文件。如果要开始测量就可以直接点击最下面的“Start!”键。不过一般来说,先不要直接开始测量,而应该先调整一下需要提取的参数。因为默认是提取所有可以测量的参数,但是常规研究并不需要那么多参数。VS的官方介绍也建议不要一次提取太多参数,这样可以有效地避免内存大小的限制。所以我们先点击下面的“Parameter Selection…”按钮。点击后会出现一个参数选择对话框。

  对话框中列出了VS能够测量的参数。默认状态是所有测量的参数都选中。由于参数太多,逐个剔除比较麻烦。建议先任意点击一个参数,再在键盘上用Ctrl+A反向选择所有参数,然后再用鼠标点选其中的“F0(straight)”和“Formants(Snack)”。这两个参数是使用程序内置的Straight算法测量基频,用内置的Snack算法测量共振峰。因为这两个参数是计算大部分嗓音声学特征的基础(比如要测量H1-H2,就需要依靠基频值来定位前两个谐波)。选中相应参数后点击“OK”退出选择界面。接下来点击“Start!”,VS就会自动把当前目录中所有波形文件全部测量一遍。每个波形文件的测量结果都会存放在与波形文件同名的mat文件中。

  在参数提取窗口底下还有三个选项框:

  第一个是测量之前把所有不是16kHz采样频率的声音文件都先重新采样到16kHz。因为这样不但能减少不同采样率对部分结果的影响,也可以提高测量速度。这个选择框一般默认勾选。但由于程序不会自动保存经过重采样的文件,每次重新提取参数,声音文件都需要重新采样,这会影响测量效率。因此我们建议在备份好原始录音文件后,把所有文件提前批量重采样到16kHz。这样就可以提高测量速度。

  第二个选择框是利用Praat的Textgrid标注文件。如果没有标注文件,VS就会测量整个声音文件。但是大部分情况,我们可能只需要测量声音文件中的某一段。如果提前用Praat给声音文件做好标注,那么VS就可以不必测量整个声音文件了。默认情况下,VS只测量Textgrid第一层中有标注的音段。当然,我们也可以在设置中根据需要更改。

  第三个是显示波形。勾选后,点击上面列表框中的声音文件,就会直接显示对应的波形。

  基频和共振峰数据是其他参量的测量基础,因此整个测量的可靠性依赖于这两个参数的准确性。如果基频无法准确测量,那么所有测量都不可靠。共振峰提取不合理,那么基于共振峰的修正数据也都有问题。而共振峰的提取,会受制于气化、鼻化乃至基频过高等多种因素。建议完成基频和共振峰测量以后,一定要先检查一遍,确保无误后再开展其他参数的提取。第一步参数提取完成后,一般会先退出参数提取窗口,然后在主窗口中点击“参数显示”按钮。在参数显示窗口中,可以直接查看波形和提取到的各项结果。通常,直接观察基频曲线图和共振峰轨迹图就可以判断基频提取和共振峰提取结果是否合理。与“数据调整”中的参数显示不同,这里可以叠加显示多个参数,对显示共振峰之类的参数特别有用。

  VS提取参数总是同一目录批量测量的,这样很难做到对单个文件微调。但是事实上总会有一些声音文件用统一的参数测量的结果不是很理想。如果遇到这样的情况,我们的建议是先在主界面上启动参数显示功能,找到那些测量错误的声音样本,再利用Praat等其他软件单独处理这些有问题的样本,然后再到“数据调整”窗口把测量的结果替换掉VS提取的数值。

  当基础参数都测量修正完成后,可以再次在主界面点击“参数提取”。然后在参数提取界面中重新选择要计算的参数。如果选择的参数是上一次已经测量过的,VS会有新的结果覆盖上一次的结果;如果选择的参数之前没有测量过,VS会把新的结果追加到结果文件中。

  在完成所有测量计算后,最终的结果数据都可以在主界面调出“输出到文本(Output to Text)”窗口导出。导出数据时,还可以根据研究需要采用“无子段”(no sub-segments)和“使用子段”(use sub-segments)两种方式导出。“无子段”是导出从起始点到终点整个时段每一个时点的数据;“使用子段”则可以将整个时段进行等分,提取等分点的数据,选择“使用子段”后,可以在框内填写你所要的等分点,如填写“10”,则会提取从起始点到终点10个点的数据。设置完毕后,点击“start!”,数据就会导出,以txt的格式保存。使用者可以根据自身研究需求,将结果导入到Excel之类的软件中对测量数据的格式及排列实现进一步处理。

  肆 结语

  不论国内还是国外,发声态在早期语音学研究中一直没有得到很好的重视。汉语方言众多,发声态类型复杂,发声态必将成为研究的富矿。以前由于发声态的相关概念比较复杂,大部分重要参数提取并不是非常方便,造成相关研究不得不要面对技术上的拦路虎。VS软件的出现,大大降低了发声态研究的门槛,方便我们更多的学者参与到发声态的研究中来。

  原文参考文献:

  [1]孔江平2001《论语言发声》,(北京)中央民族大学出版社.

  [2]凌锋2011苏州话i元音的语音学分析,《语言学论丛》第43辑.

  [3]孟晓红、张梦翰2017发声态45种声学特征的综合效应分析,《南开语言学刊》第2期.

  [4]彭建国、朱晓农2010岳阳话中的假声,《当代语言学》第1期.

  [5]史濛辉、陈轶亚、Maarten Mous 2016升高抑或降低:黎里方言中的送气扰动,第9届国际吴方言研讨会(苏州科技大学)论文.

  [6]孙瑾2018野落倬语气声的声学研究,《语言科学》第3期.

  [7]袁丹2019皖南吴语铜泾片送气擦音sh-/ch-的来源及其音变——以新博方言为例,《中国语文》第1期.

  [8]袁丹、郑伟、徐小燕2015淳安威坪方言古全清平声字的声母浊化,《方言》第1期.

  [9]赵元任1928/2011《现代吴语的研究》,(北京)商务印书馆2011.

  [10]朱晓农2004浙江台州方言中的嘎裂声中折调,《方言》第3期.

  [11]朱晓农2005实验语音学和汉语语音研究,《南开语言学刊》第1期.

  [12]朱晓农2009发声态的语言学功能,《语言研究》第3期.

  [13]Avelino,H.2010 Acoustic and electroglottographic analyses of nonpathological,nonmodal phonation.Journal of Voice 24,3.

  [14]Berkson,K.2013 Phonation Types in Marathi:An Acoustic Investigation.Doctoral dissertation,University of Kansas.

  [15]Bickley,C.1982 Acoustic analysis and perception of breathy vowels.Speech Communication Group Working Papers I.Cambridge,MA:MIT.

  [16]Bishop,J.& P.Keating 2012 Perception of pitch location within a speaker's range:Fundamental frequency,voice quality and speaker sex.The Journal of the Acoustical Society of America,132,2.

  [17]Blankenship,B.2002 The timing of nonmodal phonation in vowels.Journal of Phonetics 30.

  [18]Boersma,P.& D.Weenink 2008 Praat:doing phonetics by computer.

  [19]Cao,J.& I.Maddieson 1992 An exploration of phonation types in Wu dialects of Chinese.Journal of Phonetics,20,1.

  [20]Catford,J.C.1977 Fundamental Problems in Phonetics.Midland Books.

  [21]Cho,T.,S.A.Jan & P.Ladefoged 2002 Acoustic and aerodynamic correlates of Korean stops and fricatives.Journal of Phonetics,30,2.

  [22]de Krom,G.1993 A cepstrum-based technique for determining a harmonic-to-noise ratio in speech signals.J Speech Hear Res,36.

  [23]DiCanio,C.T.2009 The phonetics of register in Takhian Thong Chong.Journal of the International Phonetic Association,39,2.

  [24]Esling,J.H.,S.R.Moisik,A.Benner & L.Crevier-Buchman 2019 Voice quality:the laryngeal articulator model(Vol.162).Cambridge University Press.

  [25]Espesito,Christina M.2006 The Effects of Linguistic Experience on the Perception of Phonation Doctoral dissertation,UCLA.

  [26]Fant,G.1960 Acoustic Theory of Speech Production.The Hague:Mouton.

  [27]Fischer-Jorgensen,E.1967 Phonetic analysis of breathy(murmured)vowels in Gujarati.Indian Linguistics,28.

  [28]Garellek,M.& P.Keating 2011 The acoustic consequences of phonation and tone interactions in Jalapa Mazatec.Journal of the International Phonetic Association 41/2.

  [29]Garellek,M.2015 Perception of glottalization and phrase-final creak.The Journal of the Acoustical Society of America,137,2.

  [30]Gauffin,J.& J.Sundberg 1989 Spectral correlates of glottal voice source waveform characteristics.J Speech Hear Res,32,3.

  [31]Gordon,M.& P.Ladefoged 2001 Phonation types:a cross-linguistic overview.Journal of Phonetics,29,4.

  [32]Hanson,H.1997 Glottal characteristics of female speakers:Acoustic correlates.J.Acoust.Soc.Am.101.

  [33]Hanson,H.M.,K.N.Stevens,H.K.J.Kuo,M.Y.Chen & J.Slifka 2001 Towards models of phonation.Journal of Phonetics,29,4.

  [34]Hillenbrand,James,A.Cleveland Ronald & Robert L.Erickson 1994 Acoustic correlates of breathy vocal quality.Journal of Speech and Hearing Research 37.

  [35]Holmberg,E.B.,R.E.Hillman,J.S.Perkell,P.C.Guiod & S.L.Goldman 1995 Comparisons among aerodynamic,electroglottographic,and acoustic spectral measures of female voice.Journal of Speech,Language,and Hearing Research,38,6.

  [36]Huffman,M.K.1987 Measures of phonation type in Hmong,J.Acoust.Soc.Am.,81.

  [37]Iseli,M.,Y.-L.Shue & A.Alwan 2007 Age,sex,and vowel dependencies of acoustic measures related to the voice source.J.Acoust.Soc.Am.121.

  [38]Kawabara,H.,I.Masuda-Katsuse & de A.Cheveigue 1999 Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequency based F0 extraction.Sp.Comm.27.

  [39]Keating,P.,C.M.Esposito,M.Garellek,S.U.Khan & J.Kuang 2010 WPP,No.108:Phonation contrasts across languages.Departtment of Linguistics,UCLA,108.

  [40]Keating,P.,M.Garellek & J.Kreiman 2015 Acoustic properties of different kinds of creaky voice.In Proceedings of the 18th International Congress of Phonetic Sciences,0821-1.

  [41]Kreiman,J.,Y.L.Shue,G.Chen,M.Iseli,B.R.Gerratt,J.Neuhauer & A.Alwan 2012 Variability in the relationships among voice quality,harmonic amplitudes,open quotient,and glottal area waveform shape in sustained phonation.J.Acou.st.Soc.Am.132,4.

  [42]Kuang,J.2011 Production and Perception of the Phonation Contrast in Yi.Doctoral dissertation,University of California,Los Angeles.

  [43]Ladefoged,P.& I.Maddieson 1996 The Sounds of the World s Languages.Oxford:Blackwell.

  [44]Ladefoged,P.& N. -Barroso 1985 Computer measures of breathy voice quality.UCLA Working Papers in Phonetics,61.

  [45]Ladefoged,P.1983 The linguistic use of different phonation types.In D.Bless & J.Abbs(eds)Vocal Fold Physiology:Contemporary Research and Clinical Issues,San Diego:College Hill Press.

  [46]Laver,J.1980 The Phonetic Description of Voice Quality.Cambridge University Press,Cambridge.

  [47]Laver,J.1994 Principles of Phonetics.Cambridge University Press,Cambridge.

  [48]Miller,Amanda 2007 Guttural consonants and guttural co-articulation in Juj'hoansi.Journal of Phonetics 35,1.

  [49]Mille-Ockhuizen,Amanda 2003 The Phonetics and Phonology of Gutturals:A Case Study from Juj'hoansi(Outstanding Dissertations in Linguistics).New York:Routledge.

  [50]Ní Chasaide,A.& C.Gobl 1997 Voice source variation.In W.Hardcastle & J.Laver(eds)The Handbook of Phonetic Sciences,Cambridge,MA:Blackwells.

  [51]Ren,N.1992/2006 Phouation Types and Stop Consonant Distinctions:Shanghai Chinese,Doctoral dissertation,University of Connecticut.(中文版:《上海话发声类型和塞辅音的区别特征》,上海辞书出版社2006)

  [52]Seyfarth,S.& M.Garellek 2018 Plosive voicing acoustics and voice quality in Yerevan Armenian.Journalof Phonetics,71.

  [53]Shue,Y.-L.,P.Keating,C.Vicenik & K.Yu 2011 VoiceSauce:A program for voice analysis,Proceedings of the ICPhS X VII.

  [54]Simpson,A.P.2012 The first and second harmonics should not be used to measure breathiness in male and female voices.Journal of Phonetics,40,3.

  [55] ,K.2004 Snack sound toolkit.KTH Stockholm,Sweden.http://www.speech.kth.se/snack.

  [56]Stevens,K.1977 Physics of laryngeal behavior and larynx modes,Phonetica,34.

  [57]Sun,X.& Xu,Yi 2002 Perceived pitch of synthesized voice with alternate cycles.Journal of Voice,164.

  [58]Sun,X.2002 Pitch determination and voice quality analysis using Subharmonic-to-Harmonie Ratio.Proc.CASSP Orlando.

  [59]Thati,S.A.,B.Bollepalli,P.Bhaskararao & B.Yegnanarayana 2012 Analysis of breathy voice based on excitation characteristics of speech production.International Conference on Signal Processing & Communications.

  [60]Tian,Jia & Jianjing Kuang 2016 Revisiting the register contrast in Shanghai Chinese.Tonal Aspects of Languages.

  [61]Titze IR.1988 The physics of small amplitude oscillation of the vocal folds.The Journal of the Acoustical Society of America,83.

  [62]Wayland,Ratree & Allard Jongman 2003 Acoustic correlates of breathy and clear vowels:The case of Khmer.Journal of Phonetics 3 1.

  [63]Yegnanarayana,B.& S.V.Gangashetty 2011 Epoch-based analysis of speech signals.Sadhana,365.

 

  

  

作者简介

姓名:凌锋 史濛辉 袁丹 沈瑞清 工作单位:

转载请注明来源:中国社会科学网 (责编:马云飞)
W020180116412817190956.jpg

回到频道首页
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们