一種結(jié)合電聲門圖的漢語語音情感數(shù)據(jù)庫的語音標(biāo)注方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種結(jié)合電聲門圖的漢語語音情感數(shù)據(jù)庫的語音標(biāo)注方法,其語音標(biāo)注信息較全面和詳細(xì),使用電聲門圖直接反應(yīng)聲帶振動信息,減少噪聲干擾,提高語音標(biāo)注的準(zhǔn)確性。
【背景技術(shù)】
[0002]語音是人們在交流和表達情感的最直接的方式之一。隨著人機交互和情感計算的不斷發(fā)展,從語音中識別其所要表達的情感信息越來越受到國內(nèi)外學(xué)者的關(guān)注。語料庫是語音情感識別的基礎(chǔ),因此,選擇合適的語料庫作為語音情感分析和識別的基礎(chǔ),顯得極為重要。對連續(xù)語音進行分割和標(biāo)注,對語料庫的充分利用有重要作用。
[0003]近年來,國內(nèi)外研宄學(xué)者以自身的科研任務(wù)為背景,分別建立多個語音情感數(shù)據(jù)庫,但由于情感的復(fù)雜性,目前對情感語音數(shù)據(jù)庫的建立和標(biāo)注仍然沒有建立統(tǒng)一的標(biāo)準(zhǔn),故建立完善的數(shù)據(jù)庫對語音情感的識別、語音合成等研宄具有非常重要的意義。
【發(fā)明內(nèi)容】
[0004]為了進行漢語語音情感識別的研宄,本發(fā)明提出了一種結(jié)合電聲門圖的漢語語音情感數(shù)據(jù)庫的語音標(biāo)注方法,在采集語音信號的基礎(chǔ)上,同時采集電聲門圖信號。電聲門圖直接反應(yīng)聲帶的振動信息,避免聲道調(diào)制和聲音傳播過程中的噪聲干擾,從而提高語音標(biāo)注的準(zhǔn)確性。該語音標(biāo)注方法的主要標(biāo)注內(nèi)容包括對每條語音同時標(biāo)注八層信息,分別為:第一層,文字轉(zhuǎn)換層,明確說話人說話內(nèi)容及相應(yīng)的副語言信息;第二層,音節(jié)層,標(biāo)注每個音節(jié)的正則拼音和聲調(diào);第三層,聲韻母層,將音節(jié)層的聲韻母分開標(biāo)注,同時標(biāo)明聲調(diào)信息,聲調(diào)信息包含有說話人的情感信息;第四層,清音濁音靜音層,結(jié)合電聲門圖對語音的清濁靜音的進行分割,使分割更準(zhǔn)確;第五層,副語言信息層,標(biāo)注每條語音包含的副語言信息;第六層,情感層,根據(jù)說話人表達的情感狀態(tài),每條語音都標(biāo)注包含有悲傷、高興、害怕、驚訝、平靜、生氣、嫌惡七種情感信息并標(biāo)注每種情感的表達程度;第七層,重音指數(shù)層,標(biāo)注每個音節(jié)發(fā)音的強度信息;第八層,語句功能層,標(biāo)注每條語句的語句類型。具體八層標(biāo)注信息如下:
[0005](I)HZ (文字轉(zhuǎn)換層),將聽到的語音信息轉(zhuǎn)換為文字信息,轉(zhuǎn)換時語音及副語言信息準(zhǔn)確轉(zhuǎn)寫,文字標(biāo)注必須標(biāo)明基本文字信息以及副語言學(xué)現(xiàn)象,基本標(biāo)注中的副語言學(xué)現(xiàn)象采用社科院語言研宄所設(shè)計副語言學(xué)符號表示;
[0006](2) PY (音節(jié)層),標(biāo)注正則拼音和聲調(diào),且聲調(diào)標(biāo)注在拼音之后;
[0007](3) SY (聲母/韻母層),將音節(jié)的聲母與韻母分開標(biāo)注,聲調(diào)標(biāo)注在韻母部分;
[0008](4) SUV:清音濁音靜音層,根據(jù)電聲門圖和語音的波形特點以及語譜圖特征,對語音進行清池靜音的分割和標(biāo)注,并分別以S (Silence靜音)、U (Unvoiced sound清音)、V (Voiced sound 池音)表不;
[0009](5)PARAL:副語言信息層,標(biāo)注所在語音段的副語言信息,包括語句停頓、拖長、語氣詞等,可采用社科院語言研宄所設(shè)計的副語言學(xué)符號表示;
[0010](6) EMO:情感表達層,標(biāo)注包含有悲傷、高興、害怕、驚訝、平靜、生氣、嫌惡其中情感表達類型及每種情感的表達程度;
[0011](7) ST:重音指數(shù)層,將重音程度劃分為4級(1-4),從I到4重音程度越來越強,將語音中不同的重音程度的音節(jié)用1-4進行標(biāo)注;
[0012](8)FU:語句功能層,標(biāo)注語音中的句子類型,分別有陳述句(declarative)、疑問句(interrogative)、感嘆句(exclamatory)、祈使句(imperative)。
[0013]其中,所述的第二層PY層的音節(jié)標(biāo)注層中,聲調(diào)直接標(biāo)注在音節(jié)之后,普通話的四個聲調(diào)分1,2,3,4表示,輕聲用O表示,例如:音節(jié)“我”的標(biāo)注為“W03”。
[0014]其中,所述的第三層SY層的聲韻母標(biāo)注層中,將音節(jié)層的聲韻母分開標(biāo)注,標(biāo)注實際發(fā)音。聲韻母標(biāo)注時,對應(yīng)于音節(jié)層,將每個音節(jié)的聲母,韻母以及聲母和韻母中間的過渡發(fā)音進行標(biāo)注,聲調(diào)標(biāo)注在韻母之后。普通話的四個聲調(diào)分別用_1,_2,_3,_4表示,輕聲用_0表不。
[0015]1、其中,所述的第六層EMO情感表達層的標(biāo)注中,每條語句都必須標(biāo)有7種情感類型和對應(yīng)的情感表達程度,標(biāo)注形式為:bl g3 hi jl pi si xl,每種情感后面標(biāo)注對應(yīng)的情感表達程度。情感表達程度用1-5表示,表示情感表達越來越強烈,1:毫無感情;2:僅有微弱的情感;3:情感表達較明顯,但不強烈;4:情感表達較強烈;5:情感表達很強烈。當(dāng)情感表達程度為I和2時,認(rèn)為該條語音的情感表達不好。標(biāo)注時,每兩種不同的情感之間要以空格鍵分開。
[0016]其中,所述的PY層和SY層中的語音靜音部分采用符號“sil”進行標(biāo)注。
[0017]本發(fā)明與現(xiàn)有的漢語情感語音數(shù)據(jù)庫相比的優(yōu)勢有:
[0018]1、采用雙模情感語音數(shù)據(jù)庫,同時包含有語音信號和電聲門圖信號,其中電聲門圖直接反應(yīng)聲帶的振動信息,避免聲帶調(diào)制和聲音傳播過程中引起的噪聲干擾,在進行語音分割時,使分割更加準(zhǔn)確;
[0019]2、標(biāo)注信息全面、詳細(xì)。本發(fā)明對語音信號進行八層信息的標(biāo)注,分別為:文字轉(zhuǎn)換層、音節(jié)層、聲韻母層、清音靜音濁音層、副語言信息層、情感層、重音指數(shù)層和語句功能層。相比于中國社會科學(xué)院語言研宄所標(biāo)注的語音數(shù)據(jù)庫CASS的三層標(biāo)注:音節(jié)層、聲韻母層、雜類曾(副語言學(xué)和非語言學(xué)現(xiàn)象)的標(biāo)注,很顯然,本發(fā)明的標(biāo)注信息更加全面詳細(xì),同時標(biāo)注信息中含有的情感相關(guān)的標(biāo)注信息對語音的情感分析研宄有重要意義。
【附圖說明】
[0020]圖1為本發(fā)明的語音標(biāo)注流程圖;
[0021]圖2為本發(fā)明進行語音標(biāo)注時的具體標(biāo)注情況;
[0022]圖3為本發(fā)明進行語音標(biāo)注時用到的部分副語言信息及相應(yīng)的標(biāo)注符號。
【具體實施方式】
[0023]下面結(jié)合附圖,對本發(fā)明的技術(shù)方案做進一步說明。
[0024]本發(fā)明提出了一種結(jié)合電聲門圖的漢語語音情感數(shù)據(jù)庫的語音標(biāo)注方法,在采集語音信號的基礎(chǔ)上,同時采集電聲門圖信號,電聲門圖直接反應(yīng)聲帶的振動信息,避免聲道調(diào)制和聲音傳播過程中的噪聲干擾,從而提高語音標(biāo)注的準(zhǔn)確性。該語音標(biāo)注方法的主要標(biāo)注內(nèi)容包括對每條語音同時標(biāo)注八層信息,分別為:第一層,文字轉(zhuǎn)換層,明確說話人說話內(nèi)容及相應(yīng)的副語言信息;第二層,音節(jié)層,標(biāo)注每個音節(jié)的正則拼音和聲調(diào);第三層,聲韻母層,將音節(jié)層的聲韻母分開標(biāo)注,同時標(biāo)明聲調(diào)信息,聲調(diào)信息包含有說話人的情感信息;第四層,清音濁音靜音層,結(jié)合電聲門圖對語音的清濁靜音的進行分割,使分割更準(zhǔn)確;第五層,副語言信息層,標(biāo)注每條語音包含的副語言信息;第六層,情感層,根據(jù)說話人表達的情感狀態(tài),每條語音都標(biāo)注包含有悲傷、高興、害怕、驚訝、平靜、生氣、嫌惡七種情感信息并標(biāo)注每種情感的表達程度;第七層,重音指數(shù)層,標(biāo)注每個音節(jié)發(fā)音的強度信息;第八層,語句功能層,標(biāo)注每條語句的語句類型。本發(fā)明采用Praat軟件進行標(biāo)注。
[0025]標(biāo)注流程參見附圖1。首先,打開Praat并導(dǎo)入.Wav格式的語音文件,利用語音文件新建.TextGrid文件,同時設(shè)計標(biāo)注為8個標(biāo)注層級并確定每個層級的表示符號;同時打開.Wav文件和.TextGrid文件,從低層級到高層及逐層添加分割時間點,并添加標(biāo)注內(nèi)容;最后,進行標(biāo)注檢驗和修改并保存文件。保存的文件名和源文件名相同,其擴展名為.TextGrid 文件。
[0026]語音標(biāo)注具體標(biāo)注要求及流程如下:
[0027](I)HZ-文字轉(zhuǎn)換層,將聽到的語音信息轉(zhuǎn)換為文字信息,轉(zhuǎn)換時語音及副語言信息準(zhǔn)確轉(zhuǎn)寫,在HZ層沒有分割點,標(biāo)注時,副語言信息標(biāo)注在對應(yīng)的文字后面,中間有靜音段時,標(biāo)注在相對應(yīng)的兩個文字中間,并且副語言信息的標(biāo)注符號放在中括號內(nèi);
[0028](2)PY-音節(jié)層,標(biāo)注正則拼音和聲調(diào),聲調(diào)在拼音之后,將兩個不同的音節(jié)之間及音節(jié)和靜音之間添加分割點。在對應(yīng)的分割點之間標(biāo)注音節(jié)和聲調(diào),聲調(diào)緊跟在音節(jié)之后,普通話的四個聲調(diào)分別用1,2,3,4進行表示,輕聲用O表示,具體標(biāo)注情況參見附圖2。
[0029]添加分割點原則參見附圖2,其中channell表