專利名稱:基于逆濾波的諧波噪聲激勵模型聲碼器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種混合激勵模型聲碼器,具體涉及基于逆濾波的諧波噪聲激勵模型聲碼器。
背景技術(shù):
和諧人機交互技術(shù)一直都是人們關(guān)注的對象,聲碼器技術(shù)是其重要組成部分,它能夠?qū)σ粋€人的聲音進行處理,使之能夠產(chǎn)生接近自然人發(fā)音的語音,其研究成果對參數(shù)語音合成技術(shù)、語音編碼技術(shù)、個性化語音合成技術(shù)等的發(fā)展具有重要的意義。而目前的大多數(shù)聲碼器技術(shù)采用脈沖加白噪聲激勵模型,這種激勵模型在濁音段用脈沖串構(gòu)建激勵信號,由于脈沖串周期性過強,采用這種激勵模型合成語音音質(zhì)不高,有很嚴重的機器聲。殘差信號是語音信號經(jīng)過逆濾波去除譜信息后的殘留信號,是激勵建模的目標信號。脈沖加白噪聲激勵模型在高頻段不能很好的模擬殘差信號。與之相比,直接對殘差信號進行建模的諧波噪聲激勵模型能夠很好的解決這個問題。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)問題,本發(fā)明的目的是提出一種技術(shù),可以對逆濾波后的殘差信號進行建模,使生成的激勵信號具有較高的準確性;根據(jù)濁音殘差信號的頻譜具有低頻諧波和高頻噪聲的特性,求取最大濁音頻率將濁音殘差信號的頻譜劃分為高頻段和低頻段,分別采用一組正弦函數(shù)和高通濾波的高斯白噪聲來構(gòu)建,為此,本發(fā)明構(gòu)建一種基于逆濾波的諧波噪聲激勵模型聲碼器。為實現(xiàn)上述目的,本發(fā)明的基于逆濾波的諧波噪聲激勵模型聲碼器,利用電腦終端,分析語音數(shù)據(jù)的頻譜、基頻和最大濁音頻率,用低頻段的諧波和高頻段的噪聲構(gòu)建諧波噪聲激勵模型來復(fù)現(xiàn)逆濾波后的殘差信號,在激勵建模過程中,對任何輸入語音進行激勵建模,所述諧波噪聲激勵模型聲碼器中具有一參數(shù)提取模塊,輸入端接收待分析語音數(shù)據(jù),加窗分幀,計算基頻參數(shù)和頻譜參數(shù);具有一輸出端輸出基頻參數(shù)和頻譜參數(shù);具有一逆濾波模塊,輸入端接收頻譜參數(shù)和待分析語音數(shù)據(jù),根據(jù)頻譜參數(shù)設(shè)計逆濾波器對語音數(shù)據(jù)逆濾波;具有一輸出端輸出逆濾波后的殘差信號;具有一最大濁音頻率估計模塊,輸入端接收基頻參數(shù)和逆濾波后的殘差信號;具有一輸出端輸出計算出的最大濁音頻率;具有一濁音激勵生成模塊,輸入端接收基頻參數(shù)和最大濁音頻率,分低頻段和高頻段分別生成濁音激勵信號;具有一輸出端按幀輸出生成濁音激勵信號;具有一清音激勵生成模塊,用高斯白噪聲作為清音激勵;具有一輸出端按幀輸出清音激勵信號;具有一參數(shù)語音合成器模塊,輸入端接收頻譜參數(shù)和清音激勵信號或濁音激勵信號,調(diào)用語音合成器合成語音;具有一輸出端輸出語音合成結(jié)果;
優(yōu)選地,所述最大濁音頻率估計模塊具有一頻譜計算模塊,輸入端接收逆濾波后的殘差信號,加窗分幀后進行短時傅里葉分析計算每幀殘差信號的頻譜幅度值;具有一輸出端輸出每幀殘差信號的頻譜幅度值;具有一子帶劃分模塊,輸入端接收基頻參數(shù)和每幀殘差信號的頻譜幅度值,對殘差信號的頻譜幅度值的正頻率部分按照基頻劃分為多個子帶;具有一輸出端輸出每幀殘差信號的頻譜幅度值的子帶劃分結(jié)果;具有一 K-均值聚類模塊,輸入端接收每幀殘差信號的頻譜幅度值的子帶劃分結(jié)果,定義子帶之間的距離度量方法,采用K-均值聚類方法將子帶劃分為兩類,將聚類結(jié)果一類視為諧波,一類視為噪聲;具有一輸出端輸出每個子帶的聚類結(jié)果;具有一 Viterbi搜索模塊,輸入端接收每個子帶的聚類結(jié)果,通過計算子帶的K-均值聚類結(jié)果的斜率定義一幀殘差信號可能的諧波/噪聲轉(zhuǎn)換點,定義相鄰子帶的諧波之間的拼接代價,運用Viterbi算法通過搜索最大拼接代價來得到最大濁音頻率的最優(yōu)路徑;具有一輸出端輸出最大濁音頻率的最優(yōu)路徑。優(yōu)選地,濁音激勵生成模塊具有一低頻段諧波模塊,輸入端接收基頻參數(shù)和最大濁音頻率,采用一組正弦波構(gòu)建低頻段諧波;具有一輸出端輸出濁音激勵低頻段諧波信號; 具有一高頻段噪聲模塊,輸入端接收最大濁音頻率,設(shè)計截止頻率為最大濁音頻率的理想高通濾波器對高斯白噪聲進行濾波得到濁音激勵高頻段噪聲信號;具有一輸出端輸出濁音激勵高頻段噪聲信號。優(yōu)選地,參數(shù)語音合成器模塊具有一語音參數(shù)合成器模型,輸入端接收頻譜參數(shù)和清音激勵信號或濁音激勵信號,調(diào)用語音合成器合成語音;具有一輸出端輸出語音合成結(jié)果。本發(fā)明的有益效果本發(fā)明的第一方面,在最大濁音頻率估計階段,利用K-均值聚類和Viterbi搜索的方法。傳統(tǒng)的基于頻譜的最大濁音頻率計算方法,往往需要定義一個諧波的度量方法,同時確定一個閾值來對候選的諧波成分進行判斷。這種方法的準確性很大程度上取決于定義的諧波度量方法和采用的閾值大小,這樣往往需要耗費大量的人力做實驗來選擇諧波度量方法和確定所采用的閾值,在不同情況下的語音又需要重新通過實驗調(diào)整閾值。但是在本方法是通過K-均值聚類來確定可能的諧波/噪聲轉(zhuǎn)換點,通過 Viterbi算法來搜索最大濁音頻率的最優(yōu)路徑,不需要任何手工標注信息,從而大大降低了系統(tǒng)實現(xiàn)的復(fù)雜度和人工參與程度。本發(fā)明的第二方面,在計算子帶之間的距離時采用夾角度量方法。傳統(tǒng)的基于歐式距離的度量方法,定義的是歐式空間的真實距離。由于子帶之間的歐式距離較小,影響 K-均值聚類。但是采用夾角度量方法,能夠?qū)⒆訋еg的距離經(jīng)過一個非線性變換放大,使聚類結(jié)果更加準確。本發(fā)明的第三方面,在濁音激勵建模階段,采用一組正弦波構(gòu)成的低頻段和高通濾波的高斯白噪聲構(gòu)成的高頻段組成。傳統(tǒng)基于脈沖串的濁音激勵,周期性太強,合成語音有嚴重的機器聲,脈沖串頻譜的零頻段存在半個諧波與殘差信號的頻譜不符。但是本方法采用低頻段和高頻段對濁音激勵分兩段建模,能夠有效去除合成語音的機器聲,同時去除零頻段半個諧波的干擾。
圖1是本發(fā)明所提出的基于逆濾波的諧波噪聲模型聲碼器的總體框圖。
5
圖2是本發(fā)明的最大濁音頻率估計的框圖。圖3是本發(fā)明的構(gòu)建濁音語音激勵模型的框圖。圖4是本發(fā)明的參數(shù)語音合成器的框圖。
具體實施例方式下面結(jié)合附圖和實例對本發(fā)明進一步說明,通過結(jié)合附圖對系統(tǒng)各組成部件的詳細說明將會更好地描述實現(xiàn)本發(fā)明的步驟和過程。應(yīng)該指出,所描述的實例僅僅視為說明的目的,而不是對本發(fā)明的限制。圖1是本發(fā)明基于逆濾波的諧波噪聲激勵模型聲碼器的系統(tǒng)示意圖,系統(tǒng)以 matIab語言編寫,在windows平臺下和在Iinux平臺下均可使用Matlab程序編程運行。在附圖1本發(fā)明的優(yōu)選實施方案中,本系統(tǒng)被分為六部分參數(shù)提取模塊1、逆濾波模塊2、最大濁音頻率估計模塊3、濁音激勵生成模塊4、清音激勵生成模塊5和參數(shù)語音合成器模塊 6組成。其中,輸入的語音數(shù)據(jù)與參數(shù)提取模塊1相連,逆濾波模塊2與參數(shù)提取模塊1相連,最大濁音頻率估計模塊3與逆濾波模塊2相連,濁音激勵生成模塊4和清音激勵生成模塊5與最大濁音頻率估計模塊相連,參數(shù)語音合成器模塊與濁音激勵生成模塊4和清音激勵生成模塊5選擇相連。具有一參數(shù)提取模塊1,其輸入端接收待分析語音數(shù)據(jù),加窗分幀,計算基頻參數(shù)和頻譜參數(shù);具有一輸出端輸出基頻參數(shù)和頻譜參數(shù)。具有一逆濾波模塊2,其輸入端接收頻譜參數(shù)和待分析語音數(shù)據(jù),根據(jù)頻譜參數(shù)設(shè)計逆濾波器對語音數(shù)據(jù)逆濾波;具有一輸出端輸出逆濾波后的殘差信號。具有一最大濁音頻率估計模塊3,其輸入端接收基頻參數(shù)和逆濾波后的殘差信號; 具有一輸出端輸出計算出的最大濁音頻率。具有一濁音激勵生成模塊4,其輸入端接收基頻參數(shù)和最大濁音頻率,分低頻段和高頻段分別生成濁音激勵信號;具有一輸出端按幀輸出生成濁音激勵信號。具有一清音激勵生成模塊5,用高斯白噪聲作為清音激勵;具有一輸出端按幀輸出清音激勵信號。具有一參數(shù)語音合成器模塊6,其輸入端接收頻譜參數(shù)和清音激勵信號或濁音激勵信號,調(diào)用語音合成器合成語音;具有一輸出端輸出語音合成結(jié)果。如圖2最大濁音頻率估計模塊的框圖所示最大濁音頻率估計模塊3由頻譜計算模塊10、子帶劃分模塊20、K-均值聚類模塊30和Viterbi算法模塊40。頻譜計算模塊10的輸入端接收逆濾波后的殘差信號,加窗分幀后進行短時傅里葉分析計算每幀殘差信號的頻譜幅度值;具有一輸出端輸出每幀殘差信號的頻譜幅度值; 在進行傅里葉分析時采用的長度為4096,這樣能夠確保接下來子帶劃分模塊20劃分出的子帶具有較高的準確度。子帶劃分模塊20的輸入端接收基頻參數(shù)和每幀殘差信號的頻譜幅度值,對殘差信號的頻譜幅度值的正頻率部分按照基頻劃分為多個子帶,每個子帶用一維向量表示;具有一輸出端輸出每幀殘差信號的頻譜幅度值的子帶劃分結(jié)果;子帶長度和子帶個數(shù)可以通過基頻和采樣率確定,使用公式為
權(quán)利要求
1.一種基于逆濾波的諧波噪聲激勵模型聲碼器,利用電腦終端,分析語音數(shù)據(jù)的頻譜、 基頻和最大濁音頻率,用低頻段的諧波和高頻段的噪聲構(gòu)建諧波噪聲激勵模型來復(fù)現(xiàn)逆濾波后的殘差信號,在激勵建模過程中,對任何輸入語音進行激勵建模,其特征在于所述諧波噪聲激勵模型聲碼器中具有一參數(shù)提取模塊,輸入端接收待分析語音數(shù)據(jù),加窗分幀,計算基頻參數(shù)和頻譜參數(shù);具有一輸出端輸出基頻參數(shù)和頻譜參數(shù);具有一逆濾波模塊,輸入端接收頻譜參數(shù)和待分析語音數(shù)據(jù),根據(jù)頻譜參數(shù)設(shè)計逆濾波器對語音數(shù)據(jù)逆濾波;具有一輸出端輸出逆濾波后的殘差信號;具有一最大濁音頻率估計模塊,輸入端接收基頻參數(shù)和逆濾波后的殘差信號;具有一輸出端輸出計算出的最大濁音頻率;具有一濁音激勵生成模塊,輸入端接收基頻參數(shù)和最大濁音頻率,分低頻段和高頻段分別生成濁音激勵信號;具有一輸出端按幀輸出生成濁音激勵信號;具有一清音激勵生成模塊,用高斯白噪聲作為清音激勵;具有一輸出端按幀輸出清音激勵信號;具有一參數(shù)語音合成器模塊,輸入端接收頻譜參數(shù)和清音激勵信號或濁音激勵信號, 調(diào)用語音合成器合成語音;具有一輸出端輸出語音合成結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于逆濾波的諧波噪聲激勵模型建模方法,其特征在于所述最大濁音頻率估計模塊中具有一頻譜計算模塊,輸入端接收逆濾波后的殘差信號,加窗分幀后進行短時傅里葉分析計算每幀殘差信號的頻譜幅度值;具有一輸出端輸出每幀殘差信號的頻譜幅度值;具有一子帶劃分模塊,輸入端接收基頻參數(shù)和每幀殘差信號的頻譜幅度值,對殘差信號的頻譜幅度值的正頻率部分按照基頻劃分為多個子帶;具有一輸出端輸出每幀殘差信號的頻譜幅度值的子帶劃分結(jié)果;具有一 K-均值聚類模塊,輸入端接收每幀殘差信號的頻譜幅度值的子帶劃分結(jié)果,定義子帶之間的距離度量方法,采用K-均值聚類方法將子帶劃分為兩類,將聚類結(jié)果一類視為諧波,一類視為噪聲;具有一輸出端輸出每個子帶的聚類結(jié)果;具有一 Viterbi搜索模塊,輸入端接收每個子帶的聚類結(jié)果,通過計算子帶的K-均值聚類結(jié)果的斜率定義一幀殘差信號可能的諧波/噪聲轉(zhuǎn)換點,定義相鄰子帶的諧波之間的拼接代價,運用Viterbi算法通過搜索最大拼接代價來得到最大濁音頻率的最優(yōu)路徑;具有一輸出端輸出最大濁音頻率的最優(yōu)路徑。
3.根據(jù)權(quán)利要求1所述的基于逆濾波的諧波噪聲激勵模型建模方法,其特征在于濁音激勵生成模塊中具有一低頻段諧波模塊,輸入端接收基頻參數(shù)和最大濁音頻率,采用一組正弦波構(gòu)建低頻段諧波;具有一輸出端輸出濁音激勵低頻段諧波信號;具有一高頻段噪聲模塊,輸入端接收最大濁音頻率,設(shè)計截止頻率為最大濁音頻率的理想高通濾波器對高斯白噪聲進行濾波得到濁音激勵高頻段噪聲信號;具有一輸出端輸出濁音激勵高頻段噪聲信號。
4.根據(jù)權(quán)利要求1所述的基于逆濾波后殘差信號的諧波噪聲激勵模型建模方法,其特征在于參數(shù)語音合成器模塊具有一語音參數(shù)合成器模型,輸入端接收頻譜參數(shù)和清音激勵信號或濁音激勵信號,調(diào)用語音合成器合成語音;具有一輸出端輸出語音合成結(jié)果。
全文摘要
本發(fā)明基于逆濾波的諧波噪聲激勵模型聲碼器,聲碼器包含有參數(shù)提取模塊接收語音數(shù)據(jù),分析基頻參數(shù)和頻譜參數(shù);逆濾波模塊接收頻譜參數(shù)設(shè)計逆濾波器,得到去除譜信息的殘差信號;最大濁音頻率估計模塊接收基頻參數(shù)和逆濾波后的殘差信號,計算最大濁音頻率將殘差信號的頻譜劃分為低頻段的諧波和高頻段的噪聲;濁音激勵生成模塊接收基頻參數(shù)和最大濁音頻率,分別用一組正弦波和高通濾波的高斯白噪聲來構(gòu)建激勵模型中的低頻諧波和高頻噪聲;清音激勵生成模塊用高斯白噪聲;參數(shù)語音合成器模塊接收頻譜參數(shù)和清音激勵信號或濁音激勵信號,調(diào)用合成器輸出語音。依據(jù)本發(fā)明實現(xiàn)對逆濾波后的殘差信號建模,合成語音具有較好的自然度和清晰度。
文檔編號G10L11/06GK102201240SQ201110140269
公開日2011年9月28日 申請日期2011年5月27日 優(yōu)先權(quán)日2011年5月27日
發(fā)明者溫正棋, 陶建華 申請人:中國科學院自動化研究所