專利名稱::計算語音基音頻率的方法及設(shè)備的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及語音信號處理領(lǐng)域,特別涉及計算語音基音頻率的技術(shù)。
背景技術(shù):
:隨著網(wǎng)絡(luò)和多媒體技術(shù)的快速發(fā)展,語音處理系統(tǒng)已經(jīng)普及到廣播、電視、通訊等各領(lǐng)域中,從廣播、電視節(jié)目的制作設(shè)備到手持電話、便攜式音頻/視頻播放設(shè)備都離不開語音處理系統(tǒng)。在語音信號處理和語音編解碼領(lǐng)域,正確地估計基音頻率是極其重要的。從語音產(chǎn)生原理的角度來說,語音來源于聲腔的振動,產(chǎn)生聲波,再經(jīng)過聲道器官的調(diào)制得到語音信號。聲腔的振動通常會決定產(chǎn)生的語音信號的類型,例如元音,輔音,摩擦音等等。在實際出現(xiàn)的語音中,元音是占有著很大比例的。一個英語單詞通常包含著較大部分的元音。從信號分析的角度上來看,元音主要由諧波組成,即它的頻率分量由一個基音頻率(也可簡稱為基頻)和若千個它的整數(shù)倍頻率組成。在專利號為4,161,625的美國專利中,公開了一種從語音信號中獲得基音頻率的方法。在該專利中,通過對初始的語音信號進(jìn)行處理,得到差異信號,再采用自相關(guān)算法根據(jù)差異信號得到基音頻率。由于在實際語音編解碼和語音信號處理的算法里(例如語音編解碼標(biāo)準(zhǔn)G.729等),傳統(tǒng)的計算基音頻率算法主要是自相關(guān)算法,即通過計算語音信號的最大自相關(guān)系數(shù)來找到特定的值。因為語音信號中通常包含大量的噪聲,所以使用以自相關(guān)算法為基礎(chǔ)的基音頻率的計算方法可能存在一定偏差。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種計算語音基音頻率的方法及設(shè)備,能夠更為準(zhǔn)確地估計基音頻率。本發(fā)明公開了一種計算語音基音頻率的方法,包括以下步驟將時域的語音信號變換為離散的頻域信號X,,其中i=1,2,...,N;在l義,l中找出各作為局部最大值的峰值Mj,其中j-1,2,…,L,L為峰值的數(shù)目,|l表示取絕對值;在所述離散的頻域信號所涉及的定義域內(nèi),構(gòu)造L個不重疊的區(qū)域Zj,每個&的大小是預(yù)定的,每個A覆蓋一個A,其中£>,是肘7在定義域所對應(yīng)的值;以每個Z;為定義域分別構(gòu)造連續(xù)函數(shù)&,weZ"滿足I&(A)<Cl,其中^是x,在定義域所對應(yīng)的值,C1是一個正的常數(shù);在各Z;沒有覆蓋的定義域中,構(gòu)造函數(shù)S。("),we且《gZy,其中F,為采樣率,滿足s。(化)叫xj;將由各s;⑨和s。(《)組合成的作為頻譜計算基音頻率。本發(fā)明還公開了一種計算語音基音頻率的設(shè)備,包括變換單元,用于將時域的語音信號變換為離散的頻域信號義,,其中i=1,2,…,N;峰值計算單元,用于在I《I中找出各作為局部最大值的峰值M"其中j=1,2,...,L,L為峰值的數(shù)目,||表示取絕對值;重構(gòu)單元,用于在所述離散的頻域信號所涉及的定義域內(nèi),構(gòu)造L個不重疊的區(qū)域Z"每個Z,的大小是預(yù)定的,每個〈覆蓋一個ZV其中A是M,在定義域所對應(yīng)的值;以每個A為定義域分別構(gòu)造連續(xù)函數(shù)^(o;),滿足l^(^)-lz,l卜ci,其中^是X,在定義域所對應(yīng)的值,C1是一個正的常數(shù);在各Z,沒有覆蓋的定義域中,構(gòu)造函數(shù)S。(必),《e且wgZ"其中F,為采樣率,滿足5。(必,)<|《|。下面對連續(xù)函數(shù)57()的構(gòu)造方式做進(jìn)一步說明。在本實施方式中,通過用峰值對應(yīng)的頻域信號絕對值以及其前后兩個頻域信號絕對值進(jìn)行二項式插值,實現(xiàn)連續(xù)函數(shù)&(w)的構(gòu)造。比如說,第一個峰值M,對應(yīng)的頻域信號絕對值"在定義域所對應(yīng)的值為,則其前后兩個頻域信號絕對值(乙,K+1)在定義域所對應(yīng)的值為()。假設(shè)這個插值多項式由如下的二次三項式表示/(x)=ax2++c則通過代入法可以解得對應(yīng)的系數(shù)Ua,c):9<formula>formulaseeoriginaldocumentpage10</formula>因此,可以得到S,(w)-fl一2+同理,可通過二項式插值方式構(gòu)造出各&(w)函數(shù),即S/w)需要說明的是,由于在本實施方式中,峰值Mj實際上是在三點之中選取的最大值,因此如果第一個峰值M,對應(yīng)的頻域信號絕對值為",則區(qū)域Z,的起始位置為L在定義域所對應(yīng)的值,結(jié)束位置為在定義域所對應(yīng)的值,即21=尺,同理,可得到各Z,的區(qū)域。每一個峰值對應(yīng)的擬合曲線的定義域也可以采取其它任意合理的長度對于各Z/沒有覆蓋的定義域而言,由于這些區(qū)域不含有基音信息,因此可以簡單地將這些部分用任意函數(shù)S。(w)代替,we[O]且c^A,函數(shù)S。(w)需滿足S。(^)叫X,I這一條件即可。比如說,采用零函數(shù),即S。(w)-0。由于在本步驟中,已分別對這兩種類型的頻語進(jìn)行了函數(shù)重構(gòu),因此整個頻i昝都被重構(gòu)成為一個定義域連續(xù)的函數(shù),即<formula>formulaseeoriginaldocumentpage10</formula>接著,進(jìn)入步驟140,計算基音頻率。具體地說,由于在步驟130中,已得出一個定義域連續(xù)的函數(shù),根據(jù)此函數(shù)的函數(shù)特點即可直接導(dǎo)出基音頻率。比如說,在基音的可能存在范圍(如從50赫茲到500赫茲)進(jìn)行搜索,搜索的準(zhǔn)則是找到滿足如下式子的頻率雖)=argmax2|S(一|2其中,iV(w)是以w為基音頻率的諧波個數(shù),即為基音頻率。需要說明的是,上述公式只是一個作為搜索準(zhǔn)則的具體例子,在實際應(yīng)用中,也可以采用其他的公式,如將上述公式中的平方更改為4次方或1次方等。上述^相關(guān)公式的實質(zhì)在于在基音搜索時綜合考慮候選基音頻率及其多個倍頻,具體的公式形式可以有其它的變化,這樣可以使搜索結(jié)果更為準(zhǔn)確由于在本實施方式中,在計算基音頻率之前先對所用的頻域信號進(jìn)行重構(gòu),生成一個定義域連續(xù)的重構(gòu)函數(shù),該函數(shù)在各頻域峰值附近的定義域中按相應(yīng)的頻域信號進(jìn)行曲線擬合,在其它的定義域中對相應(yīng)的頻域信號進(jìn)行有效抑制。因為候選基音頻率及其倍數(shù)頻率通常表現(xiàn)為峰值,所以通過保留各峰值附近定義域中的頻域信號、大幅削弱其它定義域中的頻域信號,可以提高基音頻率計算的準(zhǔn)確性和抗干擾能力。通過變換得到的頻域信號是離散的,通過對定義域的連續(xù)化可以更為精確地進(jìn)在重構(gòu)函數(shù)所代表的頻譜中搜索基音頻率。值得一提的是,在本實施方式中,對各^沒有覆蓋的定義域所構(gòu)造的函數(shù)S。(的為S。(《)=0,從而最大限度削弱無關(guān)的頻率分量,進(jìn)一步提高基音頻率計算的準(zhǔn)確性和抗千擾能力。而在實際應(yīng)用中,也可以將函數(shù)S。(w)置為一個很小的值,同樣可以較為準(zhǔn)確地搜索到基音頻率。本發(fā)明的第二實施方式涉及一種計算語音基音頻率的方法,本實施方式與第一實施方式大致相同,其區(qū)別在于,在第一實施方式中,在構(gòu)造連續(xù)函數(shù)^如)時,是通過用峰值對應(yīng)的頻域信號絕對值以及其前后兩個頻域信號絕對值進(jìn)行二項式插值實現(xiàn)的;而在本實施方式中,可以通過擬合成分段直線,或用三次多項式來擬合,來實現(xiàn)連續(xù)函數(shù)57的構(gòu)造。ii本發(fā)明的方法實施方式可以以軟件、;哽件、固件等等方式實現(xiàn)。不管本發(fā)明是以軟件、硬件、還是固件方式實現(xiàn),指令代碼都可以存儲在任何類型的計算機可訪問的存儲器中(例如永久的或者可修改的,易失性的或者非易失性的,固態(tài)的或者非固態(tài)的,固定的或者可是換的介質(zhì)等等)。同樣,存儲器可以例如是可編程陣列邏輯(ProgrammableArrayLogic,簡稱"PAL")、隨機存取存儲器(RandomAccessMemory,簡稱"RAM")、可編程只讀存儲器(ProgrammableReadOnlyMemory,簡稱"PROM")、只讀存儲器(Read-OnlyMemory,簡稱"ROM")、電可擦除可編程只讀存儲器(ElectricallyErasableProgrammableROM,簡稱"EEPROM")、磁盤、光盤、數(shù)字通用光盤(DigitalVersatileDisc,簡稱"DVD")等等。本發(fā)明的第三實施方式涉及一種計算語音基音頻率的設(shè)備,如圖2所示,包括變換單元,用于將時域的語音信號變換為離散的頻域信號《,其中i=1,2,...,N;峰值計算單元,用于在I《I中找出各作為局部最大值的峰值M"其中j-1,2L,L為峰值的數(shù)目,ll表示取絕對值;重構(gòu)單元,用于在離散的頻域信號所涉及的定義域內(nèi),構(gòu)造L個不重疊的區(qū)域A,每個Zy的大小是預(yù)定的,每個A覆蓋一個A,其中A是i^在定義域所對應(yīng)的值;以每個Z,為定義域分別構(gòu)造連續(xù)函數(shù)^(w),weZy,滿足I&(a)-|%,』<C1,其中a是《在定義域所對應(yīng)的值,C1是一個正的常數(shù);在各A沒有覆蓋的定義域中,構(gòu)造函數(shù)s。0y),"e[o魯]iLgZ7,其中F,為采樣率,滿足s。(化)叫x,l;基音計算單元,用于將由各&(w)和s。(《)組合成的作為頻譜計算基音頻率?;粲嬎銌卧ㄟ^以下方式計算基音頻率在基音的可能存在范圍進(jìn)行搜索,搜索的準(zhǔn)則是找到滿足如下式子的頻率=argmaxJ]||212其中,iV(W)是以6)為基音頻率的諧波個數(shù),即為基音頻率。變換單元可采用FFT、離散余弦變換、改進(jìn)型離散余弦變換等方式,將時域的語音信號變換為離散的頻域信號。重構(gòu)單元可采用以下方式之一實現(xiàn)&(fi))的構(gòu)造用峰值對應(yīng)的頻域信號絕對值以及其前后兩個頻域信號絕對值進(jìn)行二項式插值、或擬合成分段直線,或用三次多項式來擬合。需要說明的是,本實施方式中提到的各單元都是邏輯單元,在物理上,一個邏輯單元可以是一個物理單元,也可以是一個物理單元的一部分,還可以以多個物理單元的組合實現(xiàn),這些邏輯單元本身的物理實現(xiàn)方式并不是最重要的,這些邏輯單元所實現(xiàn)的功能的組合是才解決本發(fā)明所提出的技術(shù)問題的關(guān)鍵。此外,為了突出本發(fā)明的創(chuàng)新部分,本實施方式并沒有將與解決本發(fā)明所提出的技術(shù)問題關(guān)系不太密切的單元引入,這并不表明本設(shè)備實施方式并不存在其它的單元。雖然通過參照本發(fā)明的某些優(yōu)選實施例,已經(jīng)對本發(fā)明進(jìn)行了圖示和描述,但本領(lǐng)域的普通4支術(shù)人員應(yīng)該明白,可以在形式上和細(xì)節(jié)上對其作各種改變,而不偏離本發(fā)明的精神和范圍。權(quán)利要求1.一種計算語音基音頻率的方法,其特征在于,包括以下步驟將時域的語音信號變換為離散的頻域信號Xi,其中i=1,2,...,N;在|Xi|中找出各作為局部最大值的峰值Mj,其中j=1,2,...,L,L為峰值的數(shù)目,||表示取絕對值;在所述離散的頻域信號所涉及的定義域內(nèi),構(gòu)造L個不重疊的區(qū)域Zj,每個Zj的大小是預(yù)定的,每個Zj覆蓋一個Dj,其中Dj是Mj在定義域所對應(yīng)的值;以每個Zj為定義域分別構(gòu)造連續(xù)函數(shù)Sj(ω),ω∈Zj,滿足|Sj(ωi)-|Xi||<C1,其中ωi是Xi在定義域所對應(yīng)的值,C1是一個正的常數(shù);在各Zj沒有覆蓋的定義域中,構(gòu)造函數(shù)S0(ω),<mathsid="math0001"num="0001"><math><![CDATA[<mrow><mi>ω</mi><mo>∈</mo><mfencedopen='['close=']'><mtable><mtr><mtd><mn>0</mn></mtd><mtd><mfrac><msub><mi>F</mi><mi>s</mi></msub><mn>2</mn></mfrac></mtd></mtr></mtable></mfenced></mrow>]]></math>id="icf0001"file="A2008100432330002C1.tif"wi="18"he="9"top="133"left="135"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>且<mathsid="math0002"num="0002"><math><![CDATA[<mrow><mi>ω</mi><mo>∉</mo><msub><mi>Z</mi><mi>j</mi></msub><mo>,</mo></mrow>]]></math>id="icf0002"file="A2008100432330002C2.tif"wi="13"he="4"top="136"left="161"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>其中Fs為采樣率,滿足S0(ωi)<|Xi|;將由各Sj(ω)和S0(ω)組合成的S(ω)作為頻譜計算基音頻率。2.根據(jù)權(quán)利要求1所述的計算語音基音頻率的方法,其特征在于,所述將5()作為頻語計算基音頻率的步驟,通過以下子步驟實現(xiàn)在基音的可能存在范圍進(jìn)行搜索,搜索的準(zhǔn)則是找到滿足如下式子的頻率雖)其中,W(ty)是以w為基音頻率的諧波個數(shù),即為基音頻率的計算結(jié)果。3.根據(jù)權(quán)利要求2所述的計算語音基音頻率的方法,其特征在于,在將時域的語音信號變換為離散的頻域信號的步驟中,采用以下變換方式之快速傅立葉變換、離散余弦變換、改進(jìn)型離散余弦變換。4.根據(jù)權(quán)利要求3所述的計算語音基音頻率的方法,其特征在于,所述在化l中找出各作為局部最大值的峰值M7的步驟包括以下子步驟計算j;-KI;搜索所有滿足K>max"+,,t)的"作為峰值A(chǔ)/,。5.根據(jù)權(quán)利要求4所述的計算語音基音頻率的方法,其特征在于,在所述構(gòu)造連續(xù)函數(shù)&的步驟中,采用以下方式之一實現(xiàn)&()的構(gòu)造用峰值對應(yīng)的頻域信號絕對值以及其前后兩個頻域信號絕對值進(jìn)行二項式插值、或擬合成分段直線,或用三次多項式來擬合。6.根據(jù)權(quán)利要求5所述的計算語音基音頻率的方法,其特征在于,所述So(必)=0。7.—種計算語音基音頻率的設(shè)備,其特征在于,包括變換單元,用于將時域的語音信號變換為離散的頻域信號乂,其中i=1,2,...,N;峰值計算單元,用于在IX,I中找出各作為局部最大值的峰值M"其中j-1,2,…,L,L為峰值的數(shù)目,||表示取絕對值;重構(gòu)單元,用于在所述離散的頻域信號所涉及的定義域內(nèi),構(gòu)造L個不重疊的區(qū)域z,,每個z,的大小是預(yù)定的,每個Z,覆蓋一個A,其中z^是M,在定義域所對應(yīng)的值;以每個z,為定義域分別構(gòu)造連續(xù)函數(shù)&0),we^,滿足I^(A)-|z,||<ci,其中fi),是x,在定義域所對應(yīng)的值,C1是一個正的常數(shù);在各z,沒有覆蓋的定義域中,構(gòu)造函數(shù)S。(w),且"gz,,其中《為采樣率,滿足s。(w,)叫z」;基音計算單元,用于將由各&(")和s。(《)組合成的作為頻譜計算基音頻率。8.根據(jù)權(quán)利要求7所述的計算語音基音頻率的設(shè)備,其特征在于,所述基音計算單元通過以下方式計算基音頻率在基音的可能存在范圍進(jìn)行搜索,搜索的準(zhǔn)則是找到滿足如下式子的頻率<yp=argmaxJ]IS(^y)卩其中,iV(w)是以w為基音頻率的諧波個數(shù),即為基音頻率的計算結(jié)果。9.根據(jù)權(quán)利要求8所述的計算語音基音頻率的設(shè)備,其特征在于,所述變換單元采用以下變換方式之一實現(xiàn)將時域的語音信號變換為離散的頻域信號快速傅立葉變換、離散余弦變換、改進(jìn)型離散余弦變換。10.根據(jù)權(quán)利要求9所述的計算語音基音頻率的設(shè)備,其特征在于,所述重構(gòu)單元采用以下方式之一實現(xiàn)&(6))的構(gòu)造用峰值對應(yīng)的頻域信號絕對值以及其前后兩個頻域信號絕對值進(jìn)行二項式插值、或擬合成分段直線,或用三次多項式來擬合。全文摘要本發(fā)明涉及信號處理領(lǐng)域,公開了一種計算語音基音頻率的方法及設(shè)備,能夠更為準(zhǔn)確地估計基音頻率。本發(fā)明中,在計算基音頻率之前先對所用的頻域信號進(jìn)行重構(gòu),生成一個定義域連續(xù)的重構(gòu)函數(shù),該函數(shù)在各頻域峰值附近的定義域中按相應(yīng)的頻域信號進(jìn)行曲線擬合,在其它的定義域中對相應(yīng)的頻域信號進(jìn)行有效抑制。在基音搜索時綜合考慮候選基音頻率及其多個倍頻。文檔編號G10L25/90GK101556795SQ20081004323公開日2009年10月14日申請日期2008年4月9日優(yōu)先權(quán)日2008年4月9日發(fā)明者林福輝,黃鶴云申請人:展訊通信(上海)有限公司