專利名稱:產(chǎn)生lsf矢量的制作方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及音頻信號的編碼,尤其涉及一種以想要的矢量輸出速率從音頻信號中產(chǎn)生線譜頻率(LSF)矢量的方法。本發(fā)明同樣涉及相應(yīng)的移動站、相應(yīng)的編碼器、相應(yīng)的芯片、相應(yīng)的通信網(wǎng)絡(luò)、相應(yīng)的通信系統(tǒng)、相應(yīng)的計(jì)算機(jī)程序以及相應(yīng)的計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
為了能夠?qū)⒁纛l信號(例如語音)從發(fā)送端有效地傳輸至接收端,眾所周知,在本領(lǐng)域中是于發(fā)送端將語音分割為譜包絡(luò)和激勵(lì)信號。譜包絡(luò)和激勵(lì)信號隨后都被量化并在相應(yīng)的比特流中傳送至接收端。
一種用于獲得語音的短期譜包絡(luò)表示的通用技術(shù)是線性預(yù)測系數(shù)(LPC)濾波。然而,所得到的LPC本身對于量化噪聲缺少魯棒性,這會導(dǎo)致濾波不穩(wěn)定的問題。因此,例如F.Itakura在“Line spectrum representationof linear predictive coefficients of speech signals(語音信號的線性預(yù)測系數(shù)的線譜表示)”(J.Acoust,Soc.Amer.第57卷,p.S35,1975年4月)中已經(jīng)提出將LPC變換成其它更適合的參數(shù)(線譜頻率(LSF)參數(shù))以進(jìn)行傳輸。這些LSF參數(shù)(也稱作線譜對)對于量化噪聲比較魯棒,并也展示出其它富有吸引力的特征。
當(dāng)從線性預(yù)測中提取LSF參數(shù)時(shí),將信號從時(shí)域變換至頻域應(yīng)當(dāng)考慮到采樣理論和抽樣理論。
采樣理論表明,如果時(shí)域信號xa(t)具有一個(gè)頻帶有限的傅里葉變換Xa(Ω)以使得對于Ω≥2π*F有Xa(Ω)=0(其中F是一特定頻率),則由等間距的樣本xa(nT)就能唯一的重建這個(gè)信號xa(t),其中-∞<n<∞,并且如果1T>2*F]]>則T是時(shí)間間隔。
另一方面,抽樣理論定義如何可能通過用系數(shù)M除當(dāng)前速率來將時(shí)域信號的較高采樣率改變至較低速率而不產(chǎn)生譜交疊,其中M≥1。
在傳統(tǒng)的聲碼器中,包括不同LSF參數(shù)值的LSF矢量是從在加窗語音上估計(jì)的線性預(yù)測系數(shù)中提取的,所述語音加窗典型的使用長度為160至240個(gè)樣本的特定速率(如20、10甚至5ms的時(shí)間間隔)的窗(例如漢明窗)。從抽樣的角度來看,它類似于將更頻繁地提取的LSF矢量(例如通過將LPC分析窗每次移位一個(gè)樣本而對于每個(gè)語音樣本所計(jì)算的LSF矢量)抽樣成想要的LSF矢量速率,例如上述速率之一。
發(fā)明概述本發(fā)明的一個(gè)目的是通過減少LSF矢量在時(shí)間中的高頻變化來提高LSF矢量的編碼效率。
本發(fā)明的又一個(gè)目的是提出一種當(dāng)從可用音頻信號中產(chǎn)生LSF矢量時(shí)減少由混疊引起的信號失真的可能性。
本發(fā)明的一個(gè)同樣的目的是提供一種具有低復(fù)雜度的LSF矢量提取方法。
通過以想要的矢量輸出速率從音頻信號中產(chǎn)生LSF矢量的方法可以實(shí)現(xiàn)根據(jù)本發(fā)明的這些目的。所提出的方法包括在第一步驟中從音頻信號樣本中計(jì)算線性預(yù)測系數(shù)(LPC)。從這些LPC中,以高于所想要的矢量輸出速率的提取速率提取LSF矢量。所提取出的LSF矢量由不同的LSF參數(shù)值組成。在下一個(gè)步驟中,對于至少一個(gè)LSF參數(shù)形成LSF軌跡。如以上提到的,一條LSF軌跡代表了對應(yīng)的LSF參數(shù)在時(shí)間上的值。而后,以預(yù)定的截止頻率對至少一條所形成的LSF軌跡進(jìn)行低通濾波。最后,通過從低通濾波后的LSF軌跡中重建抽樣數(shù)目的LSF矢量來獲得具有想要的矢量輸出速率的LSF矢量,其中抽樣數(shù)目對應(yīng)于想要的矢量輸出速率。
同樣,采用移動站、編碼器、芯片以及包含編碼器或者包括用于執(zhí)行所提出方法的各步驟的處理裝置的通信網(wǎng)絡(luò)來實(shí)現(xiàn)本發(fā)明的各目的。采用包括通信網(wǎng)絡(luò)和移動站的通信系統(tǒng)也能實(shí)現(xiàn)本發(fā)明的各目的,所述通信網(wǎng)絡(luò)和移動站的至少其中之一包括用于執(zhí)行所提出方法的各步驟的裝置。
最后,本發(fā)明的各目的可以通過計(jì)算機(jī)程序和包括作為存儲這種計(jì)算機(jī)程序的存儲裝置的機(jī)器可讀載體的計(jì)算機(jī)程序產(chǎn)品來實(shí)現(xiàn)。在這兩種情況下,計(jì)算機(jī)程序包括當(dāng)在處理單元中工作時(shí)執(zhí)行根據(jù)本發(fā)明的方法的各步驟的程序代碼代碼。
可以理解術(shù)語音頻數(shù)據(jù)包括語音數(shù)據(jù)以及其它音頻數(shù)據(jù)。
本發(fā)明是出于這樣的考慮通過適當(dāng)?shù)膸捁芾砟軌驕p輕LSF軌跡中的意外混疊。在這種帶寬管理中,必須確保在以較低速率采樣時(shí),所重建的信號不會由于較高頻帶中的能量而受到失真。通過首先以高于想要的輸出速率的提取速率從LPC中提取LSF矢量,就能根據(jù)本發(fā)明實(shí)現(xiàn)這一點(diǎn)。在將對于以較高提取速率提取的LSF矢量所得到頻譜低通濾波之后,隨后才將具有較高提取速率的LSF矢量僅僅抽樣到想要的輸出速率。作為根據(jù)本發(fā)明的低通濾波的意外和驚人的效果,能提高LSF軌跡的品質(zhì)。
本領(lǐng)域的熟練技術(shù)人員不會預(yù)期到對LSF軌跡進(jìn)行低通濾波會提高或破壞可聽信號品質(zhì),因?yàn)閷τ谄椒€(wěn)(stationary)語音來說,混疊不應(yīng)是個(gè)問題。在對于本發(fā)明的調(diào)查中,實(shí)際表明由于非平穩(wěn)性引起的混疊不是個(gè)大問題,并且當(dāng)本發(fā)明明顯減少了該混疊時(shí),可聽差別并不很顯著。因此本發(fā)明的一個(gè)優(yōu)點(diǎn)在于,它從最終的LSF矢量中除去了不必要的信息,然而同時(shí)保留了信號的品質(zhì)。
所除去的信息導(dǎo)致了更高的幀間相關(guān)性。這就使得量化更容易,并且由于碼本比特分配的減少,使得能夠?qū)SF參數(shù)進(jìn)行更好的打包。
量化中的改進(jìn)可以導(dǎo)致比特率的減小,然而仍能保持當(dāng)前系統(tǒng)的語音品質(zhì)和可識度。工作在非常低的比特率(也就是,低于或等于2.4kbps)下的當(dāng)前的語音聲碼器將大多數(shù)可用比特分配給譜參數(shù)(即LPC和譜幅度)。在“Efficient Parameter Quantisation for 2.4/1.2kb/s Split-Band LPC Coding(用作2.4/1.2kb/s分離頻帶LPC編碼的有效參數(shù)量化)”(IEEE Workshop onSpeech Coding,Dalavan,Wisconsin,USA,2000年9月17-20日)中,S.Villette、Y.D.Cho和A.M.Kondoz描述了例如一個(gè)在Surrey大學(xué)通信系統(tǒng)研究中心開發(fā)的1.2/2.4kbps分離頻帶LPC(SBLPC)聲碼器,通過它,高達(dá)60%的可用比特被用于代表譜參數(shù)。
通過從屬權(quán)利要求本發(fā)明的優(yōu)選實(shí)施例就會很明顯。
有利的,根據(jù)所想要的最終LSF矢量提取速率選擇低通濾波截止頻率。對于每5ms一個(gè)矢量的想要的最終LSF矢量提取速率,截止頻率可設(shè)置為例如100Hz,對于每10ms一個(gè)矢量的想要的最終LSF矢量提取速率,截止頻率可設(shè)置為例如50Hz,對于每20ms一個(gè)矢量的想要的最終LSF矢量提取速率,截止頻率可設(shè)置為例如25Hz。因此截止頻率應(yīng)相當(dāng)于矢量提取速率的一辦。
可以在時(shí)域或頻域中對LSF軌跡施加低通濾波。當(dāng)通過將LPC分析窗中心每次移位一個(gè)樣本而對于每個(gè)音頻樣本從LPC中提取LSF矢量時(shí),以及當(dāng)對所有得到的LSF軌跡施加低通濾波時(shí),采用根據(jù)本發(fā)明的方法可以預(yù)期最小的最終信號失真。然而為了減少系統(tǒng)的復(fù)雜度,也可能只對所選擇的各LSF軌跡施加低通濾波。為了替換地或進(jìn)一步地減少復(fù)雜度,還可能不對所有樣本都提取LSF矢量,只要從LPC中提取的LSF矢量比想要的最終LSF矢量輸出速率所需的多。
根據(jù)本發(fā)明的方法尤其可被實(shí)現(xiàn)在聲碼器中,該聲碼器用于對音頻數(shù)據(jù)進(jìn)行編碼,所述音頻數(shù)據(jù)要通過無線電接口從發(fā)送端發(fā)送至接收端,例如從通信網(wǎng)絡(luò)的收發(fā)信機(jī)發(fā)送到連接至通信網(wǎng)絡(luò)的移動站的收發(fā)信機(jī),反之亦然。
附圖的簡要描述以下,通過參考附圖的舉例更加詳細(xì)的解釋本發(fā)明,其中
圖1為說明本發(fā)明方法的第一實(shí)施例的流程圖;圖2-5為比較采用或不采用所提出的低通濾波技術(shù)對于每個(gè)樣本所提取的LSF參數(shù)(軌跡)隨時(shí)間變化的圖表,這里給出了第一、第四、第七和第十LSF軌跡;
圖6-10為當(dāng)采用傳統(tǒng)編碼器時(shí)、以及當(dāng)采用根據(jù)本發(fā)明的編碼器時(shí),在每20ms一個(gè)矢量、每5ms一個(gè)矢量、每10ms一個(gè)矢量、每30ms一個(gè)矢量、以及每40ms一個(gè)矢量的LSF矢量提取速率下,比較由不同預(yù)測參數(shù)得到的殘差LSF方差(variance of residual LSF)的圖表;圖11為比較在采用傳統(tǒng)編碼器時(shí)和在采用根據(jù)本發(fā)明的編碼器時(shí)由不同預(yù)測參數(shù)得到的WMSE的圖表;圖12為比較在采用傳統(tǒng)編碼器時(shí)和在采用本發(fā)明的編碼器時(shí)由不同預(yù)測參數(shù)得到的平均SD的圖表;圖13為比較在采用傳統(tǒng)編碼器時(shí)和在采用本發(fā)明的編碼器時(shí)由不同預(yù)測參數(shù)得到的2dB界外值%的圖表;圖14為比較在采用傳統(tǒng)編碼器時(shí)和在采用本發(fā)明的編碼器時(shí)由不同預(yù)測參數(shù)得到的WMSE的圖表;圖15為比較在采用傳統(tǒng)編碼器時(shí)和在采用本發(fā)明的編碼器時(shí)由不同碼本比特得到的平均SD的圖表;圖16為比較在采用傳統(tǒng)編碼器時(shí)和在采用本發(fā)明的編碼器時(shí)由不同碼本比特得到的2dB界外值%的圖表;圖17為對于所選擇的碼本比特范圍更詳細(xì)地描述圖16的2dB界外值%的圖表;
圖18為說明在LSF軌跡的頻譜上的能量分布的圖表,其中對于每個(gè)音頻樣本提取LSF矢量以用于所述LSF軌跡;圖19為圖18的對數(shù)級譜變化的摘錄;發(fā)明的詳細(xì)描述為了說明,首先描述從語音樣本中提取LSF矢量的試驗(yàn)。在試驗(yàn)中,采用10階LPC濾波器,從長度為200個(gè)樣本的加漢明窗后的語音數(shù)據(jù)中對于每個(gè)樣本計(jì)算LPC。更加具體的,通過將LPC分析窗的中心每次移位一個(gè)樣本來計(jì)算這些LPC。而后,對所獲得的LPC執(zhí)行15Hz的帶寬擴(kuò)展。而后從LPC中,提取每一個(gè)樣本的LSF矢量。每個(gè)LSF矢量被進(jìn)一步劃分為不同的LSF參數(shù),每一個(gè)參數(shù)在時(shí)間上的變化也稱為LSF軌跡。因?yàn)椴捎?0階LPC濾波器,所以所述劃分產(chǎn)生10條LSF軌跡。所有LSF軌跡的全部譜能量幾乎都在在低于100Hz的低頻帶內(nèi),如圖18和19所示。
在圖18中,描述了在0Hz和4000Hz之間的頻率(單位是Hz)上10條LSF軌跡的幅度(單位是db)。圖19顯示在0Hz至120Hz的頻率范圍內(nèi)圖18中的對數(shù)級譜變化的摘錄。所有LSF軌跡的幅度都隨頻率的增加而類似地減小,因此沒有將所描述的10條曲線指定到對應(yīng)的LSF軌跡?,F(xiàn)在在本發(fā)明中注意到,如果將LSF矢量抽樣到減少的矢量輸出速率,在特定頻率極限以上的頻帶內(nèi)的能量總和將導(dǎo)致譜混疊。根據(jù)采樣理論,該頻率極限取決于所選的抽樣速率。圖19所示的頻率范圍構(gòu)成了對于每20ms一個(gè)矢量、每10ms一個(gè)矢量以及每5ms一個(gè)矢量的LSF矢量提取速率的感興趣范圍。例如,如果系統(tǒng)以每20ms一個(gè)矢量的提取速率計(jì)算LSF矢量,那么大于25Hz的頻帶內(nèi)的所有能量將成為譜混疊的源、產(chǎn)生不準(zhǔn)確的LSF參數(shù)提取。
傳統(tǒng)上,基于分析窗內(nèi)的語音片段是平穩(wěn)的這一假設(shè)進(jìn)行語音分析。這種假設(shè)對于LSF軌跡頻譜上的高頻分量的源可能是不成立的,并且,與真正平穩(wěn)的語音的LSF軌跡相反,一些混疊確實(shí)發(fā)生在抽樣中。因此,由于在根據(jù)本發(fā)明的方法中減少了混疊,與在先技術(shù)相比本發(fā)明在信號品質(zhì)方面具有預(yù)想不到的優(yōu)點(diǎn)。
下表1詳細(xì)的表示出在以上參考圖18和19描述的試驗(yàn)中對于每個(gè)LSF軌跡所得到的在三個(gè)不同頻帶上的能量百分比,更具體的說是0Hz和25Hz之間的頻帶、25Hz和50Hz之間的頻帶以及50Hz以上的頻帶。作為語音數(shù)據(jù),采用4位男性和4位女性講話者的語音,每個(gè)人講兩句。根據(jù)以上提到的采樣理論,當(dāng)采用每20ms一個(gè)矢量的LSF矢量提取速率時(shí),25Hz以下頻帶內(nèi)的能量不會引起譜交疊,而當(dāng)采用每10ms一個(gè)矢量的矢量提取速率時(shí),50Hz以下頻帶內(nèi)的能量不會引起失真。
表1
從表1中可以看出超過92%的能量位于25Hz以下的頻帶內(nèi),當(dāng)采用每20ms一個(gè)矢量的矢量提取速率時(shí),它是相關(guān)帶。然而,在25Hz以上頻帶內(nèi)剩余的小于8%的能量仍足夠在LSF參數(shù)提取中的產(chǎn)生錯(cuò)誤。對于每10ms一個(gè)矢量的矢量提取速率,在相應(yīng)的50Hz以上頻帶內(nèi)的能量小于4%。
圖1的流程圖示出了根據(jù)本發(fā)明的方法的第一實(shí)施例。該方法例如可以被實(shí)現(xiàn)為通信網(wǎng)絡(luò)聲碼器的處理裝置中的計(jì)算機(jī)程序,其中該聲碼器用于對語音數(shù)據(jù)進(jìn)行編碼,所述語音數(shù)據(jù)要從通信網(wǎng)絡(luò)發(fā)送至移動站。
在該方法的第一步驟1中,為處理裝置提供語音樣本?;谶@些語音樣本,用10階LPC濾波器計(jì)算每個(gè)樣本的LPC,這是通過將LPC分析窗的中心對于對應(yīng)長度為200個(gè)樣本的加漢明窗后的語音數(shù)據(jù)每次移位一個(gè)樣本。在第二步驟2中對所計(jì)算出的LPC進(jìn)行15Hz帶寬擴(kuò)展。可以理解也可采用不同的濾波器階數(shù)、不同的窗口類型和尺寸以及不同的帶寬擴(kuò)展(或者不擴(kuò)展)。
在第三步驟3中,對于每個(gè)樣本從經(jīng)帶寬擴(kuò)展的LPC中提取LSF矢量。因此此時(shí)就獲得了相應(yīng)于原始語音樣本速率的LSF矢量速率,也就是說,該提取速率與采樣速率相等。
隨后,在第四步驟4中,從每個(gè)LSF矢量的對應(yīng)的10參數(shù)中產(chǎn)生10條LSF軌跡。
此后,每個(gè)經(jīng)FFT變換的LSF軌跡分別地在頻域中被低通濾波。在此第五步驟5中,根據(jù)以上提到的采樣理論,根據(jù)想要的最終LSF矢量輸出速率選擇用于低通濾波的截止頻率。例如,在想要的LSF矢量輸出速率為每20ms一個(gè)矢量的情況下,選擇25Hz的截止頻率。替換地,也可以在時(shí)域內(nèi)執(zhí)行低通濾波。
在第六步驟6中,以所想要的最終LSF矢量速率(即用于傳輸至移動站的速率,或可能是用于存儲的速率)從經(jīng)低通濾波的LSF軌跡中抽樣出LSF矢量。
所得到的LSF矢量能被量化并發(fā)送至移動站。
對于不同的LSF軌跡,圖2至5示出了采用所述的實(shí)施例所達(dá)到的譜混疊減少。一方面每一幅圖示出了在采用傳統(tǒng)方法的試驗(yàn)中得到的LSF軌跡在時(shí)間上的變化,另一方面示出了在采用參照圖1所描述方法的試驗(yàn)中得到的相同LSF軌跡在時(shí)間上的變化。
在傳統(tǒng)方法中,是以想要的LSF矢量速率從經(jīng)擴(kuò)展的LPC中直接提取LSF矢量。
在本發(fā)明的方法中,改為在帶寬擴(kuò)展之后執(zhí)行以上參考圖1所描述的步驟3至5。因此,與傳統(tǒng)方法相反,引入低通濾波操作作為抽樣前的預(yù)處理階段。
圖2是表示10條LSF軌跡中的第一條在時(shí)間上的相應(yīng)變化的圖表。該圖包括具有顯著短期變化的標(biāo)有“ORG LSF”(原始LSF)的第一曲線。該曲線代表傳統(tǒng)方法的結(jié)果。該圖還示出了標(biāo)有“LPF’d LSF”(經(jīng)低通濾波的LSF)的第二條曲線,它更平滑并且變化緩慢。第二條曲線代表了包括有低通濾波的根據(jù)本發(fā)明方法的結(jié)果。
圖3至5對于所述10條LSF軌跡中的第四、第七和第十條示出了具有類似差別的標(biāo)有“ORG LSF”和“LPF’d LSF”的相應(yīng)曲線。由傳統(tǒng)方法得到的LSF軌跡的變化在更高的LSF參數(shù)中(即在如圖4和5分別示出的第七條和第十條LSF軌跡中)更為明顯。另一方面,由根據(jù)本發(fā)明的方法得到的曲線都是平滑且變化緩慢的。
在H.P.Knagenhjelm和W.B.Kleijn的文獻(xiàn)“Spectral dynamics is moreimportant that spectral distortion(譜動態(tài)比譜失真更重要)”(1995International Conference on Acoustics,Speech,and Signal Processing.Conference Proceedings,IEEE.Part vol.1,1995,pp.732-5 vol.1.New York,NY,USA)中,根據(jù)其標(biāo)題已經(jīng)表明譜動態(tài)比譜失真(SD)更重要。譜動態(tài)也導(dǎo)致低速率量化,如由T.Eriksson、H-G Kang和P.Hedelin在‘Low-ratequantization of spectrum parameters(頻譜參數(shù)的低速率量化)’(2000 IEEEInternational Conference on Acoustics,Speech,and Signal Processing.Proceedings.IEEE.Part vol.3,2000,pp.1447-50 vol.3.Piscataway,NJ,USA)中所示出的那樣。由于其更平滑的變化,譜動態(tài)在經(jīng)低通濾波的軌跡中比在由傳統(tǒng)方法產(chǎn)生的軌跡中保持得明顯更好。
為了驗(yàn)證所提出的LSF軌跡的低通濾波不會導(dǎo)致合成語音的品質(zhì)降低,以每20ms一個(gè)矢量的LSF矢量輸出速率從經(jīng)低通濾波后的LSF軌跡中重建LSF矢量。然后對男性和女性講話者的合成語音進(jìn)行一個(gè)非正式的聽力測驗(yàn),該語音由以下兩者產(chǎn)生傳統(tǒng)地產(chǎn)生的LSF矢量和在低通濾波后從LSF軌跡中提取的LSF矢量。在該試驗(yàn)中,沒有發(fā)現(xiàn)在從兩個(gè)不同LSF矢量集合成的語音之間的品質(zhì)差別。
因?yàn)榈屯V波產(chǎn)生更平滑和更緩慢變化的軌跡,在保持信號品質(zhì)的同時(shí),能夠預(yù)期在更容易量化這方面的優(yōu)點(diǎn)和作為結(jié)果的通過比特節(jié)省的增益。以下,通過第一階移動平均(MA)預(yù)測器和一個(gè)矢量量化器展示所提出的方法相應(yīng)的優(yōu)點(diǎn)。
給出第一階MA預(yù)測器如下resni=lsfni-(lsfi+α*fb_resni)(1)又fb_resni=resn-1i(2)在公式(1)中,lsfni是幀n中的第i個(gè)LSF參數(shù),resni是幀n中的第i個(gè)LSF預(yù)測殘差,lsfi是第i個(gè)LSF參數(shù)平均值,α是預(yù)測參數(shù)。還有,fb_resni是幀n中的反饋LSF預(yù)測殘差。根據(jù)公式(2),使用前一個(gè)幀的量化殘差LSF預(yù)測resn-1i更新該公式的反饋部分。
為了比較傳統(tǒng)方法與本發(fā)明的方法,以不同LSF矢量輸出速率對由傳統(tǒng)方法和本發(fā)明的方法獲得的LSF矢量集進(jìn)行不同的試驗(yàn),尤其是對于每5ms一個(gè)矢量、每10ms一個(gè)矢量、每20ms一個(gè)矢量、每30ms一個(gè)矢量以及每40ms一個(gè)矢量的速率進(jìn)行試驗(yàn)。
為了獲得不同的LSF矢量集,同樣對于用200樣本長的漢明窗加窗的語音計(jì)算每個(gè)樣本的LPC,然后對其進(jìn)行15Hz帶寬擴(kuò)展。而后從經(jīng)帶寬擴(kuò)展的LPC中提取LSF矢量。隨后,對于每個(gè)LSF軌跡執(zhí)行低通濾波,根據(jù)采樣理論,所采用的截止頻率取決于所需的最終LSF矢量輸出速率。因此,對于每5ms一個(gè)矢量的矢量輸出速率,截止頻率設(shè)為100Hz,對于每10ms一個(gè)矢量的矢量輸出速率,截止頻率設(shè)為50Hz,對于每20ms一個(gè)矢量的矢量輸出速率,截止頻率設(shè)為25Hz,對于每30ms一個(gè)矢量的矢量輸出速率,截止頻率設(shè)為16.7Hz,對于每40ms一個(gè)矢量的矢量輸出速率,截止頻率設(shè)為12.5Hz。最后,采用本發(fā)明的方法,通過以各個(gè)希望的矢量輸出速率對經(jīng)低通濾波后的LSF軌跡進(jìn)行抽樣,就能對于每個(gè)所考慮的LSF矢量輸出速率產(chǎn)生第一個(gè)LSF矢量集。
采用傳統(tǒng)方法,對于每個(gè)所考慮的LSF矢量輸出速率產(chǎn)生第二個(gè)LSF矢量集,也就是說,通過以想要的矢量輸出速率從經(jīng)擴(kuò)展的LPC中直接提取LSF矢量。
對于在所描述的試驗(yàn)中得到的每個(gè)LSF矢量集,隨后采用不同預(yù)測參數(shù)α來確定反饋LSF預(yù)測殘差fb_resni。公式(1)中的反饋部分采用前一幀中的對應(yīng)的未量化的LSF預(yù)測殘差來更新。在每個(gè)仿真的末尾,對于每個(gè)LSF矢量集確定反饋LSF預(yù)測殘差fb_resni的方差。
在圖6至10中描述了各試驗(yàn)的結(jié)果,每個(gè)圖示出了以傳統(tǒng)方法和根據(jù)本發(fā)明的方法獲得的、對于特定LSF矢量輸出速率由不同預(yù)測參數(shù)得到的反饋LSF預(yù)測殘差fb_resni的方差。在每一圖中,基于由原始的、傳統(tǒng)方法獲得的LSF矢量的第一曲線標(biāo)有“ORG LSF”,基于經(jīng)低通濾波的LSF軌跡的第二條曲線標(biāo)有“LPF’d LSF”。
在圖6中描述了在每20ms一個(gè)矢量的矢量輸出速率下的殘差LSF預(yù)測的方差。如在圖中可看到的,低通濾波方法的方差始終低于傳統(tǒng)提取方法的方差。而且,與傳統(tǒng)方法相比較,低通濾波方法的最小方差發(fā)生在預(yù)測參數(shù)α的較高值上,在低通方法中相應(yīng)的預(yù)測參數(shù)α≈0.8,在傳統(tǒng)方法中α≈0.7。預(yù)測參數(shù)α的較高值表明根據(jù)本發(fā)明的方法產(chǎn)生更相關(guān)的LSF矢量,正如由于經(jīng)低通濾波的LSF軌跡比由傳統(tǒng)方法產(chǎn)生的軌跡更平滑這一性質(zhì)所能預(yù)期的。
在圖7中描述了在每5ms一個(gè)矢量的矢量輸出速率下的殘差LSF預(yù)測的相應(yīng)方差。在圖8中描述了在每10ms一個(gè)矢量的矢量輸出速率下的殘差LSF預(yù)測的變化。在圖9中描述了在每30ms一個(gè)矢量的矢量輸出速率下的殘差LSF預(yù)測的變化。最后,在圖10中描述了在每40ms一個(gè)矢量的矢量輸出速率下的殘差LSF預(yù)測的變化。
當(dāng)比較圖6至10時(shí),很明顯LSF矢量輸出速率越高,連續(xù)LSF矢量之間的相關(guān)性就越高,這依次導(dǎo)致了更高的最佳預(yù)測參數(shù)α。
從圖6至10中也能看出,不管LSF矢量輸出速率是多少,低通濾波方法的LSF殘差的方差總是低于傳統(tǒng)方法。而且,不管所選的LSF矢量輸出速率是多少,由于經(jīng)低通濾波的LSF矢量的較平滑的變化、并因此由于連續(xù)集之間的更高的相關(guān)性,經(jīng)低通濾波的LSF矢量總是得到更高的最佳預(yù)測參數(shù)α。高相關(guān)性和較低的方差使量化更容易。
出于以上所述試驗(yàn)的結(jié)果,對于傳統(tǒng)方法和根據(jù)本發(fā)明的方法,對每一個(gè)LSF矢量輸出速率都能夠確定一個(gè)預(yù)測增益。
通過下式給出預(yù)測增益‘g’g=Xminx0*100%---(3)]]>其中x0是當(dāng)預(yù)測系數(shù)α為0時(shí),殘差LSF的方差,其中Xmin是殘差LSF的最小方差。
預(yù)測增益g表明采用MA預(yù)測器獲得的優(yōu)點(diǎn)。預(yù)測增益g越高,通過MA預(yù)測量化技術(shù)獲得的優(yōu)點(diǎn)越多。
表2對于經(jīng)低通濾波的LSF矢量集以百分比形式示出了在不同LSF矢量輸出速率下的預(yù)測增益g的值。
表2
表3對于用傳統(tǒng)方法獲得的LSF矢量集以百分比形式示出了在不同LSF矢量輸出速率下的預(yù)測增益g的值。
表3
相應(yīng)于圖6至10的圖表(其中更高的LSF矢量輸出速率被關(guān)聯(lián)到連續(xù)LSF矢量間的更高相關(guān)性),表2和3說明更高的LSF矢量輸出速率導(dǎo)致預(yù)測增益的增加。而且,在表2和3中能夠看出,低通濾波方法總是比傳統(tǒng)提取方法具有更高的預(yù)測增益。
高相關(guān)性和較低的方差導(dǎo)致量化更容易。這進(jìn)一步導(dǎo)致在量化中的比特減少,這將在以下示出。
為了對LSF矢量進(jìn)行量化以用于從網(wǎng)絡(luò)到移動站的傳輸,采用矢量量化碼本。
對于特定的失真量度(例如平均譜失真(SD)、2dB界外值百分比、4dB界外值百分比以及加權(quán)的均方誤差(WMSE))可以使用碼本訓(xùn)練,以用于產(chǎn)生最優(yōu)化的矢量量化碼本。2dB界外值百分比是SD超過2dB多少次的量度,以及4dB界外值百分比是SD超過4dB多少次的量度。
現(xiàn)在將表明采用合適的碼本訓(xùn)練,所提出的方法能夠在較高比特分配中節(jié)省碼本比特,同時(shí)保持采用傳統(tǒng)LSF碼本獲得的相同的失真量度。
作為示例性碼本訓(xùn)練策略,選擇具有第一階MA預(yù)測以及M最佳樹查找(例如M=8)的多級矢量量化器(MSVQ),因?yàn)樗且环N流行的方法。MA預(yù)測器的優(yōu)點(diǎn)是以上提到的,即基本上是產(chǎn)生較低方差的LSF殘差從而導(dǎo)致更容易的量化。
對于每20ms一個(gè)矢量的矢量輸出速率將提出對于碼本訓(xùn)練所執(zhí)行的試驗(yàn)。這一矢量輸出速率使得能夠以2.4kbps在以上提到的SBLPC聲碼器中使用所訓(xùn)練的碼本,它每20ms計(jì)算LSF矢量。
首先,確定用于碼本訓(xùn)練的最佳MA預(yù)測參數(shù)。對于以上提到的MA預(yù)測器,反饋部分fb_resni是非量化的LSF預(yù)測殘差,然而在MSVQ-MA算法的MA部分中,fb_resni是經(jīng)量化的LSF預(yù)測殘差。因此,在其結(jié)果示于圖6的試驗(yàn)(即經(jīng)低通濾波的LSF矢量的預(yù)測參數(shù)α≈0.8,以及傳統(tǒng)地獲得的LSF矢量的預(yù)測參數(shù)α≈0.7,)中對于每20ms一個(gè)矢量的LSF矢量輸出速率所找到的最優(yōu)預(yù)測參數(shù)可能與用于碼本訓(xùn)練目的的最優(yōu)預(yù)測參數(shù)不同。
為了找到用于MSVQ-MA的最優(yōu)MA預(yù)測參數(shù)進(jìn)行了試驗(yàn),在試驗(yàn)中,對于經(jīng)低通濾波獲得的和傳統(tǒng)地獲得的LSF矢量,MSVQ-MA訓(xùn)練算法中的MA預(yù)測器的預(yù)測參數(shù)α都從0.35變化至0.75。
對于試驗(yàn),采用從包括有48位男性和48位女性講話者的語音的語音數(shù)據(jù)庫的96個(gè)語音文件中準(zhǔn)備的30000個(gè)LSF矢量對具有3級、每級7比特的MSVQ-MA量化器進(jìn)行訓(xùn)練。為了產(chǎn)生第二LSF矢量集,接下來,在執(zhí)行低通濾波后進(jìn)行抽樣。隨后預(yù)測系數(shù)α以0.05的步幅從0.35變化至0.75,并且在每一個(gè)迭代中產(chǎn)生MSVQ-MA碼本。
圖11至13示出了該試驗(yàn)的結(jié)果。更具體的,圖11是描述所得到的WMSE隨預(yù)測參數(shù)變化的圖表,圖12是以分貝形式描述所得到的平均SD隨預(yù)測參數(shù)變化的圖表,圖13是以百分比形式描述所得到的2dB界外值隨預(yù)測參數(shù)變化的圖表。每個(gè)圖都包含由傳統(tǒng)方法和根據(jù)本發(fā)明的方法得到的結(jié)果。由傳統(tǒng)方法得到的對應(yīng)曲線也標(biāo)有“ORG LSF”,由根據(jù)本發(fā)明的方法得到的對應(yīng)曲線也標(biāo)有“LPF’d LSF”。沒有包括以百分比形式描述4dB界外值隨預(yù)測參數(shù)變化的結(jié)果的附圖,因?yàn)閷τ谟糜贛SVQ-MA算法的碼本配置它的值是零。
從圖11至13中可以看出,對于平均SD、對于2dB界外值%以及對于WMSE來說,預(yù)測參數(shù)α的最優(yōu)值對于低通濾波方法是α≈0.5,對于傳統(tǒng)方法是α≈0.4。
包括有MA預(yù)測作為量化的一部分的聲碼器,通常采用0.6和0.7之間的預(yù)測值作為最優(yōu)值,而所提到的試驗(yàn)表明,對于平均SD以及對于2dB界外值%,在α≈0.4處獲得較低值。根據(jù)圖11至13,對于低通濾波方法所得到的最優(yōu)預(yù)測參數(shù)α大約為0.5,與對于傳統(tǒng)方法所得到的大約為0.4的最優(yōu)值不一樣,與通常使用的0.6至0.7的預(yù)測參數(shù)也不一樣。
從圖11至13中也明顯看出,經(jīng)低通濾波的LSF矢量的WMSE、平均SD和2dB界外值%要比傳統(tǒng)地提取的LSF矢量更低。這表明,要保持與傳統(tǒng)LSF量化器相同的失真量度,可以通過使用更少比特的量化器來實(shí)現(xiàn)??商鎿Q的,相同大小的量化器會得到更高的品質(zhì)。
以下表4總結(jié)了用在表中稱作“LPF’d”的低通濾波法和在表中稱作“ORG”的傳統(tǒng)方法的最優(yōu)預(yù)測參數(shù)得到的失真量度。
表4
如在表4中可看到的,與傳統(tǒng)方法相比,低通濾波方法顯示出在平均SD上的優(yōu)點(diǎn)和低得多的2dB界外值%。
注意到在以上試驗(yàn)中采用的30000個(gè)LSF矢量的數(shù)目對于最優(yōu)碼本訓(xùn)練來說是相當(dāng)小的,但是它清楚的反映出所提出的系統(tǒng)比傳統(tǒng)方法更有優(yōu)點(diǎn),正如在顯示出相似結(jié)果的具有較大語音數(shù)據(jù)庫的試驗(yàn)中所驗(yàn)證的那樣。
接下來,與已知的LSF矢量提取方法相比,利用根據(jù)本發(fā)明的方法所能獲得的比特率的減少將被量化。
為此所執(zhí)行的試驗(yàn)是基于為針對兩種LSF提取方法的碼本訓(xùn)練所確定的最優(yōu)預(yù)測參數(shù)。
該試驗(yàn)相應(yīng)于用于為碼本訓(xùn)練確定最優(yōu)MA預(yù)測參數(shù)的試驗(yàn),除了在以下方面有所不同MSVQ-MA 3級碼本的比特分配是變化的,而預(yù)測參數(shù)保持恒定。
表5示出在所實(shí)施的試驗(yàn)中所采用的MSVQ-MA碼本的不同比特分配。
表5
圖14至16分別示出對于表5中的碼本比特,對于WMSE、平均SD和百分比形式的2dB界外值所獲得的結(jié)果。另外圖17還只在20碼本比特到24碼本比特范圍內(nèi)以百分比形式示出2dB界外值隨碼本比特的變化。在每一幅圖中,低通濾波方法的對應(yīng)失真量度低于傳統(tǒng)方法的失真量度。
表6以百分比形式示出在表中也稱作“LPF’d”的低通濾波方法和在表中也稱作“ORG”傳統(tǒng)方法的4dB界外值。采用大于或等于18比特的分配,4dB界外值百分比的值為零。
表6
由圖14至17以及表6明顯看出,采用根據(jù)本發(fā)明的方法時(shí)比特減少是可能的??梢钥闯鰧τ谟蓚鹘y(tǒng)方法得到的失真量度的給定集,采用所提出的系統(tǒng)能在較低比特需求下獲得失真量度的相同集,這導(dǎo)致節(jié)省約1.5至2比特,相當(dāng)于節(jié)省大約10%的比特。
對于4位男性和4位女性講話者執(zhí)行附加的非正式聽力測試,每人講兩句。測試的結(jié)果證明了低通濾波方法產(chǎn)生與傳統(tǒng)方法相同的合成語音,然而,當(dāng)采用矢量量化器時(shí),對于給定的語音品質(zhì),所提出的方法需要較低數(shù)目的比特。
在以上描述的根據(jù)本發(fā)明的方法的第一實(shí)施例中,對于每一個(gè)樣本提取LSF矢量,并對每個(gè)LSF軌跡執(zhí)行濾波。這會導(dǎo)致系統(tǒng)的相當(dāng)高的復(fù)雜度。
因此,對于包括在能夠計(jì)算LSF矢量的頻度方面以及在濾波方面的修改的實(shí)際的實(shí)時(shí)系統(tǒng)實(shí)現(xiàn)方式特別設(shè)計(jì)了根據(jù)本發(fā)明的方法的第二實(shí)施例。對于第二實(shí)施例,再次參照圖1的流程圖。
第二實(shí)施例的第一和第二步驟對應(yīng)于以上提到的第一實(shí)施例的第一和第二步驟1、2,其中用10階濾波器從語音樣本中計(jì)算出LPC,并且其中對所述LPC進(jìn)行帶寬擴(kuò)展。
然而,在第三步驟中,并不是象在第一實(shí)施例中和圖1所表明的那樣對于每一個(gè)樣本提取LSF矢量,而是以更低的提取速率提取。該更低的提取速率應(yīng)同時(shí)高于最終所需的LSF矢量輸出速率。與第一實(shí)施例相比,選擇更低的提取速率,這樣當(dāng)在第三步驟中對于每一個(gè)樣本提取LSF矢量時(shí),仍將得到大部分的好處。
由于在本發(fā)明的第二實(shí)施例中采用更低的提取速率,建議采用每5ms一個(gè)矢量的矢量速率。每5ms提取LSF矢量以及隨后進(jìn)行低通濾波和抽樣,其是低復(fù)雜度和最終得到的好處之間好的折衷,因?yàn)檫@個(gè)速率在現(xiàn)有SBLPC聲碼器系統(tǒng)上加上一個(gè)小的有效載荷,并且覆蓋了每個(gè)LSF軌跡的大多數(shù)的能量百分比,這由以下表7就看得更明顯。
表7對于三個(gè)不同頻帶示出了從來自每人講兩句的4位男性和4位女性講話者的語音樣本得到的所計(jì)算的能量百分比。第一頻帶是低于25Hz的頻帶,第二頻帶是25Hz和100Hz之間的頻帶,第三頻帶是100Hz以上的頻帶。對于從LSF矢量得到的LSF軌跡確定了能量百分比,其中所述LSF矢量是對于每一語音樣本從LPC中提取的。
表7
從表7中能看出,多數(shù)能量存在于100Hz以下的頻帶內(nèi)。在感覺上,最后的LSF軌跡相比其它軌跡來說不太重要。對于前9條軌跡中的每一條,超過90%的頻譜交疊能量(25Hz頻帶以外的能量)位于25和100Hz之間的頻帶內(nèi)。因此,可以假定每5ms提取LSF矢量可以給出所提出系統(tǒng)的大多數(shù)優(yōu)點(diǎn),卻具有較低的復(fù)雜度開銷。
在第二實(shí)施例的第四步驟中,從所提取的LSF矢量的對應(yīng)的10個(gè)參數(shù)中再次形成10條LSF軌跡。
而后在第五步驟中,對每條LSF軌跡進(jìn)行低通濾波。
在第六步驟中,以想要的最終LSF矢量輸出速率從經(jīng)濾波后的LSF軌跡中抽樣出LSF矢量。
如對于第一實(shí)施例所提到的,可對所得到的LSF矢量進(jìn)行量化并發(fā)送。
上面連同現(xiàn)有技術(shù)已經(jīng)對圖18和19作出了描述。
應(yīng)當(dāng)注意到,所描述的本發(fā)明的實(shí)施例僅僅構(gòu)成能以很多方式被改變的范例。
權(quán)利要求
1.以想要的矢量輸出速率從音頻信號中產(chǎn)生線譜頻率(LSF)矢量的方法,該方法包括—從所述音頻信號的樣本中計(jì)算線性預(yù)測系數(shù)(LPC);—以高于所述想要的矢量輸出速率的提取速率從所述LPC中提取LSF矢量,所述的LSF矢量包括不同LSF參數(shù)值;—為至少一個(gè)所述LSF參數(shù)形成LSF軌跡,該LSF軌跡代表對應(yīng)的LSF參數(shù)在時(shí)間上的值;—以預(yù)定截止頻率對至少一條所述所形成的LSF軌跡進(jìn)行低通濾波;以及—從所述的經(jīng)低通濾波后的LSF軌跡中重建抽樣數(shù)目的LSF矢量,所述的抽樣數(shù)目相應(yīng)于所述想要的矢量輸出速率。
2.根據(jù)權(quán)利要求1所述的方法,其中以高于所述想要的矢量輸出速率的提取速率從所述LPC中提取的所述LSF矢量是對于所述音頻信號的所有樣本提取的,其中從所述音頻信號中計(jì)算LPC。
3.根據(jù)權(quán)利要求1所述的方法,其中以高于所述想要的矢量輸出速率的提取速率從所述LPC中提取的所述LSF矢量是以低于音頻信號樣本速率的提取速率提取的,其中從所述音頻信號中計(jì)算LPC。
4.根據(jù)以上權(quán)利要求之一所述的方法,其中對于每一個(gè)所述的LSF參數(shù)形成一個(gè)LSF軌跡,并且其中以預(yù)定截止頻率對所述LSF軌跡中的每一條進(jìn)行低通濾波。
5.根據(jù)以上權(quán)利要求之一所述的方法,其中在頻域進(jìn)行所述低通濾波。
6.根據(jù)權(quán)利要求1至4中的一個(gè)所述的方法,其中在時(shí)域進(jìn)行所述低通濾波。
7.根據(jù)以上權(quán)利要求之一所述的方法,其中為了用于無線電接口的傳輸,對以所述想要的矢量輸出速率從所述經(jīng)低通濾波的LSF軌跡中抽樣的所述LSF矢量進(jìn)行量化。
8.根據(jù)以上權(quán)利要求之一所述的方法,其中對于以所述想要的矢量輸出速率從所述經(jīng)低通濾波的LSF軌跡中重建的所述LSF矢量,確定專用的最佳幀間預(yù)測器。
9.根據(jù)以上權(quán)利要求之一所述的方法,其中將最優(yōu)化的矢量量化碼本用于量化所述想要的矢量輸出速率的所述LSF矢量,該碼本基于專用的碼本訓(xùn)練產(chǎn)生,所述碼本訓(xùn)練用于以所述想要的矢量輸出速率從所述經(jīng)低通濾波的LSF軌跡中重建的所述LSF矢量。
10.根據(jù)以上權(quán)利要求之一所述的方法,其中根據(jù)公式F≈1/(2*T),所述截止頻率F的選擇取決于所述想要的LSF矢量輸出速率1/T。
11.用于通信系統(tǒng)的移動站,所述通信系統(tǒng)包括用于執(zhí)行根據(jù)權(quán)利要求1至10之一的方法的各步驟的處理裝置。
12.包括用于執(zhí)行根據(jù)權(quán)利要求1至10之一的方法的各步驟的處理裝置的編碼器。
13.包括用于執(zhí)行根據(jù)權(quán)利要求1至10之一的方法的各步驟的裝置的芯片。
14.包括編碼器的通信網(wǎng)絡(luò),該編碼器具有用于執(zhí)行根據(jù)權(quán)利要求1至10之一的方法的各步驟的處理裝置。
15.包括通信網(wǎng)絡(luò)和至少一個(gè)移動站的通信系統(tǒng),其中所述的通信網(wǎng)絡(luò)和/或所述至少一個(gè)移動站包括用于執(zhí)行根據(jù)權(quán)利要求1至10之一的方法的各步驟的處理裝置。
16.帶有程序代碼的計(jì)算機(jī)程序,當(dāng)在處理裝置中運(yùn)行所述計(jì)算機(jī)程序時(shí),所述程序代碼用于執(zhí)行根據(jù)權(quán)利要求1至10之一的方法的各步驟。
17.帶有程序代碼的計(jì)算機(jī)程序產(chǎn)品,該程序代碼存儲在機(jī)器可讀載體中,當(dāng)在處理裝置中運(yùn)行所述計(jì)算機(jī)程序的時(shí)候,所述程序代碼用于執(zhí)行根據(jù)權(quán)利要求1至10之一的方法的各步驟。
全文摘要
一種用于以想要的矢量輸出速率從音頻信號中產(chǎn)生線譜頻率(LSF)矢量的方法。為了緩解信號混疊的問題并減小系統(tǒng)復(fù)雜度,提出所述方法包括從音頻信號樣本中計(jì)算線性預(yù)測系數(shù)(LPC)并以比所述想要的矢量速率高的速率從所述LPC中提取LSF矢量,所述LSF矢量包括不同的LSF參數(shù)值。接下來,對于至少一個(gè)所述LSF參數(shù)形成一條LSF軌跡。而后對至少一條所述已形成的LSF軌跡進(jìn)行低通濾波。最后,從經(jīng)低通濾波后的LSF軌跡中重建抽樣的LSF矢量,所述抽樣數(shù)目對應(yīng)于所述想要的矢量速率。
文檔編號G10L19/07GK1625681SQ02828802
公開日2005年6月8日 申請日期2002年4月22日 優(yōu)先權(quán)日2002年4月22日
發(fā)明者K·T·阿-奈米, S·維勒特, A·康多滋 申請人:諾基亞有限公司