專利名稱:用于更高感覺質量的電話語音的寬帶擴展的制作方法
技術領域:
本發(fā)明涉及一種方法,用于將具有一個頻率范圍的窄帶語音信號的線狀譜頻率擴展成為包括一個高頻段頻率范圍和所述窄帶語音信號的頻率范圍的寬帶語音信號的線狀譜頻率,并且涉及一種系統(tǒng),用于在一個輸入端擴展語音信號的頻率范圍的系統(tǒng),該系統(tǒng)包括連接到系統(tǒng)的所述輸入端的一個輸出端和一個上抽樣器以及用于確定線性預測系數(shù)和反射系數(shù)的輸入分析裝置,該輸入分析裝置的一個輸入端連接到系統(tǒng)的輸入端,上抽樣器包括連接到一個第一濾波器的輸入端的一個輸出端,第一濾波器包括一個輸出端并且被安排來根據(jù)線性預測系數(shù)濾波,第一濾波器的輸出端連接到一個頻譜折疊裝置的一個輸入端,該頻率折疊裝置的一個輸出端連接到一個包括一個輸出端的第二濾波器的一個輸入端,該第二濾波器被安排來根據(jù)線性預測系數(shù)濾波,第二濾波器的輸出端連接到用于擴展語音信號的頻率范圍的系統(tǒng)的輸出端。
由2000年9月在美國威斯康星州出版的IEEE語音編碼工作組的Peter Jax和Peter Vary的“wideband extension of telephonespeech using a hidden Markov model(使用隱藏馬爾可夫模型的電話語音的寬帶擴展)”中可以得知這樣的一種方法和系統(tǒng)。這里,窄帶輸入信號被分類成為有限數(shù)量的語音聲音,其中關于寬帶頻譜包絡的信息被從預先訓練的電碼簿中獲得。對于電碼簿搜索算法,基于隱藏馬爾可夫模型的統(tǒng)計方法被使用,其考慮帶寬有限語音的不同特征,并且最小化均方誤差標準。該算法只需要一個單獨的寬帶電碼簿并且固有地保證了在窄帶頻率范圍中系統(tǒng)的透明性。增強的語音展示了比輸入語音大很多的帶寬。所述算法通過將電碼簿LPC系數(shù)應用于第一反濾波器來創(chuàng)建整個寬帶信號,所述第一反濾波器作用于輸入信號,然后提供已濾波的并且隨后頻譜折疊的信號給第二合成濾波器。該合成濾波器還接收電碼簿LPC系數(shù)并且在輸出端提供寬帶信號。因為這兩個濾波器的轉移函數(shù)互逆,所以窄帶信號被系統(tǒng)透明地處理。
這種寬帶擴展的方法具有的缺點是由第一濾波器提供的已濾波信號不足夠平坦,以至于無法在頻譜折疊之后為第二濾波器提供最佳信號用于創(chuàng)建一個高頻帶語音信號。
本發(fā)明的一個目的是提供一種方法,用于將一個窄帶語音信號擴展成為一個寬帶語音信號,其中在頻譜折疊之后,一個最佳信號被提供給反濾波器。
本發(fā)明通過應用下列步驟來達到此目的。
通過應用一個矩陣來為寬帶語音信號的已擴展頻率范圍獲得線狀譜頻率,所述矩陣是通過在窄帶語音信號的頻率范圍中訓練到寬帶語音信號的線狀譜頻率而獲得的。
在窄帶語音信號的頻率范圍中,將窄帶語音信號的線狀譜頻率映射到寬帶語音信號的線狀譜頻率。
將用于高頻段頻率范圍的線狀譜頻率與窄帶語音信號的線狀譜頻率組合。
這樣,無需處理成寬帶語音信號的等價低頻段LSF,窄帶語音信號的LSF就被直接映射,而通過應用一個矩陣到窄帶語音信號的LSF,寬帶信號的高頻段頻率范圍被創(chuàng)建。因為高頻段LSF的映射不影響低頻段LSF,所以可以從第一濾波器獲得一個最佳平坦信號。在頻譜折疊之后,已折疊信號的頻譜保持平坦以提供給用于合成濾波器的最佳輸入信號。
獲得高頻段LSF的一個方法是通過應用一個矩陣,該矩陣是通過在窄帶語音信號的頻譜范圍中訓練到寬帶語音信號的線狀譜頻率而獲得的。同樣,通過獨立的處理能夠使用多個矩陣進一步優(yōu)化高頻段信號的合成。
通過將LPC分析濾波器的脈沖響應解壓縮成為偶函數(shù)和奇函數(shù)而獲得線狀譜頻率。在這個擴展技術中,根據(jù)輸入窄帶信號來估計LSF。LSF位于以8kHz抽樣的窄帶語音信號的4kHz帶寬的0-π之間。假設相應的寬帶信號被使用窄帶LPC模型的階(order)兩倍的一個LPC模型模擬,則窄帶LSF應當表示在低頻段范圍0-π/2中的寬帶LSF。這樣,寬帶語音信號的低頻段LSF被給出作為除以2的窄帶LSF。
在寬帶語音的模擬中,其中合成使用從如上所述的窄帶語音中獲得的低頻段LSF,并且高頻段LSF被從相應的寬帶語音中獲得,得到了非常好的輸出質量。
可以使用一個矩陣來從低頻段LSF中獲得高頻段LSF。所述矩陣被通過訓練來獲得并且需要只被建立一次。還可能獲得幾個矩陣,每個矩陣特定于被處理的信號類型。一旦獲得這樣一個矩陣,寬帶LPC系數(shù)就被如下獲得首先,估計窄帶語音信號的線性預測和反射系數(shù)。然后根據(jù)這些線性預測來計算LSF。這些LSF被除以2并且被直接提供給一個數(shù)組添加器(array appender)以及高頻段LSF估計器。高頻段LSF估計器將從一組矩陣中選擇的一個矩陣應用到被除以2的LSF。矩陣選擇是基于被處理的信號類型的。
將所選擇的矩陣應用于被除以2的LSF的結果是一組高頻段LSF。然后,這些高頻段LSF被提供給數(shù)組添加器。數(shù)組添加器將高頻段LSF添加到低頻段LSF,以形成寬帶LSF。所得的寬帶LSF數(shù)組允許在諸如Ja x所公開的系統(tǒng)中的寬帶語音信號的合成中使用的寬帶LPC的計算。LSF和LPC系數(shù)構成了用于擴展語音信號的頻率范圍以改進所述語音系統(tǒng)感覺質量的各種方法和系統(tǒng)的基礎。因此,本發(fā)明提供的將窄帶LSF和LPC系數(shù)擴展到寬帶LSF和LPC系數(shù)也可以用于擴展語音信號的頻率范圍的其它系統(tǒng)中。
語音信號的頻率范圍的擴展被用于其中信道資源被節(jié)省并且語音被以窄帶寬發(fā)送的系統(tǒng)中的接收終端。這種系統(tǒng)的例子包括移動電話、視頻會議終端以及互聯(lián)網(wǎng)電話終端。
現(xiàn)在根據(jù)附圖來描述本發(fā)明。
圖1表示根據(jù)本發(fā)明的語音解碼器。
圖2表示用于確定從寬帶LPC系數(shù)中獲得的反射系數(shù)的分類的系統(tǒng)。
圖3表示對應于反射系數(shù)組(k1,k2)的幅度譜包絡形狀。
圖4表示用于語音信號的頻率范圍的擴展的完整系統(tǒng)。
圖1表示用于頻率擴展的系統(tǒng)的部分,其中寬帶LSF被確定。系統(tǒng)的這個部分通過輸入分析裝置3的輸入端19接收窄帶語音信號。根據(jù)該窄帶語音信號,利用輸入分析裝置3確定線性預測和反射系數(shù)。輸入分析裝置3將這些線性預測系數(shù)經(jīng)由連接21提供給線性頻譜估計器5。線狀譜頻率估計器將線狀譜頻率LSF提供給乘法器7,其中,通過乘以0.5而將LSF除以2。乘法器在其輸出端提供被除以2的LSF。這些被除以2的LSF被提供給數(shù)組添加器11和高頻段LSF估計器9。高頻段LSF估計器9通過應用一個矩陣到從乘法器7接收的被除以2的LSF而估計高頻段LSF。為了確定使用哪個矩陣,矩陣選擇器15經(jīng)由輸入端29接收關于所接收的窄帶語音信號的信息并且從矩陣列表17中選擇一個矩陣。矩陣選擇器接收的關于所接收窄帶語音信號的信息是反射系數(shù)k1、k2。輸入分析裝置在確定LPC系數(shù)的同時獲得這些反射系數(shù)k1和k2。因此,反射系數(shù)k1和k2基于窄帶語音信號。高頻段LSF估計器9將所估計的高頻段LSF提供給數(shù)組添加器11,其中高頻段LSF被添加到低頻段LSF。當窄帶(即低頻段)LSF和高頻段LSF被添加時,所得的LSF是寬帶LSF。這些寬帶LSF被數(shù)組添加器11提供給線性預測確定器13,其中寬帶LPC系數(shù)被使用在語音編碼領域中的標準方法而確定。然后,這些寬帶LPC系數(shù)被在輸出端37上提供,以普通方式被使用來通過與圖4中描述的反濾波器、合成濾波器和頻譜折疊的合成而創(chuàng)建一個寬帶語音信號。
由輸入分析裝置3提供的所有反射系數(shù)中的前兩個反射系數(shù)k1、k2被用于通過確定反射系數(shù)k1和k2與哪組反射系數(shù)相關而對語音信號分類。根據(jù)一個搜索(例如貝葉斯搜索),由矩陣選擇器15從預定矩陣的一個矩陣列表17中選擇矩陣M。這些預定的矩陣是通過在窄帶語音信號的頻率范圍中訓練到寬帶語音信號的線狀頻率而獲得的。
矩陣選擇器15將所選擇的矩陣或者指示選擇了哪個矩陣的信息提供給圖1中的高頻段LSF估計器9。當然,也可能反射系數(shù)k1和k2或者關于選擇了哪個矩陣的信息被從一個語音編碼器中獲得并且從語音編碼器中經(jīng)由連接語音編碼器到語音解碼器的信道而發(fā)送到語音解碼器。在這種情況下,信息能夠被在不計算的情況下直接提供給高頻段LSF估計器。精確的實現(xiàn)還依賴于頻率擴展系統(tǒng)是否是解碼器的一部分以及是否已經(jīng)訪問了由語音解碼器接收的已編碼語音數(shù)據(jù),或者是處理窄帶語音信號的獨立系統(tǒng)。如果它是一個獨立系統(tǒng),則所有需要的參數(shù)(即LPC、LSF、k1、k2)必須被系統(tǒng)本身確定。如果系統(tǒng)是語音解碼器的一部分,則這些參數(shù)可以直接從解碼器中獲得或者被包括在所接收的已編碼語音信號中。
圖2表示用于根據(jù)寬帶LPC系數(shù)來確定反射系數(shù)組k1和k2的系統(tǒng)。由圖1中的輸入分析裝置3獲得的窄帶語音LPC系數(shù)被提供給線狀譜頻率估計器51。所得的LSF被通過乘法器53將LSF乘以0.5而被除以2。所得的LSF因此是寬帶LSF。根據(jù)這些被除以2的LSF,由LPC估計器55計算寬帶線性預測系數(shù)。由反射系數(shù)估計器57使用LPC系數(shù)來計算寬帶反射系數(shù)。由反射系數(shù)估計器57提供的所有反射系數(shù)中的前兩個反射系數(shù)k1、k2被用于對語音信號分類。根據(jù)一個搜索(例如貝葉斯搜索),由矩陣選擇器59從預定矩陣的矩陣列表61中選擇一個矩陣M。這些預定矩陣是通過在窄帶語音信號的頻率范圍中訓練到寬帶語音信號的線狀譜頻率而獲得的。
矩陣選擇器59將所選擇的矩陣或者指示選擇了哪個矩陣的信息提供給圖1中的高頻段LSF估計器9。當然,也可能寬帶反射系數(shù)k1和k2或者關于選擇了哪個矩陣的信息被從一個語音編碼器中獲得并且從語音編碼器中經(jīng)由連接語音編碼器到語音解碼器的信道而發(fā)送到語音解碼器。在這種情況下,信息能夠被在不計算的情況下直接提供給高頻段LSF估計器。精確的實現(xiàn)還依賴于頻率擴展系統(tǒng)是否是解碼器的一部分以及是否已經(jīng)訪問了由語音解碼器接收的已編碼語音數(shù)據(jù),或者是處理窄帶語音信號的獨立系統(tǒng)。如果它是一個獨立系統(tǒng),則所有需要的參數(shù)(即LPC、LSF、k1、k2)必須被系統(tǒng)本身確定。如果系統(tǒng)是語音解碼器的一部分,則這些參數(shù)可以直接從解碼器中獲得或者被包括在所接收的已編碼語音信號中。
圖3表示對應于反射系數(shù)組k1和k2的幅度譜包絡形狀。有有限的一組幅度譜包絡形狀,其中每個形狀不同于其它的,以便允許高頻段語音信號的模擬。每個形狀對應于一個特定的矩陣(M1,M2,M3,M4),后者進而又對應于一個特定的反射系數(shù)組k1和k2,并且矩陣被根據(jù)反射系數(shù)k1和k2選擇。
圖4表示用于擴展語音信號的頻率范圍的完整系統(tǒng)。
用于擴展圖4的語音信號的頻率范圍的系統(tǒng)在輸入端接收一個窄帶語音信號并且將該信號提供給上抽樣器71,和輸入分析裝置6。輸入分析裝置6對應于圖1中的輸入分析裝置3和LSF確定器5。從輸入分析裝置6到寬帶LPC估計器13的部分對應于圖1所示的子系統(tǒng)。由圖4中的高頻段LSF估計器9使用的矩陣的確定以與圖1或圖2中所描述的相同方式獲得。圖4包括圖1的實施例。圖1和圖4中對應的元件具有相同的參考編號。
上抽樣器71將一個上抽樣的信號提供給第一濾波器81。然后,第一濾波器81對該上抽樣的信號濾波,其中濾波器使用線性預測確定器13提供的寬帶LPC參數(shù)。寬帶LPC參數(shù)被以與圖1中所述的相同方式獲得。
第一反濾波器將已濾波信號提供給頻譜折疊裝置85,其中已濾波信號的頻率范圍通過頻譜折疊而被擴展。由于已濾波和頻譜折疊的信號被合成濾波器87使用來利用寬帶LPC系數(shù)創(chuàng)建寬帶輸出信號,所以重要的是在反濾波器的輸出端的已濾波信號被頻譜平坦以便保證在頻譜折疊之后,已濾波信號的高頻段部分在由合成濾波器87濾波之前是頻譜平坦的。通過在乘以0.5之后,將低頻段LSF直接提供給反濾波器81,一個最佳信號能夠被提供給合成濾波器87,導致寬帶信號中的一個最佳高頻段信號。合成濾波器87使用與第一濾波器相同的LPC系數(shù)對已濾波和頻譜折疊的信號濾波,并且在系統(tǒng)的輸出端提供一個具有擴展頻率范圍的輸出信號。
權利要求
1.一種方法,用于將具有一個頻率范圍的窄帶語音信號的線狀譜頻率擴展成為包括一個高頻段頻率范圍和所述窄帶語音信號的頻率范圍的寬帶語音信號的線狀譜頻率,包括步驟-通過應用一個矩陣來為寬帶語音信號的高頻段頻率范圍獲得線狀譜頻率,所述矩陣是通過在窄帶語音信號的頻率范圍中訓練到寬帶語音信號的線狀譜頻率而獲得的,t窄帶語音信號的線狀譜頻率-在窄帶語音信號的頻率范圍中,將窄帶語音信號的線狀譜頻率映射到寬帶語音信號的線狀譜頻率-將用于高頻段頻率范圍的線狀譜頻率與窄帶語音信號的線狀譜頻率組合。
2.根據(jù)權利要求1的用于擴展窄帶語音信號的線狀譜頻率的方法,其特征在于根據(jù)從窄帶語音信號中獲得的反射系數(shù)來從預定矩陣列表中選擇矩陣。
3.根據(jù)權利要求1的用于擴展窄帶語音信號的線狀譜頻率的方法,其特征在于根據(jù)從寬帶線性預測系數(shù)中獲得的反射系數(shù)來從預定矩陣列表中選擇矩陣。
4.一種系統(tǒng),用于在一個輸入端擴展語音信號的頻率范圍,該系統(tǒng)包括連接到系統(tǒng)的所述輸入端的一個輸出端和一個上抽樣器以及用于確定線性預測系數(shù)和反射系數(shù)的輸入分析裝置,該輸入分析裝置的一個輸入端連接到系統(tǒng)的輸入端,上抽樣器包括連接到一個第一濾波器的輸入端的一個輸出端,第一濾波器包括一個輸出端并且被安排來根據(jù)線性預測系數(shù)濾波,第一濾波器的輸出端連接到一個頻譜折疊裝置的一個輸入端,該頻率折疊裝置的一個輸出端連接到一個包括一個輸出端的第二濾波器的一個輸入端,該第二濾波器被安排來根據(jù)線性預測系數(shù)濾波,第二濾波器的輸出端連接到用于擴展語音信號的頻率范圍的系統(tǒng)的輸出端,其特征在于輸入分析裝置的一個輸出端被連接到一個乘法器的輸入端,所述輸入分析裝置被操作在該輸入分析裝置的輸入端提供語音信號的線狀譜頻率,所述乘法器被操作來將語音信號的線狀譜頻率乘以2并且將乘以2的線狀譜頻率提供給一個數(shù)組添加器和一個高頻段LSF估計器,其中數(shù)組添加器被操作來將高頻段LSF估計器提供的高頻段LSF添加到乘以2的線狀譜頻率上,數(shù)組添加器包括連接到一個線性預測系數(shù)確定器的一個輸入端的一個輸出端,所述線性預測系數(shù)確定器包括一個用于將線性預測系數(shù)提供給第一濾波器和第二濾波器的一個輸出端。
5.根據(jù)權利要求4的用于擴展語音信號的頻率范圍的系統(tǒng),其特征在于高頻段LSF估計器被安排來通過應用一個矩陣到乘以2的線狀譜頻率而確定高頻段LSF。
6.根據(jù)權利要求5的用于擴展語音信號的頻率范圍的系統(tǒng),其特征在于系統(tǒng)被操作來從預定的矩陣列表中選擇矩陣。
7.根據(jù)權利要求6的用于擴展語音信號的頻率范圍的系統(tǒng),其特征在于系統(tǒng)被操作來根據(jù)從窄帶語音信號中獲得的反射系數(shù)來選擇矩陣。
8.根據(jù)權利要求7的用于擴展語音信號的頻率范圍的系統(tǒng),其特征在于系統(tǒng)被操作來根據(jù)從寬帶LPC系數(shù)中獲得的反射系數(shù)來選擇矩陣。
9.包括根據(jù)權利要求4的用于擴展語音信號的頻率范圍的系統(tǒng)的移動電話。
全文摘要
用于更高感覺質量的電話語音的寬帶擴展。一種用于擴展語音信號的頻率范圍的方法,其使用具有一個反濾波器和一個合成濾波器的寬帶擴展方法,其中所述兩個濾波器從一個LPC估計器接收LPC系數(shù)。寬帶LPC系數(shù)被從寬帶LSF中獲得。寬帶LSF被通過添加高頻段LSF以及低頻段LSF而獲得,所述高頻段LSF是通過應用一個矩陣到窄帶LSF而創(chuàng)建的,所述低頻段LSF是通過將窄帶LSF除以2而創(chuàng)建的。用于創(chuàng)建高頻段LSF的矩陣被從預定矩陣列表中選擇。該選擇是基于從窄帶語音信號中提取的寬帶或者窄帶反射系數(shù)。
文檔編號G10L21/02GK1416563SQ01806170
公開日2003年5月7日 申請日期2001年11月9日 優(yōu)先權日2000年11月9日
發(fā)明者S·謝諾克, A·J·格里特斯, R·J·斯魯特 申請人:皇家菲利浦電子有限公司