專利名稱:用于交織語音編碼器中線狀譜信息量化方法的方法和設備的制作方法
技術領域:
本發明通常涉及語音處理領域,并且特別針對用于對語音編碼器中的線狀譜信息進行量化的方法和設備。
背景技術:
通過數字技術進行語音傳輸已經變得很普遍,特別是在長距離和數字無線電話應用中。這反過來又使人們對在信道上所發送的能保持重構語音感知質量的信息最小量的確定產生了興趣。如果語音是以簡單的采樣和數字化進行傳輸,那么就需要大約64千位每秒(kbps)的數據率才能達到傳統模擬電話的語音質量。然而,通過語音分析的使用,后隨合適的編碼、傳輸和在接收器的再合成,可以使數據率明顯下降。
用于壓縮語音的設備在許多電信領域中都能找到。一個示例領域就是無線通信。無線通信領域具有很多應用包括例如無繩電話、無線電尋呼、無線本地環路、無線電話例如蜂窩或PCS電話系統、移動網際協議(IP)電話和衛星通信系統。一種特別重要的應用就是用于移動用戶的無線電話。
針對無線通信系統包括例如頻分多路訪問(FDMA)、時分多路訪問(TDMA)和碼分多路訪問(CDMA)已經開發出各種空中接口。與之連接中,建立了各種國內和國際標準包括例如高級移動電話服務(AMPS)、全球移動通信系統(GSM)和臨時標準95(IS-95)。一種示范無線電話通信系統是碼分多路訪問(CDMA)系統。IS-95標準和其衍生物IS-95A、ANSI J-STD-008,IS-95B、提議的第三代標準IS-95C和IS-2000等(在此共同歸類為IS-95)是由電信工業協會(TIA)和其他知名標準團體公布來說明用于蜂窩或PCS電話通信系統的CDMA空中接口的使用。大致根據使用的IS-95標準配置的示范無線通信系統在美國專利號5,103,459和4,901,307(已轉讓給本發明的受讓人并在此作為合作參考)中有所描述。
采用以提取與人類語音生成模型有關的參量來壓縮語音的技術的設備被稱為語音編碼器。語音編碼器將輸入語音信號分為時間塊或分析幀。語音編碼器通常由編碼器和譯碼器組成。編碼器對輸入語音幀進行分析來提取某些相關參量,并且隨后將參量量化為二進制表示,即量化為一組位或二進制數據包。數據包在通信信道上向接收器和解碼器傳輸。解碼器對這些數據包進行處理,把它們去量化來產生參量,并且使用去量化參量來再合成語音幀。
語音編碼器的功能是通過去除語音中固有的所有自然冗余來將數字化的語音信號壓縮為低比特率信號。通過用一組參量代表輸入語音幀并對參量進行量化來用一組位表示參量就可以實現數字壓縮。如果輸入語音幀具有位數為Ni并且語音編碼器產生的數據包具有位數No,語音編碼器所達到的壓縮系數為Cr=Ni/No。在壓縮技術中所面臨的挑戰是在達到目標壓縮系數的情況下還要保持解碼語音的高語音質量。評價語音編碼器性能的依據是(1)上述語音模型或分析和合成的混合處理完成的效果有多好,以及(2)以目標比特率每幀No位進行參量量化處理所執行的效果如何。語音模型的目標就是對于每幀用較小一組參量來獲得語音信號的實質或目標語音質量。
在語音編碼器的設計中最重要的可能就是尋找一組好的參數(包括向量)來描述語音信號。一組好的參數需要較低的系統帶寬用于感覺上準確的語音信號重構。音調、信號功率、譜包絡(或共振峰)、振幅譜和相譜都是語音編碼參數的實例。
語音編碼器可以作為時域編碼器實現,時域編碼器是試圖通過每次使用高時間分辨率處理對較小的語音段(通常是5毫秒(ms)子幀)進行編碼來捕獲時域語音波形。對于每個子幀,依靠本領域中已知的各種搜索算法從碼本空間中尋找高精度的代表。或者,語音編碼器可以作為頻域編碼器來實現,頻域編碼器是試圖用一組參量(分析)來捕獲輸入語音幀的短期語音頻譜,并且使用相應的合成處理來從譜參量中重建語音波形。參量量化器根據A.Gersho & R.M.Gray,的矢量量化和信號壓縮(Vector Quantization and Signal Compression)(1992)中描述的已有量化技術通過用已存儲的碼矢量代表表示這些參量來保存它們。
一種著名的時域編碼器是在L.B.Rabiner & R.W.Schafter,的語音信號數字處理(Digital Processing of Speech Signals)396-453(1978,在此作為合作參考)中所描述的代碼激發線性預測(CELP)編碼器。在CELP編碼器中,通過線性預測(LP)分析去除了短期相關或冗余,該分析是找出短期共振峰濾波器的系數。對輸入語音幀使用短期預測濾波器就產生LP剩余信號,該信號將進一步用長期預測濾波器參數和后續隨機碼本進行模擬和量化。這樣,CELP編碼將對時域語音波形的編碼任務分為對LP短期濾波器系數編碼和對LP剩余編碼的獨立任務。時域編碼能以固定速率(即對每個幀使用相同的位數,N0)或可變速率(對不同類型的幀內容使用不同的速率)執行。可變速率編碼器試圖僅使用足夠獲得目標質量水平而對編解碼器參量進行編碼所需的位數。一種示范可變速率CELP編碼器在美國專利號5,414,796(已轉讓給本發明的受讓人,并在此作為合作參考)中有描述。
時域編碼器例如CELP編碼器通常依靠較高的每幀位數N0來保持時域語音波形的精確度。這樣的編碼器通常以相對較大的每幀位數N0(例如8kbps或以上)所提供的極好的語音質量進行傳輸。然而,在較低比特率(4kbps和以下),時域編碼器由于有限的可用位數而不能保持高質量傳輸和穩健的性能。在低比特率時,有限的碼本空間削減了傳統時域編碼器的波形匹配能力,該編碼器在更高比特率的商業應用中使用得非常成功。因此,雖然隨時間進行了很多改進,但是,許多在低比特率上工作的CELP編碼系統還是受到通常用噪聲表征的明顯感覺上失真的困擾。
當前人們對開發在中到低比特率(即2.4到4kbps和以下的范圍)工作的高質量語音編碼器有著濃厚的研究興趣和強烈的商業需求。其應用領域包括無線電話、衛星通信、因特網電話、各種多媒體和語音流應用程序、語音郵件和其他語音存儲系統。其驅動力是人們對高容量的需求和在包丟失情況下對穩健性能的要求。各種新近的語音編碼標準化工作是另一種推動低比特率語音編碼算法研究和發展的直接驅動力。低比特率語音編碼器在每個允許的應用帶寬上創建更多的信道或用戶,并且結合有適合信道編碼的附加層的低比特率語音編碼器能符合編碼器規范的總體位預算,并能在信道錯誤的條件下提供穩健的性能。
一種在低比特率下能有效對語音編碼的有用技術是多模編碼。一種示范多模編碼技術在美國申請序列號09/217,341在1998.12.21申請的名為可變比特率語音編碼(VARIABLE RATE SPEECH CODING,已轉讓給本發明的受讓人并在此作為合作參考)中有描述。傳統的多模編碼器對不同類型的輸入語音幀采用不同的模式或編碼-解碼算法。每種模式或編碼-解碼處理是為以最有效的方式最佳表示某種類型語音段而定制的,例如即有聲語音、無聲語音、過渡語音(例如有聲和無聲之間)和背景噪聲(無語音)。一種外部開環模式判定機制對輸入語音幀進行檢驗,并做出有關對幀采用什么模式的判定。開環模式判定通常是通過從輸入幀中提取許多參量,對有關某些時間和頻譜特性的參數進行評估,并以評估值作為模式判定的基礎。
在許多傳統語音編碼器中,通過未充分減少碼率而對有聲語音幀進行編碼,在未利用有聲語音的穩態特性情況下,傳輸線狀譜信息例如線狀譜對或線狀譜余弦。因此,浪費了寶貴的帶寬。在另一些傳統語音編碼器、多模式語音編碼器或低比特率語音編碼器中,對每幀都利用有聲語音的穩態特性。因此,非穩態幀性能退化,并影響了語音質量。提供一種能反應每幀語音內容特性的自適應編碼方法是很有益的。另外,因為有益信號通常是非穩態或非平穩的,在語音編碼中使用的線狀譜信息(LSI)參數的量化效率可以通過使用對每幀語音的LSI參數可選擇性地使用基于移動平均(moving-average)(MA)預測矢量量化(VQ)或其他標準VQ方法進行編碼的方案得到改進。這種方案適合發揮上述兩種VQ方法的優勢。因此,需要提供一種語音編碼器,該編碼器在從一種方法過渡到另一種方法的邊界處通過適當地混合兩種方案來交織兩種VQ方法。這樣,就需要一種使用多種矢量量化方法來適應在周期幀和非周期幀之間變化的語音編碼器。
發明內容
本發明針對一種使用多種矢量量化方法來適應在周期幀和非周期幀之間變化的語音編碼器。因此,在本發明的一個方面中,語音編碼器最好包括配置來分析幀并依據上述分析生成線狀譜信息碼矢量的線性預測濾波器;和與線性預測濾波器耦合并配置用于使用基于非移動平均預測矢量量化方案的第一矢量量化技術對線狀譜信息矢量進行矢量量化的量化器,其中該量化器進一步配置來計算用于第一技術的等效移動平均的碼矢量,用等效移動平均碼矢量來更新經語音編碼器預先處理的預定幀數的碼矢量移動平均碼本的存儲值,依據已更新的移動平均碼本存儲值來計算用于第二技術的目標量化矢量,用第二矢量量化技術對目標量化矢量進行矢量量化來產生量化的目標碼矢量,第二矢量量化技術使用基于移動平均預測方案,用已量化的目標碼矢量來更新移動平均碼本的存儲值,并從已量化的目標碼矢量中計算量化線狀譜信息矢量。
在本發明的另一方面中,對幀的線狀譜信息矢量進行矢量量化的方法,使用第一和第二量化矢量量化技術,第一技術使用基于非移動平均預測矢量量化方案,第二技術使用基于移動平均預測矢量量化方案,最好包括用第一矢量量化技術對線狀譜信息矢量進行矢量量化的步驟;計算用于第一技術的等效移動平均碼矢量的步驟;用等效移動平均碼矢量更新經語音編碼器預先處理的預定幀數的碼矢量移動平均碼本存儲值的步驟;依據已更新的移動平均碼本存儲值來計算用于第二技術的目標量化矢量的步驟;用第二矢量量化技術對目標量化矢量進行矢量量化來產生量化的目標碼矢量的步驟;用已量化的目標碼矢量來更新移動平均碼本的存儲器的步驟;以及從已量化的目標碼矢量中導出量化線狀譜信息矢量的步驟。
在本發明的另一方面中,語音編碼器最好包括用第一矢量量化技術對線狀譜信息矢量進行矢量量化的裝置,該技術使用基于非移動平均預測矢量量化方案;用于計算用于第一技術的等效移動平均碼矢量的裝置;用于用等效移動平均碼矢量更新經語音編碼器預先處理的預定幀數的碼矢量移動平均碼本存儲值的裝置;用于依據已更新的移動平均碼本存儲值來計算用于第二技術的目標量化矢量的裝置;用于用第二矢量量化技術對目標量化矢量進行矢量量化來產生量化的目標碼矢量的裝置;用于用已量化的目標碼矢量來更新移動平均碼本的存儲的裝置;以及用于從已量化的目標碼矢量中導出量化線狀譜信息矢量的裝置。
圖1是無線電話系統的框圖。
圖2是由語音編碼器在每個端點終止的通信信道框圖。
圖3是編碼器框圖。
圖4是解碼器框圖。
圖5是說明語音編碼判決過程的流程圖。
圖6A是語音信號振幅與時間的相對圖,而圖6B是線性預測剩余振幅與時間的視圖。
圖7是說明語音編碼器交織兩種線狀譜信息(LSI)矢量量化(VQ)方法所執行的方法步驟流程圖。
具體實施例方式
下述示范實施例是駐留在使用CDMA空中接口配置的無線電話通信系統中。然而,對于本領域的熟練技術人員來說應該理解使用本發明特征的子抽樣方法和設備可以安置在為本領域熟練技術人員所熟知的廣闊技術領域中所使用的各種通信系統中的任意系統中。
如圖1所示,CDMA無線電話系統通常包括多個移動用戶單元10、多個基站12、基站控制器(BSCs)14和移動交換中心(MSC)16。MSC16配置來與傳統的公用電話交換網(PSTN)18對接。MSC也配置來與BSCs 14對接。BSCs 14通過回傳線與基站12連接。回傳線可以配置來支持任意幾種已知接口包括例如E1/T1、ATM、IP、PPP、幀中繼、HDSL、ADSL或xDSL。應該明白在系統中可能有多于2個的BSCs 14。每個基站12最好包括至少一個扇區(未示出),每個扇區由全向天線或沿徑向從基站12離開指向特定方向的天線組成。或者,每個扇區可能包括兩個用于分集接收的天線。每個基站12最好能設計成支持多個頻率分配。扇區的相交和頻率分配可以稱為CDMA信道。基站12也可以通稱為基站收發器子系統(BTSs)12。或者,“基站”在工業界可以用來統稱為BSC 14和一個或多個BTSs 12。BTSs 12也能表示為“蜂窩站”12。或者,給定的BTS 12的單獨扇區可以稱為蜂窩站。移動用戶單元10通常是蜂窩或PCS電話10。根據IS-95標準對該系統的使用進行了有利的配置。
在蜂窩電話系統的典型工作期間,基站12從移動單元10組中接收到反向鏈路信號集。移動單元10處理電話呼叫或其他通信。由給定基站12接收的每個反向鏈路信號在該基站12中進行處理。結果數據提交給BSCs 14。BSCs14提供呼叫資源分配和移動性管理的功能包括在基站12之間的軟切換控制。BSCs 14也將接收的數據發送給MSC 16,MSC 16提供了與PSTN 18對接的附加路由服務。同樣,PSTN 18與MSC 16對接,并且MSC 16與BSCs 14對接,BSCs 14依次控制基站12向移動單元10組發送前向鏈路信號集。
在圖2中,第一編碼器100接收數字化語音采樣s(n),并對采樣s(n)編碼用于在傳輸介質102或通信信道102上向第一解碼器104傳輸。解碼器104對編碼的語音采樣進行解碼,并合成為輸出語音信號sSYNTH(n)。為了能在反向傳輸,第二編碼器106對在通信信道108上傳輸的數字化語音采樣s(n)進行編碼。第二解碼器110接收編碼的語音采樣并對其進行解碼,生成經合成的輸出語音信號sSYNTH(n)。
語音采樣s(n)代表根據本領域已知各種方法,包括例如脈沖編碼調制(PCM)、壓擴μ-律(companded μ-law)或A-律,中的任何方法經數字化和量化的語音信號。如本領域中所知,語音采樣s(n)是以輸入數據幀的形式編制,其中每個幀由預定數量的數字化語音采樣s(n)組成。在示范實施例中,使用8kHz的采樣率,就是20ms的幀由160個采樣組成。在下述實施例中,數據傳輸率在幀與幀的基礎上從13.2kbps(全速)到6.2kbps(半速)到2.6kbps(1/4速)到1kbps(1/8速)進行有利地變化。變化的數據傳輸率具有優勢是因為對于含有相對較少語音信息的幀可選擇使用低比特率。如本領域熟練技術人員所知,可以使用其他采樣率、幀大小和數據傳輸率。
第一編碼器100和第二解碼器110都由第一語音編碼器或語音編譯碼器組成。語音編碼器可以用在用于傳輸語音信號的任意通信設備中,包括例如如圖1中所述的用戶單元、BTSs或BSCs。同樣,第二編碼器106和第一解碼器104都由第二語音編碼器組成。本領域熟練技術人員可以了解語音編碼器可以用數字信號處理器(DSP)、專用集成電路(ASIC)、離散門邏輯、固件或任何傳統的可編程軟件模塊和微處理器來實現。軟件模塊可以駐留在RAM存儲器、快閃存儲器、寄存器或任何本領域已知的可寫入存儲媒體的其他形式中。或者,可以用任何傳統的處理器、控制器或狀態機來替代微處理器。特別設計用于語音編碼的示范例ASICs在美國專利號5,727,123(已轉讓給本發明的受讓人,并在此作為合作參考)以及美國申請號08/197,417名為聲碼器ASIC(VOCODER ASIC,1994.2.16申請,已轉讓給本發明的受讓人,并在此作為合作參考)中有描述。
在圖3中,可以用在語音編碼器中的編碼器200包括模式判決模塊202、音調估計模塊204、LP分析模塊206、LP分析濾波器208、LP量化模塊210和剩余量化模塊212。輸入語音幀s(n)提供給模式判決模塊202、音調估計模塊204、LP分析模塊206和LP分析濾波器208。模式判決模塊202依據每個輸入語音幀s(n)的周期、能量、信噪比(SNR)或過零率和其他特征來產生模式索引IM和模式M。根據周期對語音幀分類的各種方法在美國專利號5,911,128(已轉讓給本發明的受讓人,并在此作為合作參考)中有描述。在電信工業協會臨時標準TIA/EIA IS-127和TIA/EIA IS-733也包括有這樣的方法。一種示范模式判決方案在上述美國申請號09/217,341中也有描述。
音調估計模塊204依據每個輸入語音幀s(n)產生音調索引IP和滯后值P0。LP分析模塊206對每個輸入語音幀s(n)執行線性預測分析來產生LP參量α。LP參量α提供給了LP量化模塊210。LP量化模塊210也接收模式M,因此,就以與模式有關的方式執行量化處理。LP量化模塊210產生LP索引ILP和已量化的LP參數。LP分析濾波器208除輸入語音幀s(n)之外還接收已量化的LP參數。LP分析濾波器208生成LP剩余信號R[n],該信號依據量化線性預測參數表示了在輸入語音幀s(n)和重構語音之間的錯誤。LP剩余R[n]、模式M和量化LP參數提供給剩余量化模塊212。依據這些值,剩余量化模塊212產生剩余索引IR和量化剩余信號 在圖4中,可以在語音編碼器中使用的解碼器300包括LP參數解碼模塊302、剩余解碼模塊304、模式解碼模塊306和LP合成濾波器308。模式解碼模塊306接收模式索引IM并對其解碼,從中產生模式M。LP參數解碼模塊302接收模式M和LP索引ILP。LP參數解碼模塊302對接收的值進行解碼來產生量化LP參數。剩余解碼模塊304接收剩余索引IR、音調索引IP和模式索引IM。剩余解碼模塊304對接收的值進行解碼來產生量化剩余信號 量化剩余信號 和量化LP參數提供給LP合成濾波器308,濾波器308將其合成為經解碼的輸出語音信號[n]。
圖3的編碼器200以及圖4的解碼器300的各種模塊的運作和實現為本領域的熟練技術人員所熟知,并且在上述美國專利號5,414,796和L.B.Rabiner & R.W.Schafer,的語音信號數字處理(Digital Processing of SpeechSignals)396-453(1978)中有描述。
如圖5中流程圖所示,根據一個實施例的語音編碼器按照一組步驟來處理用于傳輸的語音采樣。在步驟400,語音編碼器接收連續幀中的語音信號數字采樣。一當接收到的給定幀,語音編碼器進入步驟402。在步驟402中,語音編碼器檢測幀的能量。該能量是測量幀語音活動的一種度量。通過將數字化語音采樣振幅的平方求和,并將結果能量和閥值進行比較就能執行語音檢測。在一個實施例中,閥值依據背景噪聲的變化水平進行適應改變。一種示范可變閥值活動檢測器在上述美國專利號5,414,796中有描述。某些無聲語音聲音可以是非常低能量采樣,該采樣可能被誤認為基底噪聲編碼。為了避免這樣的情況發生,可能用低能量采樣的光譜傾斜來從基底噪聲中分辨無聲語音,如上述美國專利號5,414,796所述。
在檢測幀能量之后,語音編碼器進到步驟404。在步驟404中,語音編碼器對檢測到的幀能量是否足夠將幀分類為含有語音信息的幀進行判定。如果檢測到的幀能量降到預定閥值之下,語音編碼器就進入步驟406。在步驟406中,語音編碼器將幀作為背景噪聲(即非語音或靜音)進行編碼。在一個實施例中,背景噪聲以1/8速或1kbps速率進行編碼。如果在步驟404中,檢測到的幀能量達到或超過預定閥值,幀就分類為語音,并且語音編碼器進到步驟408。
在步驟408中,語音編碼器對幀是否是無聲語音進行判定,即語音編碼器檢驗幀的周期。各種已知周期判定方法包括例如通過使用過零和通過使用標準自相關函數(NACFs)的方法。特別是使用過零和NACFs來檢測周期在上述美國專利號5,911,128和美國申請序列號09/217,341中有描述。另外,上述用于從無聲語音中分辨有聲語音的方法包括在了電信工業協會臨時標準TIA/EIA IS-127和TIA/EIA IS-733中。如果該幀在步驟408中判定為無聲語音,語音編碼器就進行步驟410。在步驟410,語音編碼器將幀作為無聲語音編碼。在一個實施例中,無聲語音幀以1/4速率或2.6kbps進行編碼。如果在步驟408中,沒有判定該幀為無聲語音,語音編碼器就進到步驟412。
在步驟412中,語音編碼器使用本領域已知的周期檢測方法對該幀是否是過渡語音,如例如上述美國專利號5,911,128中所述。如果該幀確定為過渡語音,語音編碼器就進到步驟414。在步驟414,該幀作為過渡語音(即從無聲語音到有聲語音的過渡)進行編碼。在一個實施例中,過渡語音幀根據在美國申請序列號09/307,294名為過渡語音幀的多脈沖內插編碼(MULTIPULSEINTERPOLATIVE CODING OF TRANSITION SPEECH FRAMES)1999.5.7申請(已轉讓給本發明的受讓人并在此作為合作參考)中所述的多脈沖內插編碼方法進行編碼。在另一實施例中,過渡語音幀以全速或13.2kbps進行編碼。
如果在步驟412中,語音編碼器判定該幀不是過渡語音,語音編碼器就進入步驟416。在步驟416中,語音編碼器將該幀作為有聲語音進行編碼。在一個實施例中,有聲語音幀能以半速率或6.2kbps進行編碼。也可以以全速率或13.2kbps(或在8k CELP編碼器中以全速率,8kbps)對有聲語音幀進行編碼。本領域的熟練技術人員可以理解以半速率進行有聲幀編碼允許編碼器通過利用有聲幀的穩態特性來節省寶貴的帶寬。進一步,不管用于對有聲語音編碼的速率是多少,有聲語音可以使用過去幀的信息方便地進行編碼,因此可以說是通過預測進行編碼。
本領域的熟練技術人員可以理解語音信號或相應的LP剩余可以通過如圖5中所示的步驟進行編碼。噪聲、無聲、過渡和有聲語音的波形特征可以看作是圖6A中的時間函數。噪聲、無聲、過渡和有聲LP剩余的波形特征可以看作是圖6B中的時間函數。
在一個實施例中,語音編碼器執行如圖7所示的流程圖中的步驟來交織兩種線狀譜信息(LSI)矢量量化(VQ)的方法。語音編碼器最好計算用于基于非MA預測LSI VQ的等效移動平均(MA)碼本矢量的估值,該非MA預測ISI VQ能使語音編碼器交織兩種LSI VQ方法。在基于MA預測的方案中,計算MA用于先前處理的幀數,P,如下所述,MA是通過將各矢量碼本表項乘以參量權重來計算。如下所述,從LSI參量的輸入矢量中減去MA來產生目標量化矢量。本領域的熟練技術人員能很容易地理解基于非MA預測VQ的方法可以是不使用基于MA預測VQ的任何已知VQ方案。
通常通過使用具有幀間MA預測的VQ或通過使用任何其他標準基于非MA預測VQ方法例如分割VQ、多級VQ(MSVQ)、交換預測VQ(SPVQ)或這些方法中的一些或全部方法的混合來將LSI參量量化。在結合圖7所述的實施例中,使用一種方案來對任何具有基于MA預測VQ方法的上述VQ方法混合。這是因為基于MA預測VQ的方法適最用于本質上是穩態或平穩的語音幀(該幀所示出信號例如圖6A-B中所示的平穩有聲幀所示的信號),基于非MA預測VQ的方法最適用于本質上是非穩態或非平穩的語音幀(該幀所示出信號例如圖6A-B中所示的無聲幀和過渡幀所示的信號)。
在用于量化N維LSI參數的基于非MA預測VQ的方案中,對于第M幀的輸入矢量,LM≡{LMn;n=0,1,…,N-1},是直接作為用于量化的目標使用,并且使用任何上述標準VQ技術將其量化為矢量 在示范幀間MA預測方案中,用于量化的目標如下計算UM≡{UMn=(LMn-α1nU^M-1n-α2nU^M-2n-....-αPnU^M-Pn)α0n;n=0,1,..,N-1}----(1)]]>其中{M-1n,M-2n,…M-Pn;n=0,1,…,N-1}是對應于緊接在幀M之前的P幀LSI參量的碼本表項,而{α1n,α2n,…,αPn;n=0,1,…,N-1}是各權重,這樣{α0n+α1n+,…,+αPn=1;n=0,1,…,N-1}。隨后,使用任何上述VQ技術將目標量化UM量化為M。經量化的LSI矢量如下計算L^M≡{L^Mn=α0nU^Mn+α1nU^M-1n+....+αPnU^M-Pn;n=0,1,...N-1}----(2)]]>MA預測方案需要過去P幀的碼本表項,{M-1,M-2,…,M-P},的過去值的存在。而碼本表項對于那些使用MA方案進行自身量化的幀(在過去P幀中)是自動可供使用的,過去P幀的剩余幀可以使用基于非MA預測VQ方法來進行量化,并且其相應的碼本表項()對于這些幀是不能直接使用的。這就使得混合或交織上述兩種VQ方法變得很困難。
在結合圖7所述的實施例中,下述公式最適用于計算在K∈{1,2,…,P}其中碼本表項M-K沒有明示可用的情況下的碼本表項M-K的估值 U^~M-K≡{U^~M-Kn=(L^M-Rn-β1nU^M-K-1n-β2nU^M-K-2n-....-βRnU^M-K-Pn)β0n;n=0,1,..,N-1}---(3)]]>其中{β1n,β2n,…,βPn;n=0,1,…,N-1}是各權重,使得{β0n+β1n+,…,+βPn=1;n=0,1,…,N-1},并且具有初始條件 一種示范初始條件為 其中LB是LSI參量的偏差值。下述是權重的示范集合{β1n=,..,=βPn=0;β0n=1;⟩n=0,1,..,N-1}]]>在圖7流程圖的步驟500,語音編碼器判定是否用基于MA預測VQ的技術來量化輸入LSI矢量LM。該判決最好依據幀的語音內容。例如,用于平穩有聲幀的LSI參量量化為最有利于基于MA預測VQ的方法,而用于無聲幀和過渡幀的LSI參量量化為最有利于基于非MA預測VQ的方法。如果語音編碼器確定用基于MA預測VQ的技術來量化輸入LSI矢量LM,語音編碼器就進入步驟502。另一方面,如果語音編碼器確定不用基于MA預測VQ的技術來量化輸入LSI矢量LM,語音編碼器就進入步驟504。
在步驟502中,語音編碼器根據上述公式(1)計算用于量化的目標UM。隨后,語音編碼器進入步驟506。在步驟506中,語音編碼器根據任何各種通常為本領域所知的VQ技術來對目標UM量化。隨后,語音編碼器進入步驟508。在步驟508中,語音編碼器根據上述公式(2)從經量化的目標M中計算經量化的LSI參數的矢量 在步驟504中,語音編碼器根據任何各種通常為本領域所知的基于非MA預測VQ技術來對目標UM量化。(如本領域熟練技術人員所知,在基于非MA預測VQ技術中用于量化的目標矢量為LM,而不是UM。)隨后語音編碼器進入步驟510。在步驟510中,語音編碼器根據上述公式(3)從經量化的LSI參數的矢量 中計算等效的MA碼矢量 在步驟512中,語音編碼器使用在步驟506中獲得的已量化目標M以及在步驟510獲得的等效MA碼矢量 來更新過去P幀MA碼本矢量的存儲值。隨后,將已更新的過去P幀MA碼本矢量的存儲值用于步驟502來計算用于后繼幀輸入LSI矢量LM+1量化的目標UM。
這樣,就揭示了一種用于交織語音編碼器中線性譜信息量化方法的新穎方法和設備。本領域的熟練技術人員應該理解,此處所揭示的與實施例有關的各種說明邏輯塊和算法步驟可以由數字信號處理器(DSP)、專用集成電路(ASIC)、離散門或晶體管邏輯、離散硬件部件例如寄存器和FIFO、執行一組固件指令的處理器或任何傳統可編程軟件模塊和處理器,來實現或執行。該處理器最好是微處理器,但作為替代,該處理器也可以是任何傳統處理器、控制器、微控制器或狀態機。軟件模塊可以駐留在RAM存儲器、快閃存儲器、寄存器或任何本領域已知的可寫入存儲媒體的其他形式中。本領域的熟練技術人員可以進一步理解,在上述整個描述中提到的數據、指令、命令、信息、信號、位、字符和碼片最好由電壓、電流、電磁波、磁場或粒子、光場或粒子或其任意組合來表示。
本發明的較佳實施例已經示出并討論。對于本領域普通技術人員來說,在不背離本發明的精神和范疇的情況下,很明顯可以對此處揭示的實施例做出許多改動。因而,本發明僅局限于下述權利要求。
權利要求
1.一種語音編碼器,包括線性預測濾波器,配置為用于分析幀并依據分析生成線狀譜信息碼矢量;和與所述線性預測濾波器耦合的量化器,配置為用于通過使用基于非移動平均預測矢量量化方案的第一矢量量化技術來對線狀譜信息矢量進行矢量量化,其特征在于,所述量化器進一步配置為用來計算用于第一技術的等效移動平均碼矢量,用所述等效移動平均碼矢量對經語音編碼器預先處理的預定幀數的碼矢量移動平均碼本存儲值進行更新,依據已更新的所述移動平均碼本存儲值計算用于第二技術的目標量化矢量,通過所述第二矢量量化技術對目標量化矢量進行量化來生成經量化的目標碼矢量,所述第二矢量量化技術是使用基于移動平均預測的方案,用所述經量化的目標碼矢量對所述移動平均碼本存儲值進行更新,并從所述經量化的目標碼矢量中計算經量化的線狀譜信息矢量。
2.如權利要求1所述的語音編碼器,其特征在于,所述幀是語音幀。
3.如權利要求1所述的語音編碼器,其特征在于,所述幀是線性預測剩余幀。
4.如權利要求1所述的語音編碼器,其特征在于,所述目標量化矢量是根據下述公式進行計算UM≡{UMn=(LMn-α1nU^M-1n-α2nU^M-2n-....-αPnU^M-Pn)α0n;n=0.1....N-1},]]>其中{M-1n,M-2n,…,M-Pn;n=0,1,…,N-1}是對應于緊接在幀之前已處理的預定數目幀的線狀譜信息參量的碼本表項,而{α1n,α2n,…,αPn;n=0,1,…,N-1}是各參數權重,這樣{α0n+α1n+,…,+αPn=1;n=0,1,…,N-1}。
5.如權利要求1所述的語音編碼器,其特征在于,所述經量化線狀譜信息矢量是根據下述公式進行計算L^M≡{L^Mn=α0nU^Mn+α1nU^M-1n+....+αPnU^M-Pn;n=0,1,..,N-1},]]>其中{M-1n,M-2n,…,M-Pn;n=0,1,…,N-1}是對應于緊接在幀之前已處理的預定數目幀的線狀譜信息參量的碼本表項,而{α1n,α2n,…,αPn;n=0,1,…,N-1}是各參量權重,這樣{α0n+α1n+,…,+αPn=1;n=0,1,…,N-1}。
6.如權利要求1所述的語音編碼器,其特征在于,所述等效移動平均碼矢量是根據下述公式進行計算U^~M-K≡{U^~M-Kn=(L^M-Rn-β1nU^M-K-1n-β2nU^M-K-2n-....-βRnU^M-K-Pn)β0n;n=0,1....N-1}]]>其中{β1n,β2n,…,βPn;n=0,1,…,N-1}是各等效移動平均碼矢量單元權重使得{β0n+β1n+,…,+βPn=1;n=0,1,…,N-1},并且其中初始條件 已確立。
7.如權利要求1所述的語音編碼器,其特征在于,所述語音編碼器駐留在無線通信系統用戶單元中。
8.一種對幀的線狀譜信息矢量進行矢量量化的方法,使用第一和第二量化矢量量化技術,第一技術使用基于非移動平均預測矢量量化方案,第二技術使用基于移動平均預測矢量量化方案,其特征在于,該方法包括下述步驟用所述第一矢量量化技術對線狀譜信息矢量進行矢量量化;計算用于所述第一技術的等效移動平均碼矢量;用所述等效移動平均碼矢量更新經語音編碼器預先處理的預定幀數的碼矢量移動平均碼本的存儲值;依據所述已更新的移動平均碼本的存儲值來計算用于所述第二技術的目標量化矢量;用所述第二矢量量化技術對目標量化矢量進行矢量量化來產生量化的目標碼矢量;用所述已量化的目標碼矢量來更新所述移動平均碼本的存儲值;和從所述已量化的目標碼矢量中導出量化線狀譜信息矢量。
9.如權利要求8所述的方法,其特征在于,所述幀是語音幀。
10.如權利要求8所述的方法,其特征在于,所述幀是線性預測剩余幀。
11.如權利要求8所述的方法,其特征在于,所述計算步驟包括根據下述公式計算所述目標量化UM≡{UMn=(LMn-α1nU^M-1n-α2nU^M-2n-....-αPnU^M-Pn)α0n;n=0,1,..,N-1},]]>其中{M-1n,M-2n,…,M-Pn;n=0,1,…,N-1}是對應于緊接在幀之前已處理的預定數目幀的線狀譜信息參數的碼本表項,而{α1n,α2n,…,αPn;n=0,1,…,N-1}是各參數的權重,使得{α0n+α1n+,…,+αPn=1;n=0,1,…,N-1}。
12.如權利要求8所述的方法,其特征在于,所述導出步驟包括根據下述公式導出所述經量化線狀譜信息矢量L^M≡{L^Mn=α0nU^Mn+α1nU^M-1n+....+αPnU^M-Pn;n=0,1...,N-1},]]>其中{M-1n,M-2n,…,M-Pn;n=0,1,…,N-1}是對應于緊接在幀之前已處理的預定數目幀的線狀譜信息參量的碼本表項,而{α1n,α2n,…,αPn;n=0,1,…,N-1}是各參數權重,這樣{α0n+α1n+,…,+αPn=1;n=0,1,…,N-1}。
13.如權利要求8所述的方法,其特征在于,所述計算步驟包括根據下述公式計算所述等效移動平均碼矢量U^~M-K≡{U^~M-Kn=L^M-Rn-β1nU^M-K-1n-β2nU^M-K-2n-....-βRnU^M-K-Pnβ0n;n=0,1,...N-1}]]>其中{β1n,β2n,…,βPn;n=0,1,…,N-1}是各等效移動平均碼矢量單元權重使得{β0n+β1n+,…,+βPn=1;n=0,1,…,N-1},并且其中初始條件 已確立。
14.一種語音編碼器,其特征在于,包括用于通過用第一矢量量化技術對線狀譜信息矢量進行矢量量化的裝置,所述技術使用基于非移動平均預測矢量量化方案;用于計算用于所述第一技術的等效移動平均碼矢量的裝置;用于用所述等效移動平均碼矢量更新經語音編碼器預先處理的預定幀數的碼矢量移動平均碼本存儲值的裝置;用于依據所述已更新的移動平均碼本存儲值來計算用于第二技術的目標量化矢量的裝置;用于用所述第二矢量量化技術對所述目標量化矢量進行矢量量化來產生量化的目標碼矢量的裝置;用于用所述已量化的目標碼矢量來更新所述移動平均碼本的存儲值的裝置;和用于從所述已量化的目標碼矢量中導出量化線狀譜信息矢量的裝置。
15.如權利要求14所述的語音編碼器,其特征在于,所述幀是語音幀。
16.如權利要求14所述的語音編碼器,其特征在于,所述幀是線性預測剩余幀。
17.如權利要求14所述的語音編碼器,其特征在于,所述目標量化是根據下述公式進行計算UM≡{UMn=(LMn-α1nU^M-1n-α2nU^M-2n-....-αPnU^M-Pn)α0n;n=0,1,..,N-1}]]>其中{M-1n,M-2n,…,M-Pn;n=0,1,…,N-1}是對應于緊接在幀之前已處理的預定數目幀的線狀譜信息參數的碼本表項,而{α1n,α2n,…,αPn;n=0,1,…,N-1}是各參數的權重,使得{α0n+α1n+,…,+αPn=1;n=0,1,…,N-1}。
18.如權利要求14所述的語音編碼器,其特征在于,所述經量化線狀譜信息矢量是根據下述公式導出L^M≡{L^Mn=α0nU^Mn+α1nU^M-1n+....+αPnU^M-Pn;n=0,1,..,N-1},]]>其中{M-1n,M-2n,…,M-Pn;n=0,1,…,N-1}是對應于緊接在幀之前已處理的預定數目幀的線狀譜信息參數的碼本表項,而{α1n,α2n,…,αPn;n=0,1,…,N-1}是各參數權重,使得{α0n+α1n+,…,+αPn=1;n=0,1,…,N-1}。
19.如權利要求14所述的語音編碼器,其特征在于,所述等效移動平均碼矢量是根據下述公式計算進行計算U^~M-K≡{U^~M-Kn=(L^M-Rn-β1nU^M-K-1n-β2nU^M-K-2n-....-βRnU^M-K-Pn)β0n;n=0,1,..,N-1}]]>其中{β1n,β2n,…,βPn;n=0,1,…,N-1}是各等效移動平均碼矢量單元權重使得{β0n+β1n+,…,+βPn=1;n=0,1,…,N-1},并且其中初始條件 已確立。
20.如權利要求14所述的語音編碼器,其特征在于,所述語音編碼器駐留在無線通信系統用戶單元中。
全文摘要
一種用于交織語音編碼器中線狀譜信息量化方法的方法和設備包括用兩種矢量量化技術對線狀譜信息進行量化,第一技術是基于非移動平均預測的技術,而第二技術是基于移動平均預測的技術。用第一技術對線狀譜信息矢量進行矢量量化。計算用于第一技術的等效移動平均碼矢量。用等效移動平均碼矢量以經語音編碼器預先處理的預定幀數更新碼矢量移動平均碼本的存儲值。依據已更新的移動平均碼本存儲值來計算用于第二技術的目標量化矢量。用第二技術對目標量化矢量進行矢量量化來產生量化的目標碼矢量。用已量化的目標碼矢量來更新移動平均碼本的存儲值。從已量化的目標碼矢量中導出量化線狀譜信息矢量。
文檔編號G10L19/04GK1361913SQ00810352
公開日2002年7月31日 申請日期2000年7月19日 優先權日1999年7月19日
發明者A·K·阿南塔帕德瑪那伯漢, S·曼朱那什 申請人:高通股份有限公司