專利名稱:音頻信號的分類的制作方法
技術領域:
本發明涉及語音和音頻編碼,其中編碼模式根據輸入信號是類語音還是類音樂信號而改變。本發明涉及一種編碼器,該編碼器包括一個輸入,用來輸入在一個頻帶中的音頻信號的幀,包括至少第一激勵塊,用來對類語音音頻信號執行第一激勵,以及第二激勵塊,用來對非類語音音頻信號執行第二激勵。本發明還涉及一種設備,該設備包括一個編碼器,該編碼器包括一個輸入,用來輸入在一個頻帶中音頻信號的幀,包括至少第一激勵塊,用來對類語音音頻信號執行第一激勵,以及第二激勵塊,用來對非類語音音頻信號執行第二激勵。本發明還涉及一種系統,該系統包括一個編碼器,該編碼器包括一個輸入,用來輸入在一個頻帶中的音頻信號的幀,包括至少第一激勵塊,用來對類語音音頻信號執行第一激勵,以及第二激勵塊,用來對非類語音音頻信號執行第二激勵。本發明還包括一種方法,用來壓縮在一個頻帶中的音頻信號,其中第一激勵用于類語音音頻信號,第二激勵用于非類語音音頻信號。本發明涉及一種模塊,用來對在一個頻帶中的音頻信號的幀進行分類,用于在至少用于類語音音頻信號的第一激勵和用于非類語音音頻信號的第二激勵中選擇一個激勵。本發明涉及一種計算機程序產品,該計算機程序產品包括一些機器可執行的步驟,用來壓縮在一個頻帶中的音頻信號,其中第一激勵用于類語音音頻信號,第二激勵用于非類語音音頻信號。
背景技術:
在許多音頻信號處理應用中,壓縮音頻信號,來減少在處理音頻信號時的處理能力需求。例如,在數字通信系統中,在例如移動臺的用戶設備和基站之間的無線空中接口上傳輸之前,捕獲一般是模擬信號的音頻信號,在模-數(A/D)轉換器中進行數字化,然后編碼。編碼的目的是壓縮數字化信號,在空中接口上以最小量的數據傳輸它,同時保持可接受的信號質量水平。在蜂窩通信網絡中無線空中接口上的無線信道容量有限的情況下,這尤為重要。還有一些應用,其中數字化音頻信號存儲在存儲介質中,用于以后重現這些音頻信號。
壓縮可以是有損的,也可以是無損的。在有損壓縮中,在壓縮期間損失了一些信息,其中無法從壓縮的信號完全重構原始信號。在無損壓縮中,通常不損失信息。因此,一般可以從壓縮的信號完全重構原始信號。
術語音頻信號一般被理解為包含語音、音樂(非語音)或同時包含這兩者的信號。語音和音樂的不同特性使得設計一種對語音和音樂都能工作的很好的壓縮算法相當困難。因此,這個問題通常通過對音樂和語音設計不同的算法,并且利用某種形式的識別算法識別該音頻信號是類語音還是類音樂,以及根據識別的結果選擇適當的算法來解決。
總之,在語音和音樂或非語音信號之間進行完全的分類是一項困難的任務。所需的精確性很大程度上依賴于應用。在一些應用中,例如在語音識別,或者在用于存儲和檢索目的的精確存檔中,精確性是非常重要的。但是如果分類是用于為輸入信號選擇最優壓縮方法,那么情況就有些不一樣。在這種情況下,可能會發生不存在一種壓縮方法,其對于語音總是最優的,以及另一種壓縮方法,其對于音樂或非語音信號總是最優的。實際上,對于語音瞬變的壓縮方法也可以對于音樂瞬變非常有效。也可能對強音調分量的音樂壓縮同樣適應于濁音段。因此在這些情況下,用于僅完全針對語音和音樂進行分類的方法并不會生成選擇最佳壓縮方法的最優算法。
通常可以認為語音的帶寬限制在約200赫茲至3400赫茲之間。A/D轉換器在將模擬語音信號轉換成數字信號時所用的采樣率一般為8k赫茲或16k赫茲。音樂或非語音信號可能包含遠在一般語音帶寬之上的頻率分量。在一些應用中,音頻系統應當能夠處理在大約20赫茲至20000k赫茲之間的頻帶。這類信號的采樣率應當至少在40000k赫茲左右,以避免混疊。這里應當注意上面提到的這些值只是非限制性的例子。例如在一些系統中,音樂信號的上限可以是約10000k赫茲甚至比它還小。
采樣的數字信號隨后被編碼,通常逐幀進行,從而產生數字數據流,其比特率由用于編碼的編解碼器決定。比特率越高就有更多的數據被編碼,使得輸入幀的表示更為準確。編碼的音頻信號隨后被解碼,并通過一個數模(D/A)轉換器以重構信號,該信號盡可能接近原始信號。
理想的編解碼器會用盡可能少的比特來編碼音頻信號從而優化信道容量,同時產生聽起來與原始音頻信號盡可能接近的解碼的音頻信號。實際上,這通常是在編解碼器的比特率和解碼的音頻的質量之間的一種平衡。
目前,存在許多不同的編解碼器,例如,自適應多速率(AMR)編解碼器和自適應多速率寬帶(AMR-WB)編解碼器,它們被開發為用來壓縮和編碼音頻信號。AMR由第三代合作項目(3GPP)為GSM/EDGE和WCDMA通信網絡開發。此外,已經可以設想AMR將會用于分組交換網絡。AMR基于代數碼激勵線性預測(ACELP)編碼。AMR和AMR WB編解碼器分別包括8和9活躍(active)比特率,還包括話音活動檢測(VAD)和非連續傳輸(DTX)功能。目前,AMR編解碼器的采樣速率是8k赫茲,AMR WB編解碼器的采樣速率是16k赫茲。顯然,上述編解碼器和采樣速率只是非限制性的例子。
ACELP編碼采用信號源是怎樣產生的模型而操作,并且從信號中提取模型參數。更具體的說,ACELP編碼基于人類發聲系統的模型,其中喉嚨和嘴巴被建模為線性濾波器,以及語音由空氣定期振動激勵濾波器產生。編碼器逐幀分析語音,并且編碼器對每一幀產生并輸出一組代表建模的語音的參數。該組參數可以包括濾波器的激勵參數和系數以及其他參數。語音編碼器的輸出通常稱為輸入語音信號的參數表示。該組參數隨后由一個適當地配置的解碼器進行使用,以重新生成輸入語音信號。
對于一些輸入信號而言,類脈沖ACELP-激勵產生了更高的質量,并且對于一些輸入信號而言,變換編碼激勵(TCX)更為最優。這里假設ACELP-激勵最常作為用于典型的語音內容的輸入信號,TCX-激勵最常作為用于典型的音樂的輸入信號。但是,并不總是這樣,也就是說有時候,語音信號具有類音樂的部分,而音樂信號具有類語音的部分。在本申請中,類語音信號的定義是語音的大部分屬于該類別,并且音樂的一部分也可能屬于這個類別。對于類音樂信號而言,定義正好相反。此外,存在一些在某種意義上是中性的語音信號部分和音樂信號部分,它們可以屬于這兩種分類。
激勵的選擇可以以多種方式進行最復雜和相當好的方法是同時編碼ACELP和TCX-激勵,然后基于合成的語音信號選擇最佳激勵。這種分析綜合類型的方法會提供較好的效果,但是在一些應用中,由于該方法過于復雜而不實際。在該方法中,可以采用例如SNR類型的算法來度量由這兩種激勵所產生的質量。這種方法可以稱為“強力”方法,因為它嘗試了不同激勵的所有組合,并且之后才選擇最佳的一個。復雜性較低的方法將只是通過事先分析信號特性,執行一次綜合,隨后選擇最佳激勵。該方法也可以是預選擇和“強力”的組合,以在質量和復雜性之間進行折衷。
圖1給出了具有現有技術高復雜性分類的簡化的編碼器100。音頻信號被輸入到輸入信號塊101,其中對信號進行數字化和濾波。輸入信號塊101還從數字化和濾波后的信號生成幀。這些幀被輸入到線性預測編碼(LPC)分析塊102。它對數字化輸入信號進行逐幀的LPC分析,以找到與輸入信號匹配最好的參數集合。確定的參數(LPC參數)被量化并從編碼器100輸出109。編碼器100還用LPC合成塊103、104產生兩個輸出信號。第一LPC合成塊103采用由TCX激勵塊105產生的信號,來合成音頻信號以發現產生針對TCX激勵的最佳結果的碼矢量。第二LPC合成塊104采用由ACELP激勵塊106產生的信號,來合成音頻信號以發現產生ACELP激勵最佳結果的碼矢量。在激勵選擇塊107中,比較由LPC合成塊103、104所產生的信號,以確定哪個激勵方法給出了最佳(最優)激勵。選定的激勵信號的參數和選定的激勵方法的信息例如被量化和被信道編碼108,隨后從編碼器100中輸出109這些信號以進行傳輸。
發明內容
本發明的一個目的是提供一種改進的方法,用于利用信號的頻率信息對類語音和類音樂信號進行分類。存在類音樂語音信號段以及類語音音樂信號段,并且在語音和音樂中,有些信號段可以屬于任意一種類型。換句話說,本發明并不完全在語音和音樂之間分類。但是本發明定義了根據某些條件將輸入信號劃分成類音樂和類語音分量的手段。分類信息可以在例如多模式編碼器中使用,用來選擇編碼模式。
本發明的基本思想是將輸入信號劃分成若干頻帶,分析這些頻帶中低頻帶和高頻帶之間的關系和能量水平變化,并且基于這兩種計算度量或者那些度量的若干不同組合,利用不同的分析窗口或決定閾值,將信號分類為類音樂和類語音。該信息可以用于,例如為所分析的信號選擇壓縮方法。
根據本發明的編碼器的主要特征在于,該編碼器還包括一個濾波器,用來將該頻帶劃分成多個子帶,每個子帶的帶寬比所述頻帶更窄,該編碼器還包括一個激勵選擇塊,用于根據至少在一個所述子帶處的所述音頻信號的性質,在所述至少第一激勵塊和所述第二激勵塊之中選擇一個激勵塊,用來為該音頻信號的幀執行激勵。
根據本發明的設備的主要特征在于,所述編碼器還包括一個濾波器,用來將該頻帶劃分成多個子帶,每個子帶的帶寬比所述頻帶更窄,該設備還包括一個激勵選擇塊,用于根據至少在一個所述子帶處的所述音頻信號的性質,在所述至少第一激勵塊和所述第二激勵塊之中選擇一個激勵塊,用來為該音頻信號的幀執行激勵。
根據本發明的系統的主要特征在于,所述編碼器還包括一個濾波器,用來將該頻帶劃分成多個子帶,每個子帶的帶寬比所述頻帶更窄,該系統還包括一個激勵選擇塊,用于根據至少在一個所述子帶處的所述音頻信號的性質,在所述至少第一激勵塊和所述第二激勵塊之中選擇一個激勵塊,用來為該音頻信號的幀執行激勵。
根據本發明的方法的主要特征在于,將該頻帶劃分成多個子帶,每個子帶的帶寬比所述頻帶更窄,以及根據至少在一個所述子帶處的所述音頻信號的性質,在所述至少第一激勵和所述第二激勵之中選擇一個激勵,用來為該音頻信號的幀執行激勵。
根據本發明的模塊的主要特征在于,該模塊還包括一個輸入,用來輸入指示該頻帶被劃分成多個子帶的信息,其中每個子帶的帶寬比所述頻帶更窄,該模塊還包括一個激勵選擇塊,用于根據至少在一個所述子帶處的所述音頻信號的性質,在所述至少第一激勵塊和所述第二激勵塊之中選擇一個激勵塊,用來為該音頻信號的幀執行激勵。
根據本發明的計算機程序產品的主要特征在于,該計算機程序產品還包括這樣的機器可執行步驟將該頻帶劃分成多個子帶,每個子帶的帶寬比所述頻帶更窄,以及這樣的機器可執行步驟根據至少在一個所述子帶處的所述音頻信號的性質在所述至少第一激勵和所述第二激勵之中選擇一個激勵,用來為該音頻信號的幀執行激勵。
在本申請中,定義術語“類語音”和“類音樂”來將本發明與典型的語音和音樂分類相區分。即使約90%的語音在根據本發明的系統中被分類成類語音,其余的語音信號仍可以定義成類音樂信號,如果壓縮算法的選擇基于這種分類,則可以提高音頻質量。此外,典型的音樂信號在80%-90%的情況下可以被分類成類音樂信號,但是將部分音樂信號劃入類語音類別會提高壓縮系統的聲音信號質量。因此,在與現有技術和系統比較時,本發明具有明顯優勢。通過利用根據本發明的分類方法,可以提高重現的聲音質量,而不會大幅度影響壓縮效率。
與前面提到的強力方法比較,本發明提供了一種復雜性小得多的預選擇類型方法,來在兩種激勵類型之間作出選擇。本發明將輸入信號劃分成頻帶,并分析低頻帶和高頻帶之間的關系,并且還可以使用例如那些頻帶中的能量水平變化,并將信號分類成類音樂或類語音。
圖1給出了具有現有技術高復雜性分類的簡化的編碼器,圖2給出了具有按照本發明分類的編碼器的示例性實施例,圖3舉例說明了AMR-WB VAD算法中VAD濾波器組結構的一個例子,圖4示出了VAD濾波器組中能量水平標準偏差隨音樂信號中低能量分量和高能量分量的關系而變化的圖示的一個例子,圖5示出了VAD濾波器組中能量水平標準偏差隨語音信號中低能量分量和高能量分量的關系而變化的圖示的一個例子,圖6示出了音樂和語音信號組合圖示的一個例子,以及圖7示出了根據本發明的系統的一個例子。
具體實施例方式
下面將參考圖2詳細描述按照本發明示例性實施例的編碼器200。編碼器200包括一個輸入塊201,用于在需要時對輸入信號進行數字化、濾波和成幀。這里應當注意,輸入信號可能已經處于適合編碼處理的形式。例如,輸入信號可能在較早階段已經進行了數字化,并且存儲在存儲介質中(未示出)。輸入信號幀被輸入到話音活動檢測塊202。話音活動檢測塊202輸出多個窄帶信號,它們被輸入到激勵選擇塊203中。激勵選擇塊203分析該信號,決定哪一種激勵方法最適合編碼該輸入信號。激勵選擇塊203產生一個控制信號204,用于根據激勵方法的確定,控制選擇裝置205。如果確定用于編碼輸入信號的當前幀的最佳激勵方法是第一激勵方法,控制選擇裝置205選擇第一激勵塊206的信號。如果確定用于編碼輸入信號的當前幀的最佳激勵方法是第二激勵方法,控制選擇裝置205選擇第二激勵塊207的信號。盡管圖2的編碼器只有第一激勵塊206和第二激勵塊207用于編碼處理,顯然編碼器200中也可以有多于兩種用于不同的激勵方法的不同的激勵塊,用于對輸入信號進行編碼。
第一激勵塊206產生例如TCX激勵信號,并且第二激勵塊207產生例如ACELP激勵信號。
LPC分析塊208對數字化的輸入信號逐幀進行LPC分析,以找到最匹配輸入信號的參數集合。
LPC參數210和激勵參數211,例如在量化和編碼塊212中進行量化和編碼,然后傳送例如到通信網絡704(圖7)。但是,不一定需要傳送這些參數,它們可以例如存儲在存儲介質中,并且在下一階段被檢索,以進行傳輸或者解碼。
圖3描繪了濾波器300的一個例子,它可以用于編碼器200中用于信號分析。濾波器300是例如AMR-WB編解碼器的話音活動檢測塊的濾波器組,其中不需要一個單獨的濾波器,但是也可以使用其他濾波器用于該目的。濾波器300包括兩個或多個濾波器塊301,以將輸入信號劃分成不同頻率上的兩個或多個子帶信號。換句話說,濾波器300的每個輸出信號代表了輸入信號的特定頻帶。濾波器300的輸出信號可以用于激勵選擇塊203,用來確定輸入信號的頻率內容。
激勵選擇塊203評估濾波器組300的每個輸出的能量水平,分析低頻和高頻子帶之間的關系,以及這些子帶中的能量水平變化,并且將信號劃分成類音樂和類語音。
本發明基于檢查輸入信號的頻率內容,為輸入信號幀選擇激勵方法。以下采用AMR-WB擴展(AMR-WB+)作為用來將輸入信號分類成類語音和類音樂,以及分別為這些信號選擇ACELP或者TCX激勵的實際例子。但是,本發明并不局限于AMR-WB編解碼器或者ACELP和TCX激勵方法。
在擴展的AMR-WB(AMR-WB+)編解碼器中,有兩種激勵類型用于LP合成類ACELP脈沖激勵和變換編碼激勵(TCX)。ACELP激勵與原始3GPP AMR-WB標準(3GPP TS 26.190)中已經采用的相同,TCX是在擴展AMR-WB中實施的一種改進。
AMR-WB擴展例子基于AMR-WB VAD濾波器組,后者為每個20毫秒輸入幀在頻率范圍從0-6400赫茲上產生12個子帶中的信號能量E(n),如圖3所示。濾波器組的帶寬通常并不相等,而是可以在不同頻帶上有所變化,這點可以在圖3中看出。此外,子帶的數目也可以有所變化,并且子帶可以部分重疊。隨后,如下對每個子帶的能量水平進行歸一化將每個子帶能量水平E(n)除以該子帶的寬度(以赫茲為單位),來產生每個頻帶的歸一化EN(n)能量水平,其中n是頻帶號,范圍從0-11。序號0是指圖3所示的最低子帶。
在激勵選擇塊203中,利用例如兩個窗口短窗口stdshort(n)和長窗口stdlong(n),對12個子帶的每一個計算能量水平的標準偏差。對AMR-WB+情況而言,短窗口的長度是4幀,長窗口的長度是16幀。在這些計算中,利用過去的3或者15幀和當前幀的12個能量水平得出這兩個標準偏差值。該計算的特殊特征是,只有在話音活動檢測塊202表明213活躍語音時才執行。這會使算法反應更快,尤其是在長語音停頓之后。
隨后,對每一個幀,為長和短窗口二者,取所有12個濾波器組上的平均標準偏差,并且生成平均標準偏差值stdashort和stdalong。
對于音頻信號幀,還計算低頻帶和高頻帶之間的關系。在AMR-WB+中,取從1到7的低頻率子帶的能量,將其除以這些子頻帶的長度(帶寬)(以赫茲為單位),來進行歸一化以生成LevL。對從8到11的高頻帶,取它們能量,并且分別歸一化以生成LevH。注意在該示例性實施例中,這些計算中沒有采用最低子頻帶0,因為它通常包含了太多的能量,會使計算失真,并使其他子頻帶的貢獻太小。根據這些度量定義關系LPH=LevL/LevH。此外,利用當前和過去的3個LPH值,為每一個幀計算移動平均LPHa。在這些計算之后,利用當前和過去的7個移動平均LPHa值的加權和,計算當前幀的低頻和高頻關系LPHaF的度量,在權重設置中,最近的值權重稍高。
也可以這樣實現本發明,使得只分析一個或幾個可用子帶。
此外,當前幀的濾波器塊301的平均水平AVL通過如下計算從每個濾波器塊輸出中減去背景噪聲的估計水平,并且將這些乘有對應的濾波器塊301的最高頻率的水平進行累加,以平衡包含的能量少于較低頻率子帶的較高頻率子帶。
此外,通過從所有濾波器塊301減去每個濾波器組301的背景噪聲估計來計算當前幀的總能量TotE0。
在計算這些度量之后,通過例如利用以下方法進行ACELP或TCX激勵的選擇。下面假定在設置一個標記時,清除其他標記以防止沖突。首先,將長窗口的平均標準偏差值stdalong與第一閾值TH1,例如0.4相比較。如果標準偏差值stdalong小于第一閾值TH1,設置TCX模式標記。否則,將低頻和高頻關系LPHaF的計算度量與第二閾值TH2,例如280相比較。
如果低頻和高頻關系LPHaF的計算度量大于第二閾值TH2,設置TCX模式標記。否則,計算標準偏差值stdalong減去第一閾值TH1的倒數,并且在算出的倒數值上加上第一常量C1,例如5。將該和與低頻和高頻關系LPHaF的計算度量相比較C1+(1/(Stdalong-TH1))>LPHaF(1)如果比較的結果成立,則設置TCX模式標記。如果比較的結果不成立,將標準偏差值stdalong乘以第一被乘數M1(例如-90),在相乘之后加上第二常量C2(例如120)。將該和與低頻和高頻關系LPHaF的計算度量相比較M1*stdalong+C2<LPHaF (2)如果該和小于低頻和高頻關系LPHaF的計算度量,則設置ACELP模式標記。否則設置一個未定模式標記,表明還不能為當前幀選擇激勵方法。
在上述步驟之后,執行另外的檢查,然后才選擇用于當前幀的激勵方法。首先,檢查是設置了ACELP模式標記,還是未定模式標記,以及如果當前幀的濾波器組301的計算平均水平AVL大于第三閾值TH3(例如2000),在那點上設置TCX模式標記,清除ACELP模式標記和未定模式標記。
接著,如果設置了未定模式標記,則對短窗口的平均標準偏差值stdashort執行類似于以上針對長窗口的平均標準偏差值stdalong所進行的評估,但是,在比較中采用的常量和閾值略有不同。如果短窗口的平均標準偏差值stdashort小于第四閾值TH4(例如0.2),設置TCX模式標記。否則,計算短窗口的標準偏差值stdashort減去第四閾值TH4的倒數,并且在算出的倒數值上加上第三常量C3(例如2.5)。將該和與低頻和高頻關系LPHaF的計算度量作比較C3+(1/(stdashort-TH4))>LPHaF (3)如果比較的結果成立,則設置TCX模式標記。如果比較的結果不成立,將標準偏差值stdashort乘以第二被乘數M2(例如-90),并且在相乘之后加上第四常量C4(例如140)。將該和與低頻和高頻關系LPHaF的計算度量作比較M2*stdashort+C4<LPHaF (4)
如果該和小于低頻和高頻關系LPHaF的計算度量,設置ACELP模式標記。否則設置一個未定模式標記,表明還不能為當前幀選擇激勵方法。
在下一階段,檢查當前幀和前一幀的能量水平。如果當前幀的總能量TotE0和前一幀的總能量TotE-1的比值大于第五閾值TH5(例如25),設置ACELP模式標記,清除TCX模式標記和未定模式標記。
最后,如果設置了TCX模式標記或者未定模式標記,并且如果當前幀的濾波器組301的計算平均水平AVL大于第三閾值TH3,并且當前幀的總能量TotE0小于第六閾值TH6(例如60),設置ACELP模式標記。
在執行上述評估方法時,如果設置了TCX模式標記則選擇第一激勵方法和第一激勵塊206,或者如果設置了ACELP模式標記,則選擇第二激勵方法和第二激勵塊207。但是,如果設置了未定模式標記,評估方法無法進行選擇。在這種情況下,可以選擇ACELP或TCX,或者必須執行進一步的分析來進行區分。
該方法還可以描述成以下偽碼如果(stdalong<TH1)設置TCX模式否則如果(LPHaF>TH2)設置TCX模式否則如果((C1+(1/(stdalong-TH1)))>LPHaF)設置TCX模式否則如果((M1*stdalong+C2)<LPHaF)設置ACELP模式否則設置未定模式如果(ACELP模式或未定模式)和(AVL>TH3)設置TCX模式如果(未定模式)如果(stdashort<TH4)設置TCX模式否則如果((C3+(1/(stdashort-TH4)))>LPHaF)設置TCX模式否則如果((M2*stdashort+C4<LPHaF)設置ACELP模塊否則設置未定模式如果(未定模式)如果((TotE0/TotE-1)>TH5)設置ACELP模式如果(TCX模式‖未定模式)如果(AVL>TH3和TotE0<TH6)設置ACELP模式分類后面的基本思想在圖4、5和6中舉例說明。圖4示出了VAD濾波器組中能量水平標準偏差隨音樂信號中低和高能量分量的關系而變化的圖示的一個例子。每個點對應于從包含不同音樂變化的長音樂信號中所取的20毫秒幀。線A擬合為近似對應于音樂信號區域的上邊界,也就是在根據本發明的方法中,不認為該線右側的點是類音樂信號。
相應地,圖5則示出了VAD濾波器組中能量水平標準偏差隨語音信號中低能量分量和高能量分量的關系而變化的圖示的一個例子。每個點對應于從包含不同語音變化和不同發言者的長語音信號中所取的20毫秒幀。曲線B擬合為近似指示語音信號區域的下邊界,也就是在根據本發明的方法中,不認為曲線B左側的點是類語音信號。
圖4中可以看出,大多數音樂信號具有較小的標準偏差,并且在分析的頻率上有著相對均勻的頻率分布。對圖5中描繪的語音信號,趨勢則正好相反,更高的標準偏差,更低的頻率分量。將這兩種信號都放入圖6中的相同圖示,并擬合曲線A和B來匹配音樂和語音信號區域的邊界,很容易將大多數音樂信號和大多數語音信號劃分成不同類別。這些圖中擬合的曲線A和B與上述偽碼中給出的相同。這些圖只呈現了通過長窗口所計算的低對高頻率值以及單個標準偏差。該偽碼包含一種算法,其使用了兩種不同的開窗術,從而利用了圖4、5和6中給出的映射算法的兩種不同版本。
圖6中由曲線A、B所限定的區域C表明了這樣一個重疊區域,其通常需要進一步手段來區分類音樂和類語音信號。通過為信號變化使用不同長度的分析窗口,并且組合這些不同的度量,就像在偽碼例子中所做的那樣,可以讓區域C變得更小。可以允許一些重疊,因為一些音樂信號可以利用針對語音最優化的壓縮來進行有效地編碼,而一些語音信號可以利用針對音樂最優化的壓縮來進行有效地編碼。
在上述例子中,通過利用分析綜合來選擇最優化的ACELP激勵,并且通過預選擇來完成最佳ACELP激勵和TCX激勵之間的選擇。
盡管以上通過使用兩種不同的激勵方法給出了本發明,但也可以采用多于兩種的不同激勵方法,并且可以在這些方法中進行選擇,以壓縮音頻信號。顯然,濾波器300可以將輸入信號劃分成與上述不同的頻帶,并且頻帶的數目也可以不同于12。
圖7描繪了在其中可以應用本發明的系統的一個例子。該系統包括一個或多個產生語音和/或非語音音頻信號的音頻源701。在需要時,這些音頻信號被A/D轉換器702轉換成數字信號。這些數字化的信號被輸入到發送設備700的編碼器200,在其中根據本發明進行壓縮。在需要時,壓縮信號在編碼器200中進行量化和編碼,以進行傳輸。發送器703,例如是移動通信設備700的發送器,向通信網絡704發送壓縮并編碼的信號。接收設備706的接收機705從通信網絡704接收這些信號。接收的信號從接收機705傳送到解碼器707,用于進行解碼、去量化和解壓縮。解碼器707包括檢測裝置708,用于確定編碼器200中為當前幀采用的壓縮算法。解碼器707根據確定結果,選擇第一解壓縮裝置709或者第二解壓縮裝置710來解壓縮當前幀。解壓縮的信號從解壓縮裝置709、710傳送到濾波器711和D/A轉換器712,用于將數字信號轉換成模擬信號。該模擬信號隨后可以在例如揚聲器713中轉換成音頻。
本發明可以在不同類型的系統中實現,尤其在低速率傳輸中實現,用以取得較現有技術系統更為高效的壓縮。根據本發明的編碼器200可以在通信系統的不同部分中實現。例如,編碼器200可以在具有有限處理能力的移動通信設備中實現。
顯然,本發明并非僅限于上述實施例,而是可以在后附權利要求書范圍內加以修改。
權利要求
1.一種編碼器(200),該編碼器包括一個輸入(201),用來輸入在一個頻帶中的音頻信號的幀,包括至少第一激勵塊(206),用來對類語音音頻信號執行第一激勵,以及第二激勵塊(207),用來對非類語音音頻信號執行第二激勵,其特征在于,該編碼器(200)還包括濾波器(300),用來將該頻帶劃分成多個子帶,每個子帶的帶寬比所述頻帶更窄,該編碼器(200)還包括激勵選擇塊(203),用于根據至少在一個所述子帶中的所述音頻信號的性質,在所述至少第一激勵塊(206)和所述第二激勵塊(207)之中選擇一個激勵塊,用來為該音頻信號的幀執行激勵。
2.根據權利要求1的編碼器(200),其特征在于,所述濾波器(300)包括濾波器塊(301),用于產生指示至少在一個子帶處的該音頻信號的當前幀的信號能量(E(n))的信息,以及所述激勵選擇塊(203)包括能量確定裝置,用于確定至少一個子帶的信號能量信息。
3.根據權利要求2的編碼器(200),其特征在于,定義了至少第一和第二子帶組,所述第二組包含的子帶的頻率高于所述第一組,為該音頻信號的幀定義所述第一子帶組的歸一化信號能量(LevL)和所述第二子帶組的歸一化信號能量(LevH)之間的關系(LPH),并且所述關系(LPH)安排為用于選擇激勵塊(206、207)。
4.根據權利要求3的編碼器(200),其特征在于,可用子帶中的一個或多個子帶在所述第一和所述第二子帶組之外。
5.根據權利要求4的編碼器(200),其特征在于,最低頻率子帶在所述第一和所述第二子帶組之外。
6.根據權利要求3、4或5的編碼器(200),其特征在于,定義了第一數目幀和第二數目幀,所述第二數目大于所述第一數目,所述激勵選擇塊(203)包括計算裝置,用于使用包括在每個子帶處的當前幀的第一數目幀的信號能量,計算第一平均標準偏差值(stdashort),以及用于使用包括在每個子帶處的當前幀的第二數目幀的信號能量,計算第二平均標準偏差值(stdalong)。
7.根據權利要求1到6中任意一項的編碼器(200),其特征在于,所述濾波器(300)是話音活動檢測器(202)的濾波器組。
8.根據權利要求1到7中任意一項的編碼器(200),其特征在于,所述編碼器(200)是自適應多速率寬帶編解碼器(AMR-WB)。
9.根據權利要求1到8中任意一項的編碼器(200),其特征在于,所述第一激勵是代數碼激勵線性預測激勵(ACELP),以及所述第二激勵是變換編碼激勵(TCX)。
10.一種設備(700),包括一個編碼器(200),該編碼器包括一個輸入(201),用來輸入在一個頻帶中的音頻信號的幀,包括至少第一激勵塊(206),用來對類語音音頻信號執行第一激勵,以及第二激勵塊(207),用來對非類語音音頻信號執行第二激勵,其特征在于,該編碼器(200)包括濾波器(300),用來將該頻帶劃分成多個子帶,每個子帶的帶寬比所述頻帶更窄,該設備(700)還包括激勵選擇塊(203),用于根據至少在一個所述子帶處的所述音頻信號的性質在所述至少第一激勵塊(206)和所述第二激勵塊(207)之中選擇一個激勵塊,用來為該音頻信號的幀執行激勵。
11.根據權利要求10的設備(700),其特征在于,所述濾波器(300)包括濾波器塊(301),用于產生指示了至少在一個子帶處的該音頻信號的當前幀的信號能量(E(n))的信息,以及所述激勵選擇塊(203)包括能量確定裝置,用于確定至少一個子帶的信號能量信息。
12.根據權利要求11的設備(700),其特征在于,定義了至少第一和第二子帶組,所述第二組包含的子帶的頻率高于所述第一組,為該音頻信號的幀定義所述第一子帶組的歸一化信號能量(LevL)和所述第二子帶組的歸一化信號能量(LevH)之間的關系(LPH),并且所述關系(LPH)安排為用于選擇激勵塊(206、207)。
13.根據權利要求12的設備(700),其特征在于,可用子帶中的一個或多個子帶在所述第一和所述第二子帶組之外。
14.根據權利要求13的設備(700),其特征在于,最低頻率子帶在所述第一和所述第二子帶組之外。
15.根據權利要求12、13或14的設備(700),其特征在于,定義了第一數目幀和第二數目幀,所述第二數目大于所述第一數目,所述激勵選擇塊(203)包括計算裝置,用于使用包括在每個子帶處的當前幀的第一數目幀的信號能量,計算第一平均標準偏差值(stdashort),以及用于使用包括在每個子帶處的當前幀的第二數目幀的信號能量,計算第二平均標準偏差值(stdalong)。
16.根據權利要求10到15中任意一項的設備(700),其特征在于,所述濾波器(300)是話音活動檢測器(202)的濾波器組。
17.根據權利要求10到16中任意一項的設備(700),其特征在于,所述編碼器(200)是自適應多速率寬帶編解碼器(AMR-WB)。
18.根據權利要求10到17中任意一項的設備(700),其特征在于,所述第一激勵是代數碼激勵線性預測激勵(ACELP),以及所述第二激勵是變換編碼激勵(TCX)。
19.根據權利要求10到18中任意一項的設備(700),其特征在于,它是一個移動通信設備。
20.根據權利要求10到19中任意一項的設備(700),其特征在于,它包括一個發送器,用于通過低比特率信道發送包括由選定的激勵塊(206、207)所產生的參數的幀。
21.一種系統,包括一個編碼器(200),該編碼器包括一個輸入(201),用來輸入在一個頻帶中的音頻信號的幀,包括至少第一激勵塊(206),用來對類語音音頻信號執行第一激勵,以及第二激勵塊(207),用來對非類語音音頻信號執行第二激勵,其特征在于,該編碼器(200)還包括濾波器(300),用來將該頻帶劃分成多個子帶,每個子帶的帶寬比所述頻帶更窄,該系統還包括激勵選擇塊(203),用于根據至少在一個所述子帶處的所述音頻信號的性質,在所述至少第一激勵塊(206)和所述第二激勵塊(207)之中選擇一個激勵塊,用來為該音頻信號的幀執行激勵。
22.根據權利要求21的系統,其特征在于,所述濾波器(300)包括濾波器塊(301),用于產生指示了至少在一個子帶處的該音頻信號的當前幀的信號能量(E(n))的信息,以及所述激勵選擇塊(203)包括能量確定裝置,用于確定至少一個子帶的信號能量信息。
23.根據權利要求22的系統,其特征在于,定義了至少第一和第二子帶組,所述第二組包含的子帶的頻率高于所述第一組,為該音頻信號的幀定義所述第一子帶組的歸一化信號能量(LevL)和所述第二子帶組的歸一化信號能量(LevH)之間的關系(LPH),并且所述關系(LPH)安排為用于選擇激勵塊(206、207)。
24.根據權利要求23的系統,其特征在于,可用子帶中的一個或多個子帶在所述第一和所述第二子帶組之外。
25.根據權利要求24的系統,其特征在于,最低頻率子帶在所述第一和所述第二子帶組之外。
26.根據權利要求23、24或25的系統,其特征在于,定義了第一數目幀和第二數目幀,所述第二數目大于所述第一數目,所述激勵選擇塊(203)包括計算裝置,用于使用包括在每個子帶處的當前幀的第一數目幀的信號能量,計算第一平均標準偏差值(stdashort),以及用于使用包括在每個子帶處的當前幀的第二數目幀的信號能量,計算第二平均標準偏差值(stdalong)。
27.根據權利要求21到26中任意一項的系統,其特征在于,所述濾波器(300、)是話音活動檢測器(202)的濾波器組。
28.根據權利要求21到27中任意一項的系統,其特征在于,所述編碼器(200)是自適應多速率寬帶編解碼器(AMR-WB)。
29.根據權利要求21到28中任意一項的系統,其特征在于,所述第一激勵是代數碼激勵線性預測激勵(ACELP),以及所述第二激勵是變換編碼激勵(TCX)。
30.根據權利要求21到29中任意一項的系統,其特征在于,它是一個移動通信設備。
31.根據權利要求21到30中任意一項的系統,其特征在于,它包括一個發送器,用于通過低比特率信道發送包括由選定的激勵塊(206、207)所產生的參數的幀。
32.一種壓縮在一個頻帶中的音頻信號的方法,其中第一激勵用于類語音音頻信號,以及第二激勵用于非類語音音頻信號,其特征在于,將該頻帶劃分成多個子帶,每個子帶的帶寬比所述頻帶更窄,根據至少在一個所述子帶處的所述音頻信號的性質在所述至少第一激勵和所述第二激勵之中選擇一個激勵,用來為該音頻信號的幀執行激勵。
33.根據權利要求32的方法,其特征在于,所述濾波器(300)包括濾波器塊(301),用于產生指示了至少在一個子帶處的該音頻信號的當前幀的信號能量(E(n))的信息,以及所述激勵選擇塊(203)包括能量確定裝置,用于確定至少一個子帶的信號能量信息。
34.根據權利要求33的方法,其特征在于,定義至少第一和第二子帶組,所述第二組包含的子帶的頻率高于所述第一組,為該音頻信號的幀定義所述第一子帶組的歸一化信號能量(LevL)和所述第二子帶組的歸一化信號能量(LevH)之間的關系(LPH),并且所述關系(LPH)安排為用于選擇激勵塊(206、207)。
35.根據權利要求34的方法,其特征在于,可用子帶中的一個或多個子帶在所述第一和所述第二子帶組之外。
36.根據權利要求35的方法,其特征在于,最低頻率子帶在所述第一和所述第二子帶組之外。
37.根據權利要求34、35或36的方法,其特征在于,定義第一數目幀和第二數目幀,所述第二數目大于所述第一數目,所述激勵選擇塊(203)包括計算裝置,用于使用包括在每個子帶處的當前幀的第一數目幀的信號能量,計算第一平均標準偏差值(stdashort),以及用于使用包括在每個子帶處的當前幀的第二數目幀的信號能量,計算第二平均標準偏差值(stdalong)。
38.根據權利要求32到37中任意一項的方法,其特征在于,所述濾波器(300)是話音活動檢測器(202)的濾波器組。
39.根據權利要求32到38中任意一項的系統,其特征在于,所述編碼器(200)是自適應多速率寬帶編解碼器(AMR-WB)。
40.根據權利要求32到39中任意一項的方法,其特征在于,所述第一激勵是代數碼激勵線性預測激勵(ACELP),以及所述第二激勵是變換編碼激勵(TCX)。
41.根據權利要求32到40中任意一項的方法,其特征在于包括由選定的激勵所產生的參數的所述幀通過低比特率信道發送。
42.一種對在一個頻帶中的音頻信號的幀進行分類的模塊,用于在用于類語音音頻信號的第一激勵和用于非類語音音頻信號的第二激勵之間選擇激勵,其特征在于,該模塊還包括一個輸入,用來輸入指示了該頻帶被劃分成多個子帶的信息,其中每個子帶的帶寬比所述頻帶更窄,該模塊還包括一個激勵選擇塊(203),用于根據至少在一個所述子帶處的所述音頻信號的性質,在所述至少第一激勵塊(206)和所述第二激勵塊(207)之中選擇一個激勵塊,用來為該音頻信號的幀執行激勵。
43.根據權利要求42的模塊,其特征在于,定義了至少第一和第二子帶組,所述第二組包含的子帶的頻率高于所述第一組,為該音頻信號的幀定義所述第一子帶組的歸一化信號能量(LevL)和所述第二子帶組的歸一化信號能量(LevH)之間的關系(LPH),并且所述關系(LPH)安排為用于選擇激勵塊(206、207)。
44.根據權利要求43的模塊,其特征在于,可用子帶中的一個或多個子帶在所述第一和所述第二子帶組之外。
45.根據權利要求44的模塊,其特征在于,最低頻率子帶在所述第一和所述第二子帶組之外。
46.根據權利要求43、44或45的模塊,其特征在于,定義了第一數目幀和第二數目幀,所述第二數目大于所述第一數目,所述激勵選擇塊(203)包括計算裝置,用于使用包括在每個子帶處的當前幀的第一數目幀的信號能量,計算第一平均標準偏差值(stdashort),以及用于使用包括在每個子帶處的當前幀的第二數目幀的信號能量,計算第二平均標準偏差值(stdalong)。
47.一種計算機程序產品,包括用于壓縮在一個頻帶中的音頻信號的機器可執行步驟,其中第一激勵用于類語音音頻信號,第二激勵用于非類語音音頻信號,其特征在于,該計算機程序產品還包括這樣的機器可執行步驟將該頻帶劃分成多個子帶,每個子帶的帶寬比所述頻帶更窄,以及這樣的機器可執行步驟根據至少在一個所述子帶處的所述音頻信號的性質,在所述至少第一激勵和所述第二激勵之中選擇一個激勵,用來為該音頻信號的幀執行激勵。
48.根據權利要求47的計算機程序產品,其特征在于,它還包括機器可執行步驟,用于產生指示了至少在一個子帶處的該音頻信號的當前幀的信號能量(E(n))的信息的,以及機器可執行步驟,用于確定至少一個子帶的信號能量信息。
49.根據權利要求48的計算機程序產品,其特征在于,定義第一數目幀和第二數目幀,所述第二數目大于所述第一數目,所述計算機程序產品還包括用于計算裝置的機器可執行步驟,該計算裝置用于使用包括在每個子帶處的當前幀的第一數目幀的信號能量,計算第一平均標準偏差值(stdashort),以及用于使用包括在每個子帶處的當前幀的第二數目幀的信號能量,計算第二平均標準偏差值(stdalong)。
50.根據權利要求47到49中任意一項的計算機程序產品,其特征在于,它還包括機器可執行步驟,用于執行代數碼激勵線性預測激勵(ACELP)作為所述第一激勵的機器可執行步驟,以及用于執行變換編碼激勵(TCX)作為所述第二激勵。
全文摘要
本發明涉及一種編碼器(200),該編碼器包括一個輸入(201),用來輸入在一個頻帶中的音頻信號的幀,包括至少第一激勵塊(206),用來對類語音音頻信號執行第一激勵,以及第二激勵塊(207),用來對非類語音音頻信號執行第二激勵。該編碼器(200)還包括濾波器(300),用來將該頻帶劃分成多個子帶,每個子帶的帶寬比所述頻帶更窄。該編碼器(200)還包括激勵選擇塊(203),用于根據至少在一個所述子帶處的所述音頻信號的性質在所述至少第一激勵塊(206)和所述第二激勵塊(207)之中選擇一個激勵塊,用來為該音頻信號的幀執行激勵。本發明還涉及一種設備、一種系統、一種方法和一種計算機程序的存儲介質。
文檔編號G10L19/20GK1922658SQ200580005608
公開日2007年2月28日 申請日期2005年2月16日 優先權日2004年2月23日
發明者雅納·韋尼奧, 阿尼·米克科拉, 帕西·奧雅拉, 雅里·馬基南 申請人:諾基亞公司