一種基于混合激勵線性預測的600bps甚低速率語音編解碼方法
【專利摘要】本發明請求保護一種基于混合激勵線性預測的600bps甚低速率語音編解碼方法,包括:編碼端對輸入的語音信號進行加窗截斷,得到一個子幀,提取子幀的語音特征參數,包括:線譜對頻率、基音周期、增益和帶通清/濁音強度;以相鄰五個子幀組成一個超幀,判斷出超幀的類型;對語音特征參數進行多幀聯合量化編碼;利用多幀聯合量化編碼后的剩余比特對重要的語音特征參數進行差錯控制;最后組成二進制比特流進行傳送。解碼端解析出超幀類型和語音特征參數后,進行語音特征參數完整性重構,生成激勵信號,再經過自適應譜增強、合成濾波器、增益控制和脈沖散布濾波后得到合成語音信號。本發明能有效地降低語音編碼速率,接收端合成的語音具有較高的清晰度和可懂度,且算法復雜度較低。
【專利說明】
一種基于混合激勵線性預測的600bps甚低速率語音編解碼 方法
技術領域
[0001] 本發明屬于語音通信領域,特別是涉及到一種基于混合激勵線性預測的甚低速率 語音編解碼器,可應用在保密通信、衛星移動通信以及深海通信中。
【背景技術】
[0002] 語音是人類相互傳遞信息的主要載體,是現代通信中最直接、最方便、最有效的交 流方式,也是未來人機交互的主要手段。隨著通信技術的發展,圖像、數據等非語音信息在 信息傳遞中所占比重越來越大,但有效的語音信息傳遞仍然是眾多通信系統必備的功能之 〇
[0003] 雖然光纖傳輸技術的引入為通信網絡提供了巨大的傳輸容量,信道帶寬問題似乎 得到解決。但人們對頻帶資源有限的陸地蜂窩移動通信和衛星通信的需求也在不斷增加。 語音信號經過模/數轉換后,數據量大增,數字語音信號在通信網中進行傳輸時需要更大的 帶寬,這對頻帶資源有限的無線通信系統來說,傳輸成本增大,因此,必須對數字化后的語 音信號進行壓縮編碼。一般將速率低于1.2kbp S的語音編碼稱為甚低速率語音編碼,甚低速 率語音編碼技術在現代通信系統中有著特殊的應用。(1)保密通信。由于數字加密技術可增 加通信的安全性,語音信號通過甚低速率編碼器編碼后,對編碼的語音數據進行加密處理, 然后在窄帶信道上進行傳輸。(2)增大系統容量。衛星移動通信系統主要用于解決線路鋪設 艱難的邊遠山區、浩瀚的沙漠和廣闊海洋區域的通信,通過降低語音的編碼速率,在有限的 頻帶的信道上提供更多的話音通道,提高通信效率。(3)通信條件惡劣的軍事通信和水下通 信中也是甚低速率語音編碼技術的應用領域。可以說甚低速率語音通信的這些特殊應用, 促進了甚低速率語音編碼技術的發展。
[0004]經過幾十年的研究和發展,高質量語音編碼技術已大規模地走向實用化,產生了 許多語音編碼國際標準。國際標準化組織ITU-T相繼制定了 16kb/s的G. 728(LD-CELP)、8kb/ s的G.729(CS-ACELP)、5.3/6.3kb/s的G. 723.1 (ACELP)等國際語音編碼標準;國際海事衛星 組織(I匪ARSAT)于1990年制定的語音壓縮編碼標準采用了 4.15kb/s改進型多帶激勵 (MBE)算法;美國Qualcom公司為CDMA移動通信系統采用了 4kb/s~8kb/s的變速率語音壓 縮編碼的標準QCELP,并納入了IS-95標準中。二十世紀九十年代,McCree博士和Barnwell教 授提出了混合激勵線性預測(MELP)編碼算法,采用MELP算法可產生具有較高合成質量的 1.2~2.4kbps聲碼器。通過分析1.2~2.4kbps低速率聲碼器算法原理,提出一種600bps甚 低速率聲碼器的實現方法,可擴大MELP算法在低碼率語音編碼領域的應用范圍。
【發明內容】
[0005] 針對現有技術的不足,提出了一種算法復雜度較低,所需存儲空間較小,合成語音 清晰度較高的600bps甚低速率語音編解碼方法。本發明的技術方案如下:
[0006] 一種基于混合激勵線性預測的600bps甚低速率語音編解碼方法,其包括以下步 驟:
[0007] 101、在編碼端,對輸入的語音信號進行分段,以N毫秒(N取值為20)為一個子幀,相 鄰五個子幀組成一個超幀,將超幀的語音數據存儲在數據緩存器結構中。
[0008] 102、提取每一子幀的語音特征參數,包括:線譜對頻率、基音周期、增益和帶通清/ 濁音強度;
[0009] 103、根據每子幀的清/濁音狀態判斷出超幀的類型,對五個子幀的語音特征參數 進行多幀聯合量化編碼;
[0010] 104、利用多幀聯合量化編碼后的剩余比特對重要的語音特征參數進行差錯控制, 最后組成二進制比特流傳送給解碼端;
[0011] 105、在解碼端,從接收到的比特流中解析出超幀類型和語音特征參數,然后進行 語音特征參數完整性重構,利用重構的語音特征參數生成激勵信號,再經過自適應譜增強、 合成濾波器、增益控制和脈沖散布濾波后得到合成語音信號。
[0012] 進一步的,所述步驟101對輸入的語音信號進行分段前還包括濾除工頻干擾在內 的預處理步驟,及對語音信號加窗截斷的步驟。
[0013] 進一步的,所述步驟101數據緩存器結構:1到350是前一超幀后350個語音樣點的 存儲區域,351到1150是當前超幀的五個子幀共800個語音樣點的存儲區域。
[0014] 進一步的,所述步驟102中提取帶通清/濁音強度。每個子幀的語音信號通過濾波 器組分解為5個子頻帶,計算出每個子頻帶的清/濁音強度值,當判斷出某子頻帶為清音狀 態,用"0"表示,如果為濁音狀態,則用"Γ表示。其中第一子頻帶的清/濁音狀態決定該子幀 的清/濁音狀態。
[0015] 進一步的,所述步驟103中超幀類型有16種。判斷出超幀的連續五個子幀的清/濁 音狀態后,五個子幀的清/濁音狀態值視為一種超幀結構;統計出每種超幀結構出現的概 率;取概率最大的16種結構做為超幀類型,剩余16種超幀結構歸類到與之相近的超幀類型 中。
[0016] 進一步的,所述步驟103對五個子幀的語音特征參數進行多幀聯合量化包括;將傳 輸的參數按其在幀結構中分配的比特數進行標量量化或矢量量化,具體參數的量化包括: [00? 7] A1、超幀類型的量化:對超幀類型進行4b it標量量化;
[0018] A2、基音周期的量化:對于沒有濁音子幀的超幀,不傳輸基音周期參數;對只有一 個池音子幀的超幀,只對池音子幀的基音周期進行對數化,再進行7b i t標量量化;對有兩個 濁音子幀的超幀,將5個子幀的基音周期進行對數化后,再組成一個矢量,進行9bit的矢量 量化;對于有兩個以上濁音子幀的超幀,將5個子幀的基音周期進行對數化后,再組成一個 矢量,進行libit矢量量化;
[0019] A3、帶通清/濁音強度的量化:除了最低子頻帶外,將五個子幀的其余4個子頻帶的 清/濁音狀態值組成一個20維矢量。如果超幀沒有濁音子幀,不傳輸帶通清/濁音強度值;如 果超幀只有一個池音子幀,對超幀的20維清/池音狀態矢量進行4bit的矢量量化;對于有兩 個或兩個以上濁音子幀的超幀,對超幀的20維清/濁音狀態進行5bit矢量量化;
[0020] A4、增益的量化:每子幀提取2個增益值,五個子幀的增益組成一個10維矢量,進行 8b it矢量量化;
[0021] A5、線譜對頻率的量化:只對超幀中的2或3個子幀的LSF參數進行量化。若子幀為 清音幀,進行9bit的矢量量化;若子幀為濁音幀,進行16bit的矢量量化。
[0022]進一步的,所述步驟104對重要的語音特征參數進行差錯控制,具體包括:
[0023] A1、如果超幀是UUUUU模式
[0024] 步驟一:將增益值(Gain)量化后的8bit平均分成兩個部分,每部分進行漢明(8,4) 編碼保護;
[0025]步驟二:對超幀類型值(Type)進行漢明(8,4)編碼保護;
[0026]步驟三:對多級矢量量化后的線譜對頻率(LSF)進行保護。對第一子幀的第一級 5bit的高4位進行漢明(7,4)編碼保護,對剩余的lbit聯合第二級的高3bit進行漢明(7,4) 編碼保護,對第一子幀第二級剩余的lbit聯合第三子幀第一級的高3bit進行漢明(7,4)編 碼保護;
[0027] A2、如果超幀是VUUUU模式
[0028]對量化后增益值(Gain)的高4位進行漢明(7,4)編碼保護;
[0029] A3、如果超幀是UUUUV模式
[0030] 對量化后增益值(Gain)的高4位進行漢明(7,4)編碼保護。
[0031] 進一步的,所述步驟105利用重構的語音特征參數生成激勵信號,包括步驟:將殘 差諧波幅度和抖動值設置為默認值;
[0032] 根據步驟105解析出的超幀類型,判斷出每個子幀的清/濁狀態。若為濁音子幀,利 用殘差諧波幅度和帶通清/濁音強度生成周期性脈沖激勵信號;若為清音子幀,激勵為白噪 聲信號。激勵信號經合成濾波器后,得到重構的語音信號。
[0033] 進一步的,步驟105中的合成濾波器的系統函數為 '其中,<^是 通過解碼重構出的線譜對頻率經轉換后得到的線性預測系數值。
[0034] 所述N取值為20。
[0035]本發明的優點及有益效果如下:
[0036] 本發明能實現一種基于混合激勵線性預測的600bps聲碼器。通過采取多子幀的語 音特征參數聯合量化的方式,為各種語音特征參數分配合理的量化比特數,采取標量量化 和矢量量化的方式,既降低了編碼器的輸出比特率,又保證合成語音具有較高清晰度和可 懂度,且編解碼算法復雜度相對較小,實現成本較低。采用本發明實現的甚低碼率聲碼器可 應用在軍事保密和衛星移動通信等頻帶資源有限的無線通信系統中。因此本發明具有良好 的應用前景和實用價值。
【附圖說明】
[0037]圖1本發明提供的實施例語音編解碼流程圖 [0038]圖2本發明編碼端語音信號處理流程圖
[0039] 圖3本發明解碼端語音特征參數恢復及語音信號合成流程圖
[0040] 圖4編碼數據緩存結構示意圖
【具體實施方式】
[0041] 以下結合附圖,對本發明作進一步說明:
[0042] 在編碼端,對輸入的語音信號進行去噪等預處理后,加窗截斷形成20ms的子幀,五 個子幀組成一個超幀;對五個子幀的語音特征參數進行聯合量化,并利用幀結構中的剩余 比特對一些重要的語音特征參數進行差錯控制編碼,最后組成二進制比特流進行傳送。在 解碼端,從接收到的比特流中解析出各語音特征參數,利用解析出的語音特征參數生成激 勵信號,經過合成濾波器后得到重構的語音。再經過增益調整和脈沖整形濾波,得到最終的 合成語音。
[0043] 提取子幀的語音參數有:線譜對頻率(LSF)、基音周期(Pitch)、帶通清/濁音強度 (BPVC)和增益(Gain)。
[0044] (1)編碼端的基本步驟
[0045]步驟一:將輸入的語音信號經過一個截止頻率為100Hz的高通濾波器,濾除50Hz的 工頻干擾;
[0046]步驟二:把五個連續的20ms子幀組成一個超幀,按編碼數據緩存器結構進行存儲; [0047]步驟三:分別提取五個子幀的語音特征參數;
[0048] 步驟四:根據五個子幀的清/濁音狀態值通過查表確定超幀類型;
[0049] 步驟五:根據超幀類型,確定各語音特征參數量化所用的比特數;
[0050] 步驟六:對超幀類型進行量化,對子幀的語音特征參數進行聯合量化;
[0051] 步驟七:利用編碼后超幀結構中的剩余比特對步驟六所得的重要參數進行差錯控 制編碼;
[0052] 步驟八:對聯合量化后的參數和差錯控制編碼參數一起組成二進制比特流,傳送 給解碼端;
[0053]其中,編碼端步驟二中的"編碼數據緩存器結構"如圖4所示,1到350是前一超幀后 350個樣點的存儲區域,351到1150是當前超幀五個子幀共800個樣點的存儲區域。
[0054]其中,編碼端步驟六中"對超幀類型進行量化,對子幀的語音特征參數進行聯合量 化",超幀類型和子幀的語音特征參數比特分配和量化方式如下:
[0055] 步驟一:超幀類型(Type)進行4b it標量量化;
[0056]步驟二:基音周期(Pitch)的量化。對于沒有濁音子幀的超幀,不傳輸基音周期參 數;對于只有一個池音子幀的超幀,先對池音子幀的基音周期進行對數化,再進行7bit標量 量化;對于有兩個濁音子幀的超幀,將5個子幀的基音周期進行對數化后組成一個矢量,再 進行9bit的矢量量化;對于有兩個以上濁音子幀的超幀,將5個子幀的基音周期進行對數化 后組成一個矢量,再進行1 lbit矢量量化;
[0057]步驟三:帶通清/濁音強度(BPVC)的量化。除了最低子頻帶外,將五個子幀的其余4 個子頻帶的清/濁音狀態值組成一個20維矢量。如果超幀沒有濁音子幀,不傳輸帶通清/濁 音強度值;如果超幀只有一個濁音子幀,對超幀的20維清/濁音狀態矢量進行4bit的矢量量 化;對于有兩個或兩個以上濁音子幀的超幀,對超幀的20維清/濁音狀態進行5bit矢量量 化;
[0058]步驟四:增益的量化。每子幀提取2個增益值,五個子幀的增益組成一個10維矢量, 進行8b it矢量量化;
[0059]步驟五:線譜對頻率的量化。只對超幀中的2或3個子幀的LSF參數進行量化。若子 幀為清音幀,進行9bit的矢量量化;若子幀為濁音幀,進行16bit的矢量量化。
[0060]其中,編碼端步驟七中"差錯控制編碼",差錯控制編碼方式如下:
[0061 ] A1、如果超幀是UUUUU模式
[0062] 步驟一:將增益值(Gain)量化后的8bit平均分成兩個部分,每部分進行漢明(8,4) 編碼保護;
[0063]步驟二:對超幀類型(Type)進行漢明(8,4)編碼保護;
[0064]步驟三:對多級矢量量化后的線譜對頻率(LSF)進行保護。對第一子幀的第一級 5bit的高4位進行漢明(7,4)編碼保護,對剩余的lbit聯合第二級的高3bit進行漢明(7,4) 編碼保護,對第一子幀第二級剩余的lbit聯合第三子幀第一級的高3bit進行漢明(7,4)編 碼保護;
[0065] A2、如果超幀是VUUUU模式
[0066]對量化后增益值(Gain)的高4位進行漢明(7,4)編碼保護;
[0067] A2、如果超幀是UUUUV模式
[0068]對量化后增益值(Gain)的高4位進行漢明(7,4)編碼保護。
[0069]本發明設計的600bps聲碼器,超幀類型和超幀結構如表1所示,LSF參數量化方案 如表2所示,編碼端幀結構比特分配方案如表3所示。
[0070]表 1
[0077] (2)解碼端的基本步驟
[0078] 圖3給出的是解碼端語音特征參數的解碼和語音信號的合成過程。
[0079] 步驟一:解碼端從接收到的比特流中解析出超幀類型(Type)和語音特征參數的量 化索引值,通過量化索引得到語音特征參數的初值后,進行語音特征參數完整性重構。殘差 諧波幅度(Fsmag)設置為默認值1.0,抖動(Jitter)設置為默認值0.25;
[0080] 步驟二:采用上述語音特征參數生成的激勵信號經過合成濾波器后得到重構的語 音信號;
[0081] 步驟三:對重構的語音信號進行增益調整和脈沖整形濾波,得到最終合成的語音 信號;
[0082] 其中,解碼端步驟二中"采用上述語音特征參數生成的激勵信號"。根據步驟一解 析出的超幀類型,可判斷出五個子幀的清/濁狀態。若為濁音子幀,利用殘差諧波幅度 (Fsmag)和帶通清/濁音強度(BPVC)生成周期性脈沖激勵信號;若為清音子幀,激勵信號為 白噪聲信號;
[0083]其中,解碼端步驟二中"經過合成濾波器后得到重構的語音信號",合成濾波器的 系數CU是解析重構后的線譜對頻率LSF經轉換后得到的。合成濾波器的系統函數
[0084]以上這些實施例應理解為僅用于說明本發明而不用于限制本發明的保護范圍。在 閱讀了本發明的記載的內容之后,技術人員可以對本發明作各種改動或修改,這些等效變 化和修飾同樣落入本發明權利要求所限定的范圍。
【主權項】
1. 一種基于混合激勵線性預測的600bps甚低速率語音編解碼方法,其特征在于,包括 W下步驟: 101、 在編碼端,對輸入的語音信號進行分段,WN毫秒為一個子帖,相鄰五個子帖組成 一個超帖,將超帖的語音數據存儲在數據緩存器結構中。 102、 提取每一子帖的語音特征參數,包括:線譜對頻率、基音周期、增益和帶通清/濁音 強度; 103、 根據每子帖的清/濁音狀態判斷出超帖的類型,對五個子帖的語音特征參數進行 多帖聯合量化編碼; 104、 利用多帖聯合量化編碼后的剩余比特對重要的語音特征參數進行差錯控制,最后 組成二進制比特流傳送給解碼端; 105、 在解碼端,從接收到的比特流中解析出超帖類型和語音特征參數,然后進行語音 特征參數完整性重構,利用重構的語音特征參數生成激勵信號,再經過自適應譜增強、合成 濾波器、增益控制和脈沖散布濾波后得到合成語音信號。2. 根據權利要求1所述的基于混合激勵線性預測的600bps甚低速率語音編解碼方法, 其特征在于,所述步驟101對輸入的語音信號進行分段前還包括濾除工頻干擾在內的預處 理步驟,及對語音信號加窗截斷的步驟。3. 根據權利要求1所述的基于混合激勵線性預測的600bps甚低速率語音編解碼方法, 其特征在于,所述步驟101數據緩存器結構:1到350是前一超帖后350個語音樣點的存儲區 域,351到1150是當前超帖的五個子帖共800個語音樣點的存儲區域。4. 根據權利要求1所述的基于混合激勵線性預測的600bps甚低速率語音編解碼方法, 其特征在于,所述步驟102中提取帶通清/濁音強度。每個子帖的語音信號通過濾波器組分 解為5個子頻帶,計算出每個子頻帶的清/濁音強度值,當判斷出某子頻帶為清音狀態,用 "0"表示,如果為濁音狀態,則用"Γ表示,其中第一子頻帶的清/濁音狀態決定該子帖的清/ 濁音狀態。5. 根據權利要求1所述的基于混合激勵線性預測的600bps甚低速率語音編解碼方法, 其特征在于,所述步驟103中超帖類型有16種。判斷出超帖的連續五個子帖的清/濁音狀態 后,五個子帖的清/濁音狀態值視為一種超帖結構;統計出每種超帖結構出現的概率;取概 率最大的16種結構做為超帖類型,剩余16種超帖結構歸類到與之相近的超帖類型中。6. 根據權利要求1所述的基于混合激勵線性預測的600bps甚低速率語音編解碼方法, 其特征在于,所述步驟103對五個子帖的語音特征參數進行多帖聯合量化包括;將傳輸的參 數按其在帖結構中分配的比特數進行標量量化或矢量量化,具體參數的量化包括: A1、超帖類型的量化:對超帖類型進行4bit標量量化; A2、基音周期的量化:對于沒有濁音子帖的超帖,不傳輸基音周期參數;對只有一個濁 音子帖的超帖,只對濁音子帖的基音周期進行對數化,再進行7bit標量量化;對有兩個濁音 子帖的超帖,將5個子帖的基音周期進行對數化后,再組成一個矢量,進行9bit的矢量量化; 對于有兩個W上濁音子帖的超帖,將5個子帖的基音周期進行對數化后,再組成一個矢量, 進行libit矢量量化; A3、帶通清/濁音強度的量化:除了最低子頻帶外,將五個子帖的其余4個子頻帶的清/ 濁音狀態值組成一個20維矢量。如果超帖沒有濁音子帖,不傳輸帶通清/濁音強度值;如果 超帖只有一個濁音子帖,對超帖的20維清/濁音狀態矢量進行4bit的矢量量化;對于有兩個 或兩個W上濁音子帖的超帖,對超帖的20維清/濁音狀態進行化it矢量量化; A4、增益的量化:每子帖提取2個增益值,五個子帖的增益組成一個10維矢量,進行8bit 矢量量化; A5、線譜對頻率的量化:只對超帖中的2或3個子帖的LSF參數進行量化。若子帖為清音 帖,進行9bit的矢量量化;若子帖為濁音帖,進行16bit的矢量量化。7. 根據權利要求1所述的基于混合激勵線性預測的600bps甚低速率語音編解碼方法, 其特征在于,所述步驟104對重要的語音特征參數進行差錯控制,具體包括: A1、如果超帖是UUUUU模式 步驟一:將增益值Gain量化后的8bit平均分成兩個部分,每部分進行漢明(8,4)編碼保 護; 步驟二:對超帖類型值Type進行漢明(8,4)編碼保護; 步驟Ξ:對多級矢量量化后的線譜對頻率LSF進行保護。對第一子帖的第一級化it的高 4位進行漢明(7,4)編碼保護,對剩余的Ibit聯合第二級的高3bit進行漢明(7,4)編碼保護, 對第一子帖第二級剩余的化it聯合第Ξ子帖第一級的高3bit進行漢明(7,4)編碼保護; A2、如果超帖是VUUUU模式 對量化后增益值Gain的高4位進行漢明(7,4)編碼保護; A3、如果超帖是UUUUV模式 對量化后增益值Gain的高4位進行漢明(7,4)編碼保護。8. 根據權利要求1所述的基于混合激勵線性預測的600bps甚低速率語音編解碼方法, 其特征在于,所述步驟105利用重構的語音特征參數生成激勵信號,包括步驟:將殘差諧波 幅度和抖動值設置為默認值; 根據步驟105解析出的超帖類型,判斷出每個子帖的清/濁狀態。若為濁音子帖,利用殘 差諧波幅度和帶通清/濁音強度生成周期性脈沖激勵信號;若為清音子帖,激勵為白噪聲信 號,激勵信號經合成濾波器后,得到重構的語音信號。9. 根據權利要求1所述的基于混合激勵線性預測的600bps甚低速率語音編解碼方法, 其特征在于,步驟105中的合成濾波器的系統函數式廷中,曰1是通過解 碼重構出的線譜對頻率經轉換后得到的線性預測系數值。10. 根據權利要求1所述的基于混合激勵線性預測的60化PS甚低速率語音編解碼方法, 其特征在于,所述N取值為20。
【文檔編號】G10L19/087GK106098072SQ201610395422
【公開日】2016年11月9日
【申請日】2016年6月2日 公開號201610395422.2, CN 106098072 A, CN 106098072A, CN 201610395422, CN-A-106098072, CN106098072 A, CN106098072A, CN201610395422, CN201610395422.2
【發明人】李強, 朱蘭, 陳浩, 張玲, 明艷
【申請人】重慶郵電大學