基于音頻信號特性分類的無參考音頻質量評價方法和系統的制作方法
【專利摘要】本發明提供了一種基于音頻信號特性分類的無參考音頻質量評價方法和系統,包括步驟:步驟1,基于有參考音頻質量評價模型建立訓練模型,采用機器學習獲取不同類型音頻信號的音頻質量與網絡參數的關系,即無參考音頻質量評價模型;步驟2,在音頻信號網絡傳輸中,將當前丟包率、當前延遲時間和當前丟包數據的音頻信號類型輸入無參考音頻質量評價模型,獲得當前音頻質量。本發明對不同類型信號采用不同的質量評價關系式進行質量評價,能更真實地反映用戶體驗。
【專利說明】基于音頻信號特性分類的無參考音頻質量評價方法和系統
【技術領域】
[0001]本發明涉及音頻質量評價領域,尤其涉及一種基于音頻信號特性分類的無參考音頻質量評價方法和系統。
【背景技術】
[0002]隨著人們生活質量提高,人們對音頻有了更高、更多樣化的需求,手機上移動音頻點播、音頻信息和音樂這樣的移動音頻服務正在快速增長,為了保證用戶在音頻服務上的良好體驗,音頻質量評價必不可少。音頻質量評價分為主觀質量評價和客觀質量評價,主觀質量評價雖然更能反映用戶體驗,但是費時、費力,也不適合實時傳輸,實際應用中往往采用客觀質量評價。客觀質量評價又分為有參考質量評價和無參考質量評價,有參考質量評價需要原始音作為參考,能夠較為準確預測音頻質量,但是實際通信時,特別是移動通信環境下,原始音往往不能夠獲得,此時,就需要無參考質量評價。
[0003]現有的無參考音頻質量評價都是通過統計網絡參數獲得,如丟包和延遲,最有代表性的是E-Model模型,但是均未考慮用戶對不同類型音頻信號感知失真的差異性。
【發明內容】
[0004]針對現有技術存在的不足,本發明提出了一種基于音頻信號特性分類的無參考音頻質量評價方法和系統,本發明方法和系統考慮了用戶對不同類型音頻信號感知失真的差異性,可更真實的反應用戶體驗。
[0005]為解決上述問題,本發明采用如下的技術方案:
[0006]一、音頻信號特性分類的無參考音頻質量評價方法,包括步驟:
[0007]步驟1,基于有參考音頻質量評價模型建立訓練模型,采用機器學習獲取不同類型音頻信號的音頻質量與網絡參數的關系,即無參考音頻質量評價模型,所述的網絡參數包括延遲時間和丟包率;
[0008]步驟2,在音頻信號網絡傳輸中,將當前丟包率、當前延遲時間和當前丟包數據的音頻信號類型輸入無參考音頻質量評價模型,獲得當前音頻質量。
[0009]步驟I進一步包括子步驟:
[0010]1.1將原始音經編碼、丟包、解碼后得到降質音頻,利用有參考音頻質量評價模型對降質音頻進行質量評價得到客觀質量得分MOS ;
[0011]1.2將降質音頻延遲產生延遲損傷,在客觀質量得分MOS上減去延遲損傷Id,得到音頻質量MOSc ;
[0012]1.3以音頻質量MOSc為目標,以延遲時間、丟包率、音頻信號類型為輸入,通過機器學習方式獲得不同類型音頻信號的音頻質量與網絡參數的關系,即無參考音頻質量評價模型。
[0013]步驟2進一步包括子步驟:
[0014]2.1采用不同編碼模式分別對不同類型音頻信號進行編碼獲得音頻編碼信息;[0015]2.2對音頻編碼信息進行解碼,并統計當前丟包率和當前延遲時間,恢復丟包數據的編碼模式,獲取當前丟包數據的音頻信號類型;
[0016]2.3將當前丟包率、當前延遲時間和當前丟包數據的音頻信號類型輸入無參考音頻質量評價模型,獲得當前音頻質量MOSc。
[0017]上述音頻信號特性分類的無參考音頻質量評價方法還包括步驟:
[0018]根據當前音頻質量調整延遲時間和編碼碼率,使當前音頻質量取最大值。
[0019]二、一種音頻信號特性分類的無參考音頻質量評價系統,包括:
[0020]訓練模塊,基于有參考音頻質量評價模型建立訓練模型,采用機器學習獲取不同類型音頻信號的音頻質量與網絡參數的關系,即無參考音頻質量評價模型,所述的網絡參數包括延遲時間和丟包率;
[0021]質量評價模塊,用來在音頻信號網絡傳輸中,將當前丟包率、當前延遲時間和當前丟包數據的音頻信號類型輸入無參考音頻質量評價模型,獲得當前音頻質量。
[0022]上述訓練模塊進一步包括子模塊:
[0023]有參考音頻質量評分模塊,用來將原始音經編碼、丟包、解碼后得到降質音頻,利用有參考音頻質量評價模型對降質音頻進行質量評價得到客觀質量得分MOS ;
[0024]音頻質量評分模塊,用來將降質音頻延遲產生延遲損傷,在客觀質量得分MOS上減去延遲損傷Id,得到音頻質量MOSc ;
[0025]機器學習模塊,用來以音頻質量MOSc為目標,以延遲時間、丟包率、音頻信號類型為輸入,通過機器學習方式獲得不同類型音頻信號的音頻質量與網絡參數的關系,即無參考音頻質量評價模型。
[0026]上述質量評價模塊進一步包括子模塊:
[0027]編碼模塊,用來采用不同編碼模式分別對不同類型音頻信號進行編碼獲得音頻編碼息;
[0028]網絡參數和音頻信號類型獲得模塊,用來對音頻編碼信息進行解碼,并統計當前丟包率和當前延遲時間,恢復丟包數據的編碼模式,獲取當前丟包數據的音頻信號類型;
[0029]質量評價模塊,用來將當前丟包率、當前延遲時間和當前丟包數據的音頻信號類型輸入無參考音頻質量評價模型,獲得當前音頻質量MOSc。
[0030]上述音頻信號特性分類的無參考音頻質量評價系統,還包括網絡參數調整模塊,用來根據當前音頻質量調整延遲時間和編碼碼率,使當前音頻質量取最大值。
[0031]本發明根據音頻信號特性對音頻信號進行分類,基于有參考音頻質量評價模型,通過機器學習方式訓練適用于不同類型音頻信號的無參考音頻質量評價模型,采用無參考音頻質量評價模型對不同類型音頻信號質量進行評價。
[0032]本發明可應用于音頻網絡傳輸,通過統計丟包數據的丟包率、延遲時間和類型,采用無參考音頻質量評價模型對音頻質量進行評價,并實時反饋音頻質量,自適應調節網絡參數,給用戶最好的感知體驗。
[0033]與現有技術相比,本發明具有如下有益效果:
[0034]現有無參考音頻質量評價模型一般通過統計網絡參數(主要包括丟包率和延遲時間)來評價音頻質量,但未按照音頻信號特性對音頻信號進行分類。同種網絡條件下,丟包和延遲對瞬變信號和穩態信號造成的影響明顯不同。本發明則根據音頻信號特性對音頻信號進行分類,對不同類型信號采用不同的關系式進行質量評價,能更真實地反映用戶體驗。
【專利附圖】
【附圖說明】
[0035]圖1是訓練不同類型音頻信號的無參考音頻質量評價模型的框圖;
[0036]圖2是本發明無參考音頻質量評價模型在音頻網絡傳輸中的應用框圖。
【具體實施方式】
[0037]本發明可應用于音頻網絡傳輸中對音頻質量進行評價,通過統計網絡傳輸中丟包數據的丟包率和延遲時間,根據音頻信號特性分類,將丟包率和延遲時間送入無參考音頻質量評價模塊,獲得感知音頻質量。
[0038]以AVS-PlO為例,AVS-PlO根據音頻信號特性將音頻信號分為語音信號、瞬變音樂信號、暫穩態音樂信號和穩態音樂信號四類信號,分別用ACELP256、TVC256、TVC512、TVC1024編碼模式進行編碼,接收端通過編碼模式對音頻信號進行分類,對于不同編碼模式下的丟包,采用對應的關系式獲得感知音頻質量。
[0039]下面結合附圖進一步說明本發明的【具體實施方式】。
[0040]見圖1,利用有參考音頻質量評價模型訓練無參考音頻質量評價模型的參數,本具體實施中采用的有參考音頻質量評價模型為基于用戶關注度和抖動失真的PEAQ客觀質量評價模型。無參考音頻質量評價模型參數訓練的具體步驟如下:
[0041]首先,將原始音經編碼、丟包、解碼后得到降質音頻,利用有參考音頻質量評價模型對降質音頻進行質量評價得到客觀質量得分MOS (Mean Opinion Score)。
[0042]接著,將降質音頻延遲產生一個延遲損傷Id,由于有參考音頻質量評價模型不含延遲損傷,而實際音頻網絡傳輸中必然存在延遲損傷,所以在客觀質量得分MOS基礎上減去延遲損傷Id,得到音頻質量MOSc。
[0043]最后,以音頻質量MOSc為目標,以延遲時間d、丟包率ρ、音頻信號類型mod為輸入,通過機器學習方式,訓練神經網絡模型,得到不同類型音頻信號質量受丟包率和延遲時間影響的關系式:M0Sc = f (d, p, mod),即構成無參考音頻質量評價模型。本步驟中,將訓練樣本的丟包率、延遲時間、音頻信號類型和音頻質量MOSc輸入神經網絡模型,即可直接獲得無參考音頻質量評價模型。
[0044]見圖2,將訓練的無參考音頻質量評價模型應用于音頻網絡傳輸,發送端采用不同編碼模式分別對不同類型音頻信號進行編碼獲得音頻編碼信息。音頻編碼信息經網絡傳輸到接收端,首先,經過緩沖區,利用常規技術對音頻編碼信息進行去抖動、根據時間戳對數據包重排序、統計丟包率和延遲時間;然后,經解碼器進行解碼,并恢復丟包數據的編碼模式,從而獲取丟包數據的音頻信號類型;然后,將當前丟包數據的音頻信號類型、當前丟包數據的丟包率和延遲時間傳入無參考音頻質量評價模型,獲得此時的音頻質量MOSc,并實時反饋,以便自適應調節相應網絡參數,給用戶最好的音頻感知體驗。
[0045]下面以AVS-P10編解碼標準為例進一步說明本發明在音頻網絡傳輸中的應用。發送端以一定碼率采用不同編碼模式對不同類型音頻信號分別進行編碼獲得音頻編碼信號,音頻編碼信號以流的方式在網絡中傳播。解碼端接收到音頻編碼信號,首先,通過自適應抖動緩沖區,對接收到的數據包進行重排序,并統計丟包率和延遲時間;然后,將重排序后的數據包送入解碼器解碼,并獲取丟包數據的編碼模式,即音頻信號類型;最后,把丟包率、延遲時間、音頻信號類型送入無參考音頻質量評價模塊,對音頻信號進行質量評價,并實時反饋到發送端的編碼模塊和解碼端的緩沖區,通過自適應調節緩沖區大小、編碼碼率等參數,使音頻質量MOSc取最大值,從而給用戶提供更好的音頻感知體驗,并盡可能節省網絡資源。
【權利要求】
1.音頻信號特性分類的無參考音頻質量評價方法,其特征在于,包括步驟: 步驟1,基于有參考音頻質量評價模型建立訓練模型,采用機器學習獲取不同類型音頻信號的音頻質量與網絡參數的關系,即無參考音頻質量評價模型,所述的網絡參數包括延遲時間和丟包率; 步驟2,在音頻信號網絡傳輸中,將當前丟包率、當前延遲時間和當前丟包數據的音頻信號類型輸入無參考音頻質量評價模型,獲得當前音頻質量。
2.如權利要求1所述的音頻信號特性分類的無參考音頻質量評價方法,其特征在于: 步驟I進一步包括子步驟: 1.1將原始音經編碼、丟包、解碼后得到降質音頻,利用有參考音頻質量評價模型對降質音頻進行質量評價得到客觀質量得分MOS ; 1.2將降質音頻延遲產生延遲損傷,在客觀質量得分MOS上減去延遲損傷Ι?/,得到音頻質量MOSc ; 1.3以音頻質量MOSc為目標,以延遲時間、丟包率、音頻信號類型為輸入,通過機器學習方式獲得不同類型音頻信號的音頻質量與網絡參數的關系,即無參考音頻質量評價模型。
3.如權利要求1所述的音頻信號特性分類的無參考音頻質量評價方法,其特征在于: 步驟2進一步包括子步驟: 2.1采用不同編碼模式分別對不同類型音頻信號進行編碼獲得音頻編碼信息; 2.2對音頻編碼信息進行解碼,并統計當前丟包率和當前延遲時間,恢復丟包數據的編碼模式,獲取當前丟包數據的音頻信號類型; 2.3將當前丟包率、當前延遲時間和當前丟包數據的音頻信號類型輸入無參考音頻質量評價模型,獲得當前音頻質量MOSc。
4.如權利要求1所述的音頻信號特性分類的無參考音頻質量評價方法,其特征在于,還包括步驟: 根據當前音頻質量調整延遲時間和編碼碼率,使當前音頻質量取最大值。
5.一種音頻信號特性分類的無參考音頻質量評價系統,其特征在于,包括: 訓練模塊,基于有參考音頻質量評價模型建立訓練模型,采用機器學習獲取不同類型音頻信號的音頻質量與網絡參數的關系,即無參考音頻質量評價模型,所述的網絡參數包括延遲時間和丟包率; 質量評價模塊,用來在音頻信號網絡傳輸中,將當前丟包率、當前延遲時間和當前丟包數據的音頻信號類型輸入無參考音頻質量評價模型,獲得當前音頻質量。
6.如權利要求5所述的音頻信號特性分類的無參考音頻質量評價系統,其特征在于: 所述的訓練模塊進一步包括子模塊: 有參考音頻質量評分模塊,用來將原始音經編碼、丟包、解碼后得到降質音頻,利用有參考音頻質量評價模型對降質音頻進行質量評價得到客觀質量得分MOS ; 音頻質量評分模塊,用來將降質音頻延遲產生延遲損傷,在客觀質量得分MOS上減去延遲損傷1:得到音頻質量MOSc ; 機器學習模塊,用來以音頻質量MOSc為目標,以延遲時間、丟包率、音頻信號類型為輸入,通過機器學習方式獲得不同類型音頻信號的音頻質量與網絡參數的關系,即無參考音頻質量評價模型。
7.如權利要求5所述的音頻信號特性分類的無參考音頻質量評價系統,其特征在于: 所述的質量評價模塊進一步包括子模塊: 編碼模塊,用來采用不同編碼模式分別對不同類型音頻信號進行編碼獲得音頻編碼信息; 網絡參數和音頻信號類型獲得模塊,用來對音頻編碼信息進行解碼,并統計當前丟包率和當前延遲時間,恢復丟包數據的編碼模式,獲取當前丟包數據的音頻信號類型; 質量評價模塊,用來將當前丟包率、當前延遲時間和當前丟包數據的音頻信號類型輸入無參考音頻質 量評價模型,獲得當前音頻質量MOSc。
8.如權利要求5所述的音頻信號特性分類的無參考音頻質量評價系統,其特征在于,還包括: 網絡參數調整模塊,用來根據當前音頻質量調整延遲時間和編碼碼率,使當前音頻質量取最大值。
【文檔編號】H04L29/06GK103957216SQ201410196690
【公開日】2014年7月30日 申請日期:2014年5月9日 優先權日:2014年5月9日
【發明者】胡瑞敏, 楊玉紅, 王衍業, 謝松波, 董少龍, 余洪江, 高麗, 王曉晨, 涂衛平, 高戈 申請人:武漢大學