基于分層事件檢測和上下文模型的多源場景聲音摘要方法
【專利摘要】本發明公開了一種基于分層事件檢測和上下文模型的多源場景聲音摘要方法,包括以下步驟:步驟一,輸入一段待摘要的目標多源場景音頻分割片段;步驟二,基于背景聲音對音頻場景片段進行分割;步驟三,通過一個譜聚類算法,將目標音頻中相似的分割片段聚類起來,利用仿射函數檢測背景聲音事件,并計算聲音事件的評分函數得到關鍵聲音事件;步驟四,通過一個上下文模型計算聲音事件之間的相關函數;步驟五,根據聲音事件之間的相關值在關鍵聲音事件的音頻分割片段前后合并相關度較高的音頻分割片段得出最后的多源場景聲音摘要。
【專利說明】基于分層事件檢測和上下文模型的多源場景聲音摘要方法
【技術領域】
[0001]本發明涉及一種多源場景聲音的摘要方法,特別是一種基于分層事件檢測和上下文模型的多源場景聲音摘要方法。
【背景技術】
[0002]近幾年來,隨著配備聲傳感器智能設備的快速升級,聲音成為了內容感知應用中很有用的數據類型。音頻相對于基于視覺的工具是比較廉價的媒體,也沒有視覺媒體中的遮擋與光照強弱等難題,日益增長的音頻數據量也引發了對開發音頻上高效面向內容算法的迫切需求。典型的算法有,獲取有用的音頻數據、將音頻數據分組成有意義的類別以及提供音頻瀏覽或檢索等。音頻內容摘要是指從音頻流中提取有意義的信息,這在現實生活中的音頻相關應用上非常有用。
[0003]在檢測和提取音頻流語義內容方面有三大方法。諧波結構分析方法主要處理說話和音樂這類的音頻數據,這類方法可以處理結構化的具有共振峰特征的聲音,但不能直接用于分析非結構化聲音信號。特征提取方法考慮了通過分析和選擇不同的音頻特征來識別多源聲音,但無法彌補低層聽覺特性和高層予以內容之間的語義鴻溝。音頻上下文表示方法使用上下文作為分類器來識別多源聲音,但是無法用一個系統的方式來開發多源聲音中有意義的部分和他們之間的關系。
【發明內容】
[0004]發明目的:本發明所要解決的技術問題是針對現有技術的不足,提供一種基于分層事件檢測和上下文模型的多源場景聲音摘要方法,從而對一段多源場景音頻分割片段做出分析,摘要出其中的場景片段。
[0005]為了解決上述技術問題,本發明公開了一種基于分層事件檢測和上下文模型的多源場景聲音摘要方法,包括以下步驟:
[0006]步驟一,輸入一段待摘要的目標多源場景音頻信號作為目標音頻,所述待摘要的目標多源場景音頻信號由各種來源的結構化的前景聲音及非結構化的背景聲音組成;
[0007]步驟二,通過背景聲音識別算法,識別出目標音頻中的背景聲音,提取目標音頻的波形值組成一個矩陣,并將該矩陣和背景聲音特征向量都投影到特征空間中,計算目標音頻特征向量和背景聲音特征向量的歸一化距離來確定目標音頻分割片段的分割點位置,完成音頻分割;
[0008]步驟三,使用譜聚類算法將目標音頻中相似的分割片段聚類,將一類分割片段作為聲音事件,使用仿射函數進行背景聲音事件的檢測,計算聲音事件的發生頻率、總時間長度及平均時間長度屬性,通過關鍵聲音事件的評分函數計算得到關鍵聲音事件;
[0009]步驟四,使用上下文模型將關鍵聲音事件和相鄰的事件關聯在同一個聲音場景下,即用聲音事件之間的相關系數和時間間隔,計算兩個聲音片段的相關函數得到相鄰聲音事件的相關值;
[0010]步驟五,利用關鍵聲音事件和相鄰聲音事件的相關值在關鍵聲音事件的音頻分割片段周圍擴展所在場景下的音頻分割片段,如果關鍵聲音事件的音頻分割片段與它的相鄰音頻分割片段各自所屬聲音事件的相關值超過設定閾值,則把它們歸為同一聲音場景,最后得到最后的多源場景聲音摘要。
[0011]本發明步驟二包括如下步驟:
[0012]對目標音頻I讀出其采樣值,并將采樣值組成一個NXM的矩陣X:
[0013]X — {xj i = I,...,μ?
[0014]其中,Xi表示第i個含有N個采樣點且無重疊的音頻幀,i取值I~M,M表示總幀數;
[0015]將M個音頻幀中每個音頻幀減去矩陣X所有音頻幀的平均值,通過主成分分析算法將矩陣X的協方差矩陣降到NXK維,記為K維特征空間Eb,然后將矩陣X映射到空間Eb上:
[0016]T = Ej} X,
[0017]其中,T是KXM矩陣,包含所有被映射的音頻幀/:'是Eb的轉置矩陣;
[0018]將背景聲音的音頻幀Vtl減去矩陣X所有音頻幀的平均值,得到均值為零的背景音頻幀&,并映射到空間Eb上,得到背景音頻幀V,公式為:
[0019]V = E^v0,
[0020]計算目標音頻幀與背景音頻幀V之間的歸一化距離D (i):
【權利要求】
1.一種基于分層事件檢測和上下文模型的多源場景聲音摘要方法,其特征在于,包括以下步驟: 步驟一,輸入一段待摘要的目標多源場景音頻信號作為目標音頻,所述待摘要的目標多源場景音頻信號由各種來源的結構化的前景聲音及非結構化的背景聲音組成; 步驟二,通過背景聲音識別算法,識別出目標音頻中的背景聲音,提取目標音頻的波形值組成一個矩陣,并將該矩陣和背景聲音特征向量都投影到特征空間中,計算目標音頻特征向量和背景聲音特征向量的歸一化距離來確定目標音頻分割片段的分割點位置,完成音頻分割; 步驟三,使用譜聚類算法將目標音頻中相似的分割片段聚類,將一類分割片段作為聲音事件,使用仿射函數進行背景聲音事件的檢測,計算聲音事件的發生頻率、總時間長度及平均時間長度三個評分函數并組成關鍵聲音事件的評分函數,通過關鍵聲音事件的評分函數計算得到關鍵聲音事件; 步驟四,使用上下文模型將關鍵聲音事件和相鄰的事件關聯在同一個聲音場景下,即用聲音事件之間的相關系數和時間間隔,計算兩個聲音片段的相關函數得到相鄰聲音事件的相關值; 步驟五,利用關鍵聲音事件和相鄰聲音事件的相關值在關鍵聲音事件的音頻分割片段周圍擴展所在場景下的音頻分割片段,如果關鍵聲音事件的音頻分割片段與它的相鄰音頻分割片段各自所屬聲音事件的相關值超過設定閾值,則把它們歸為同一聲音場景,最后得到最后的多源場景聲音摘要。
2.根據權利要求1所述的一種基于分層事件檢測和上下文模型的多源場景聲音摘要方法,其特征在于,步驟二包括如下步驟: 對目標音頻I讀出其采樣值,并將采樣值組成一個NXM的矩陣X:
X — iXi^ i = I,...,Μ, 其中,Xi表示第i個含有N個采樣點且無重疊的音頻幀,i取值I~M,M表示總幀數; 將M個音頻幀中每個音頻幀減去矩陣X所有音頻幀的平均值,通過主成分分析算法將矩陣X的協方差矩陣降到NXK維,記為K維特征空間Eb,然后將矩陣X映射到空間Eb上: T = ErbX, 其中,T是KXM矩陣,包含所有被映射的音頻幀,E1是Eb的轉置矩陣; 將背景聲音的音頻幀%減去矩陣X所有音頻幀的平均值,得到均值為零的背景音頻幀V0,并映射到空間Eb上,得到背景音頻幀V,公式為: V= E1^v0, 計算目標音頻幀與背景音頻幀V之間的歸一化距離D (i):
其中h表示目標音頻I的第i幀,max和min分別表示| | t^v | |的最大值和最小值; 歸一化距離D(i)的局部最小值點即為音頻分割點,每兩個音頻分割點之間構成音頻分割片段,所有的音頻分割片段記為集合&= S-^P丨,M1為音頻分割片段的總數。
3.根據權利要求2所述的一種基于分層事件檢測和上下文模型的多源場景聲音摘要方法,其特征在于,步驟三中,所述使用譜聚類算法將目標音頻中相似的分割片段聚類包括如下步驟: 1)對于音頻分割片段segv及它的梅爾頻率倒譜系數-局部判別基特征矩陣MLDB={avl,...,avn}, V取值I?M1, j取值I?η, η表示特征向量總數,則avj表示音頻分割片段segv的第j個梅爾頻率倒譜系數-局部判別基特征向量,用第一次譜聚類算法將每個特征向量聚類為FK類,每一聚類為ckl,kl = 1,...,FK ; 2)記聚類Ckl的元素個數是Nkl,那么音頻分割片段seg。就屬于Nkl最大的那個聚類ckl,判定音頻分割片段seg。屬于聲音事件ek2,k2 = 1,...,EK,EK表示聲音事件的總數,最后得到所有音頻分割片段的聚類結果,即聲音事件集合E = Ie1, eEK}。
4.根據權利要求3所述的一種基于分層事件檢測和上下文模型的多源場景聲音摘要方法,其特征在于,步驟三中,所述梅爾頻率倒譜系數-局部判別基特征的提取步驟如下: 1)提取音頻的梅爾頻率倒譜系數特征; 2)利用局部判別基對音頻進行特征提取; 3)在梅爾頻率倒譜系數特征后加上局部判別基特征,得到更高維數的梅爾頻率倒譜系數-局部判別基特征。
5.根據權利要求4所述的一種基于分層事件檢測和上下文模型的多源場景聲音摘要方法,其特征在于,步驟三中,所述背景聲音事件檢測的仿射函數如下:
Cijfiek J) = exp(dk — duv:,)2 / ((2i/;;,r).exp(pk / qk)), 其中dk是聲音事件ek的總時間長度,k的取值范圍I?EK,davg和dstd分別是聲音事件ek中所有音頻分割片段的均值和標準差,將仿射函數值最大的那個聲音事件作為背景聲音事件,Pk和qk分別表示所有聲音事件中所有音頻分割片段的總時間長度的均值和方差,即所有聲音事件總時間長度dk的均值和方差。
6.根據權利要求5所述的一種基于分層事件檢測和上下文模型的多源場景聲音摘要方法,其特征在于,步驟三中,所述的關鍵聲音事件的評分函數計算方法如下:
score (es, I) = frq(es, I).dur (es, I).Ien (es, I), 其中,frq(es, I)表示聲音事件es發生頻率的評分函數,dur (es, I)表示聲音事件es總時間長度的評分函數,Ien (es,I)表示聲音事件es平均時間長度的評分函數,es是表示聲音事件,s取值范圍I?EK ; frq(es, I)的計算方法如下: frq、esJ、= exp(-(ns -navif)2 i (2/匕)), 其中,ns表示聲音事件es發生的次數,navg和nstd分別表示聲音事件es發生頻率的均值和標準差; dur(es, I)的計算方法如下:
dur{es,/) = exp{-{ds - )2 / (2d;ul)),其中,ds表示聲音事件es的總時間長度,davg和dstd分別表示聲音事件es總時間長度的均值和標準差; Ien (es, I)的計算方法如下:
len(c)、,I) = exp(-(l、-1avgY I{2l;td)\ 其中,Is表示聲音事件es的平均時間長度,Iavg和Istd分別表示聲音事件^的平均時間長度的均值和標準差。
7.根據權利要求6所述的一種基于分層事件檢測和上下文模型的多源場景聲音摘要方法,其特征在于,步驟四中相關值Sxy計算方法如下:
其中,dtxy和Corrxy分別表示聲音事件X和y的歐式距離以及相關系數,dx和dy分別是兩個聲音事件的各自的總時間長度,exp (x)表示e\ e為自然常數,x和y的取值范圍是I~EK,且X不等于y ; 相關系數Corrxy的計算方法如下:
其中,fx^^P fyw*別是聲音事件X和y第w個維度的特征向量取值范圍I~FN,身和方分別是聲音事件X和y的特征向量所有維度的均值,FN是聲音事件特征向量的維度的總數。
8.根據權利要求1所述的一種基于分層事件檢測和上下文模型的多源場景聲音摘要方法,其特征在于,步驟五中,所述的閾值計算方法如下:
μ + σ , 其中,μ是所有聲音事件間相關值的均值,σ是所有聲音事件間相關值的標準差; μ的計算方法如下:
其中,NS是所有聲音事件間的相關值Sxy的數量; σ的計算方法如下:
【文檔編號】G10L25/48GK104167211SQ201410391254
【公開日】2014年11月26日 申請日期:2014年8月8日 優先權日:2014年8月8日
【發明者】路通, 翁煬冰, 王公友 申請人:南京大學