專利名稱:區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)分類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻數(shù)據(jù)檢索、分類和處理技術(shù),特別是一種區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)分類方法。
背景技術(shù):
不同的區(qū)域、地點(diǎn)、年份、季節(jié)、氣候以及一天中不同的時間,在生態(tài)環(huán)境中能產(chǎn)生不同的聲音。這些聲音在一定程度上反映出自然界中各種生物生存及活動的情況,同時也與人類的生活環(huán)境密切相關(guān)。研究區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)的分類技術(shù),對于生態(tài)環(huán)境音頻數(shù)據(jù)的辨識、索引和檢索方法及關(guān)鍵技術(shù),確定區(qū)域生態(tài)環(huán)境音頻與地域、地點(diǎn)、季節(jié)、氣候條件及時間的關(guān)系,分析和研究生態(tài)環(huán)境、預(yù)測生態(tài)環(huán)境的變化、了解各種生物生存及活動規(guī)律具有重要意義。
近年來,對于生態(tài)及生活環(huán)境音頻數(shù)據(jù)的分類、辨識方面的研究及應(yīng)用包括利用對環(huán)境機(jī)械聲音的獨(dú)立分量分析,用階乘H M M(ICA-FHMM)進(jìn)行機(jī)械故障辨識(Li,He,Chu,Han,& Hao,2006);從聲音環(huán)境中,推斷出生態(tài)環(huán)境中可能存在的活動類型及活動的參與者(Smith,Ma,& Ryan,2006);利用集成的自適應(yīng)學(xué)習(xí)機(jī)制和分等級分類模型的HMM,設(shè)計(jì)聲音環(huán)境分類器(Ma,Milner,& Smith,2006);用動物聲音的Mel頻率倒譜系數(shù)和線性判別式分析來自動辨識動物的類型(Lee,Chou,Han,& Huang,2006);采用似然模型,把低級音頻特征和運(yùn)動特征與預(yù)定義的音頻類型和運(yùn)動類型,通過HMM模型檢索棒球比賽的精彩場面(Cheng,& Hsu,2006);用HMM和MFCC進(jìn)行大象的發(fā)音分類和發(fā)聲者辨識(Clemins,Johnson,Leong,&Savage,2005);用HMM和MFCC進(jìn)行浴室聲音事件的分類,實(shí)現(xiàn)自動浴室活動監(jiān)控系統(tǒng)(Chen,Kam,Zhang,Liu,& Shue,2005);把ICA時間擴(kuò)展的通用音頻模型的特征抽取方法,用于廚房環(huán)境中的相關(guān)聲音分類(Kraft,Malkin,Schaaf,& Waibel,2005);用獨(dú)立成分分析的MFCC和基于幀的SVM,來實(shí)現(xiàn)家庭自動化中家庭環(huán)境聲音的辨識(Wang,Lee,Wang,& Lin,2008);通過各種環(huán)境音頻的傅立葉變換和小波變換來分類環(huán)境音頻數(shù)據(jù)(McLachlan,Kumar,& Becker,2006)。這些研究從不同側(cè)面揭示了生態(tài)及環(huán)境音頻數(shù)據(jù)與動物、人類生活及環(huán)境的關(guān)系,同時,也預(yù)示著這些相關(guān)技術(shù)在現(xiàn)實(shí)中的潛在應(yīng)用。
然而,這些研究都未涉及區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)檢索與分類的內(nèi)容。
發(fā)明內(nèi)容
本發(fā)明的目的在于為區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)的分析、索引、搜索和檢索提供一種高效的分類方法。
本發(fā)明的目的是通過如下的技術(shù)方案實(shí)現(xiàn)的這種區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)分類方法,該方法包括以下步驟 (1)對待定類型的生態(tài)環(huán)境音頻信號進(jìn)行有效分段,并計(jì)算各有效分段的分段長度,通過如下步驟實(shí)現(xiàn) a)對音頻信號進(jìn)行分幀處理; b)計(jì)算每一幀的平均幅度Mi和整個音頻信號的平均幅度M; c)取幀平均幅度Mi連續(xù)5幀或5幀以上高于0.67*M的一段音頻信號作為一有效分段,從而將音頻信號分成若干有效分段; d)記錄每個有效分段中幀的數(shù)目。
(2)計(jì)算各有效分段的差分Mel頻率倒譜系數(shù)矩陣d-mfccm,以從中得到各有效分段的分類參數(shù),其方法是 計(jì)算各有效分段內(nèi)每個幀的Mel頻率倒譜系數(shù)Mfcc,并以每個幀的Mfcc為行建立各有效分段的矩陣Mfccm,對矩陣進(jìn)行一階差分得到差分Mel頻率倒譜系數(shù)矩陣d-mfccm,根據(jù)d-mfccm中各行與對應(yīng)的有效分段的短時平均幅度Mi的相似程度,選出一行作為分類參數(shù)。
(3)計(jì)算各有效分段的最大諧波分量頻率成分,并建立各有效分段的分段長度與最大諧波分量頻率成分的分布關(guān)系; 計(jì)算各有效分段的最大諧波分量頻率成分的方法如下 a)計(jì)算有效分段中每一幀音頻信號的最大諧波分量的頻率成分; b)從所述幀頻率成分的最大諧波分量中取極大值,取與極大值對應(yīng)的頻率成分作為該有效分段最大諧波分量的頻率成分。
(4)分別根據(jù)各有效分段的分段長度、最大諧波分量頻率成分的上、下限確定各有效分段對應(yīng)的分類搜索范圍,并分別從數(shù)據(jù)庫中搜索落入各分類搜索范圍內(nèi)的所有已知類型音頻信號的有效分段對應(yīng)的數(shù)據(jù)點(diǎn); (5)將各有效分段的分類參數(shù)與落入其分類搜索范圍內(nèi)的所有數(shù)據(jù)點(diǎn)的分類參數(shù)分別進(jìn)行比較,根據(jù)接近程度確定各有效分段相應(yīng)的可能類型; (6)根據(jù)各有效分段的可能類型,最終確定待分類的音頻信號的類型。
本發(fā)明的顯著特點(diǎn)是為區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)的分析、索引、搜索和檢索提供了一種高效的分類方法,不僅提高了分類效率,而且對音頻信號分類的準(zhǔn)確性高,具有很強(qiáng)的實(shí)用性和廣闊的應(yīng)用前景。
圖1是本發(fā)明實(shí)施例一個麻雀聲音信號的分段過程圖; 圖2是本發(fā)明實(shí)施例由生態(tài)音頻信號產(chǎn)生d-mfccm分類參數(shù)的過程示意圖; 圖3是本發(fā)明實(shí)施例的生態(tài)音頻信號有效分段的最大諧波分量頻率與d-mfccm的對應(yīng)圖; 圖4是本發(fā)明實(shí)施例各種生態(tài)環(huán)境音頻信號有效分段長度及其最大諧波分量的頻率成分分布圖; 圖5是本發(fā)明實(shí)施例由一個麻雀聲音的各個有效分段長度及其最大諧波分量的頻率成分確定的查詢范圍圖; 圖6是本發(fā)明實(shí)施例一個麻雀聲音信號的每個有效分段需要進(jìn)行d-mfccm比較的范圍圖; 圖7是本發(fā)明實(shí)施例待分類區(qū)域生態(tài)音頻段的d-mfccm需要與已知類型的音頻段的d-mfccm比較內(nèi)容的示意圖; 圖8是本發(fā)明實(shí)施例的流程圖; 圖9是本發(fā)明實(shí)施例Mel頻率與實(shí)際頻率的關(guān)系圖; 圖10是本發(fā)明實(shí)施例Mel三角形濾波器組的示意圖。
具體實(shí)施例方式 本發(fā)明的區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)分類方法,該方法包括以下步驟 (1)對待定類型的生態(tài)環(huán)境音頻信號進(jìn)行有效分段,并計(jì)算各有效分段的分段長度,通過如下步驟實(shí)現(xiàn) a)對音頻信號進(jìn)行分幀處理; b)計(jì)算每一幀的平均幅度Mi和整個音頻信號的平均幅度M; c)取幀平均幅度Mi連續(xù)5幀或5幀以上高于0.67*M的一段音頻信號作為一有效分段,從而將音頻信號分成若干有效分段; d)記錄每個有效分段中幀的數(shù)目。
(2)計(jì)算各有效分段的差分Mel頻率倒譜系數(shù)矩陣d-mfccm,以從中得到各有效分段的分類參數(shù),其方法是 計(jì)算各有效分段內(nèi)每個幀的Mel頻率倒譜系數(shù)Mfcc,并以每個幀的Mfcc為行建立各有效分段的矩陣Mfccm,對矩陣進(jìn)行一階差分得到差分Mel頻率倒譜系數(shù)矩陣d-mfccm,根據(jù)d-mfccm中各行與對應(yīng)的有效分段的短時平均幅度Mi的相似程度,選出一行作為分類參數(shù)。
(3)計(jì)算各有效分段的最大諧波分量頻率成分,并建立各有效分段的分段長度與最大諧波分量頻率成分的分布關(guān)系; 計(jì)算各有效分段的最大諧波分量頻率成分的方法如下 a)計(jì)算有效分段中每一幀音頻信號的最大諧波分量的頻率成分; b)從所述幀頻率成分的最大諧波分量中取極大值,取與極大值對應(yīng)的頻率成分作為該有效分段最大諧波分量的頻率成分。
(4)分別根據(jù)各有效分段的分段長度、最大諧波分量頻率成分的上、下限確定各有效分段對應(yīng)的分類搜索范圍,并分別從數(shù)據(jù)庫中搜索落入各分類搜索范圍內(nèi)的所有已知類型音頻信號的有效分段對應(yīng)的數(shù)據(jù)點(diǎn); (5)將各有效分段的分類參數(shù)與落入其分類搜索范圍內(nèi)的所有數(shù)據(jù)點(diǎn)的分類參數(shù)分別進(jìn)行比較,根據(jù)接近程度確定各有效分段相應(yīng)的可能類型; (6)根據(jù)各有效分段的可能類型,最終確定待分類的音頻信號的類型。
下面通過具體實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明。
1、對音頻時域信號進(jìn)行有效分段、計(jì)算每個分段長度方法的說明 圖1是一段麻雀聲音信號的分段示意圖。其中(a)為音頻時域信號,它是一段來自區(qū)域生態(tài)環(huán)境中麻雀的音頻信號;(b)為經(jīng)過加窗分幀、平滑處理后的短時平均幅度信號,幀長N=100;(c)為從原始聲音中獲得的有效分段數(shù)據(jù)。如圖1(c)所示,5與箭頭所指的信號就表示該有效分段的長度為5個幀。圖1(c)中取這5個幀為有效分段的理由是與它們對應(yīng)的連續(xù)5個幀的平均幅度Mi高于整個信號平均幅度的0.67倍,即連續(xù)5個Mi>0.67*M。
2、d-mfccm與分類參數(shù)的產(chǎn)生過程說明 圖2是以圖1(c)中第3段有效分段為例,把長度為20幀的該段音頻信號轉(zhuǎn)換生成分類參數(shù)的過程。其中,圖2(a)是圖1(c)中音頻信號分段的第3分段音頻時域信號,圖2(b)是該分段的短時平均幅度Mi。首先,把該分段音頻信號轉(zhuǎn)換成Mel頻率倒譜系數(shù),即Mfcc。如同2(c)所示,幀長為100的20幀音頻信號,可以生成20個長度為7的Mfcc。如果用矩陣mfccm來表示這些系數(shù),那么,可以表示成mfccm(r1,c1),其中1≤r1≤20,1≤c1≤7。為了便于檢索,對mfccm進(jìn)行轉(zhuǎn)置,生成mfccm(c1,r1),其中1≤c1≤7,1≤r1≤20,如圖2(d)所示。然后,再把mfccm轉(zhuǎn)換成各個d_mfccm,如圖2(e)所示。最后,根據(jù)d_mfccm中各行與相應(yīng)音頻有效分段的圖2(b)所示的短時平均幅度Mi的相似程度,選出一行作為分類參數(shù),如圖2(f)所示。這個分類參數(shù)的數(shù)據(jù)量只有相應(yīng)的音頻信號有效分段的1/1000,它對于生態(tài)環(huán)境音頻信號的快速與有效分類起著重要的作用。
3、計(jì)算各段最大諧波分量頻率成分并生成頻率成分與各段長度分布的過程說明 圖1(c)所示的音頻信號各有效分段的長度與各有效分段的最大諧波分量的頻率成分如圖3(a)。以圖3(a)第1段為例,該段共包含5幀音頻信號,其中各幀的最大諧波分量的頻率成分為km1=1301、km2=1295、km3=1256、km4=1212和km5=1157,與這些頻率成分對應(yīng)的幅度平方分別為X[km1]×X[km1]*=3.0651、X[km2]×X[km2]*=4.8103、X[km3]×X[km3]*=1.3916、X[km4]×X[km4]*=5.3828和X[km5]×X[km5]*=1.6788,其中X[km4]×X[km4]*=5.3828最大,因此,這5個頻率成分中的極大諧波分量的頻率成分kM=1212。因此,該有效分段的最大諧波分量的頻率成分為1212。圖3(b)則是與該音頻信號對應(yīng)的各段的分類參數(shù);這些分類參數(shù)將與相應(yīng)的音頻信號有效分段的長度、最大諧波分量的頻率成分一起作為生態(tài)音頻信號分類的參數(shù)。
本實(shí)施例采用9類共107個區(qū)域生態(tài)音頻數(shù)據(jù)。其中包括24個不同麻雀聲音信號、30個不同的青蛙聲音信號、12個不同的蟬聲音信號、5個不同的蟋蟀t聲音信號、6個不同的老鼠聲音信號、9個不同的閃電聲音信號、9個不同的水流聲音信號、6個不同的下雨聲音信號和6個不同的刮風(fēng)聲音信號。為了便于分析和說明,如果以有效分段的長度為縱坐標(biāo)、以最大諧波分量的頻率成分為橫坐標(biāo),可以得到如圖4所示的區(qū)域環(huán)境中各種音頻數(shù)據(jù)有效分段長度及其最大諧波分量的頻率成分分布圖。
4、確定分類搜索范圍的說明 以圖1(a)的麻雀聲音信號為例,它的9個有效分段長度及其最大諧波分量頻率分布情況,如圖5中的
部分所示。為了確定每個
可能的音頻類型,只把每個
與其周圍局部范圍內(nèi)的分段進(jìn)行比較。因此,也就是根據(jù)每個
的長度和最大諧波分量的頻率成分來確定它的比較范圍。其中,每個
可能的查詢比較的范圍如圖5中的方框所示。
為了便于分析與了解與每個
對應(yīng)的查詢范圍,我們按圖1(c)中音頻信號的9個有效分段順序,把圖5中9個方框進(jìn)行放大,并重畫成如圖6所示的分類搜索比較的內(nèi)容及分布。
在圖1(c)中,第1個最大諧波分量頻率成分和有效分段的長度為(1212,5),確定的查詢范圍為最大諧波分量頻率成分下限xmin0.95*1212=1151.4,上限xmax1.05*1212=1272.6;有效分段長度下限ymin0.67*5=3.35,上限ymax1.33*5=6.65。對這些邊界值進(jìn)行向下取整,得到查詢搜索的范圍為(x,y)|1151≤x≤1272,3≤y≤6,如圖6(a)所示。即為了確定這段音頻信號所屬的局域生態(tài)環(huán)境音頻數(shù)據(jù)的類型,只需要把它與有效長度在(3,6)、最大諧波分量頻率在(1151,1272)范圍內(nèi)的相應(yīng)音頻分段進(jìn)行比較。其所需要的比較的具體音頻有效分段如圖6(a)所示。其中具體包括第5個麻雀聲音信號的第3段、第7段和第9段;第6個麻雀音頻信號的第16段;第13個麻雀音頻信號的第2段和第4段;第23個麻雀音頻信號的第21段;第24個麻雀音頻信號的第30段。為了簡單起見,我們把它表示成 麻雀-(5,3),(5,7),(5,9),(6,16),(13,2),(13,4),(23,21),(24,30);同理,需要搜索的還包括 青蛙-(18,3),(18,4),(18,17),(21,2),(21,4); 蟬-蟬-(6,4),(6,6); 老鼠-(3,2),(3,9),(3,11),(4,5);老鼠 水流-(2,6),(9,28); 需要對5類共21個音頻段進(jìn)行搜索。
同樣,在圖1(c)中,第2個最大諧波分量頻率和有效分段的長度為(993,17),需要查詢搜索的范圍為(x,y)|943≤x≤1042,12≤y≤22,如圖6(b)所示。具體需要搜索的音頻段包括麻雀-(11,3),(14,11);青蛙-(29,5),(30,48);老鼠·(3,6),水流-(4,2),(4,10);需要對4類共7個音頻段進(jìn)行分類搜索。
再進(jìn)一步簡化之后,在圖1(c)中,第3—9個有效分段的最大諧波分量頻率成分及其長度,需要分類搜索的范圍分別為 (1403,20),(x,y)|1333≤x≤1473,14≤y≤26,如圖6(c)所示; (1006,38),(x,y)|956≤x≤1056,26≤y≤50,如圖6(d)所示; (939,7),(x,y)|893≤x≤985,5≤y≤9,如圖6(e)所示; (1239,16),(x,y)|1177≤x≤1300,11≤y≤21,如圖6(f)所示; (1365,13),(x,y)|1297≤x≤1433,9≤y≤17,如圖6(g)所示; (1163,5),(x,y)|1105≤x≤1221,3≤y≤6,如圖6(h)所示; (1053,21),(x,y)|1000≤x≤1105,11≤y≤21,如圖6(i)所示。
具體需要搜索的音頻段包括 第3段,麻雀-(1,1),(1,3),(1,8),(1,11),(2,3),(9,1),(9,2),(9,3),(11,9),(12,1),(17,3),(17,11),(19,8),(21,5),(24,16),青蛙-(18,27)。需要對2類共15個音頻段進(jìn)行分類搜索。
第4段,麻雀-(24,2),(24,15);青蛙-(9,1),(9,2),(9,5),(9,8),(10,1),(29,6),(29,7);Lightning-(1,1),(8,1),(9,1)。需要對3類共12個音頻段進(jìn)行分類搜索。
第5段,麻雀-(2,1),(24,5),(24,18);青蛙-(25,2);老鼠-(3,5);水流-(2,4),(2,7),(6,24),(9,11),(9,22);下雨-(1,3),(1,7)。需要對5類共12個音頻段進(jìn)行分類搜索。
第6段,麻雀-(1,2),(2,6),(2,7),(5,7),(10,2),(10,4),(11,7),(11,11),(12,3),(12,4);青蛙-(18,16),(18,24),(21,1),(28,3),(28,4),(28,6),(28,8),(28,13),(28,14);老鼠-(3,4);水流-(2,2);下雨-(6,2)(6,12)。需要對5類共23個音頻段進(jìn)行分類搜索。
第7段,麻雀-(1,1),(5,4),(7,3),(7,5),(7,7),(7,9),(7,11),(7,13),(7,15),(11,2),(17,1),(17,5),(19,2),(19,3),(19,8),(21,5),(24,3),(24,16),(24,32);青蛙-(18,23),(27,4),(28,2),(28,10),(28,12);蟬-(9,1)。需要對3類共25個音頻段進(jìn)行分類搜索。
第8段,麻雀-(5,3),(6,16),(16,5),(18,5),(18,8);青蛙-(18,3),(18,15),(18,17),(21,4);老鼠-(3,2)(3,9),(3,11),(6,5);水流-(2,6);下雨-(1,24),(4,4)。需要對5類共16個音頻段進(jìn)行分類搜索。
第9段,麻雀-(11,3),(13,5),(13,6),(14,11);青蛙-(29,5),(30,33);老鼠-(3,1)(3,8),(4,1);水流-(4,10);下雨-(1,23)。需要對5類共11個音頻段進(jìn)行分類搜索。
5、基于一階Mel頻率倒譜系數(shù)矩陣的分類的說明 以圖1(a)為待分類的生態(tài)環(huán)境音頻信號。并以該音頻信號有效分段的第9段為例,來進(jìn)行分類。假設(shè),以圖3(a)的第9段為待定類型的音頻段。那么,只需把該段的分類參數(shù)與圖6(i)中其它已知音頻段的分類參數(shù)進(jìn)行比較,把最接近的結(jié)果作為該待定類型的可能類型。具體的過程如圖7所示,即要確定query段的類型,只需要把query段的分類參數(shù)與4個麻雀聲音的有效分段、2個青蛙聲音的有效分段、3個老鼠聲音的有效分段、1個水流聲音的有效分段和1個下雨聲音的有效分段的d-mfccm進(jìn)行比較,就能判斷出query段的可能類型。在本例的比較中,圖7(c)與待定類型query距離最近,因此,我們認(rèn)為待定的音頻數(shù)據(jù)類型與圖7(c)可能是同一類型,即待定類型初步定為是來自麻雀的聲音。
同樣方法,把圖3(a)中的各段的d-mfccm與圖6中相應(yīng)的其它已知各音頻段的d-mfccm進(jìn)行比較,可以得出各段相應(yīng)的可能類型。根據(jù)這7個段的可能類型,最后確定圖1(a)可能的生態(tài)環(huán)境音頻信號的類型。在本例中,圖3(a)各有效分段的前3個可能生態(tài)環(huán)境音頻信號類型、可能的結(jié)果排序,及最后結(jié)果如表1所示。
表1 待定音頻信號各段可能的類型、排序及結(jié)果
計(jì)算過程涉及的算法原理 1、音頻信號的短時平均幅度分析與分段 設(shè)區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)時域信號為x(n)、共可以分成I個幀,加窗分幀處理后得到的第i幀音頻信號xi(m)滿足下式 xi(n)=x(i*N+n)w(n), 0≤n≤N-1 其中,i=0,1,2,...,I-1;N為幀長。
設(shè)第i幀生態(tài)音頻信號xn(m)的短時平均幅度函數(shù)為Mi,整個音頻信號的平均幅度為M,則它們的計(jì)算公式如下 它們是區(qū)域生態(tài)環(huán)境音頻信號能量大小的表征。本專利把Mi和M作為區(qū)域生態(tài)音頻信號有效分段的判斷依據(jù)。
2、Mfcc與d-mfccm的計(jì)算 Mfcc(Mel-Frequency Cepstral Coefficients)的分析著眼于人類的聽覺特性。心理生理學(xué)研究表明,人類所聽到的聲音的高低與聲音的頻率并不成線性正比關(guān)系。用Mel頻率尺度則更符合人耳的聽覺特性。所謂Mel頻率尺度,如圖9所示,它的值大約對應(yīng)于實(shí)際頻率的對數(shù)分布關(guān)系。Mel頻率與實(shí)際頻率的具體關(guān)系可用下式表示 Mel(f)=2595log10(1+f/700) 這里,實(shí)際頻率f的單位是Hz。
根據(jù)Zwicker的工作,如果在聲音的中心頻率附近的某個帶寬內(nèi),那么音調(diào)不能單獨(dú)辨別,我們把這個帶寬稱作臨界帶寬。臨界頻率帶寬隨著頻率的變化而變化,并與Mel頻率的增長一致。在1000Hz以下,大致成線性分布,帶寬為100Hz左右;在1000Hz以上呈現(xiàn)對數(shù)增長。頻率f周圍的臨界帶寬可以通過下式近似計(jì)算 BWcritical=25+75[1+1.4(f/1000)2]0.69 類似于臨界頻帶的劃分,可以將音頻信號頻率劃分成一系列三角形的濾波器序列,即Mel濾波器組,如圖10所示。
計(jì)算Mfcc及Mfccm的步驟如下 1)將音頻信號劃分成一系列連續(xù)的幀,每幀包含N=128個樣本,相鄰幀有28個樣本重疊。并進(jìn)行M=4096的DFT,如對于一個具有I個幀的音頻信號有效分段,其DFT如下 m=0,1,…,M-1,i=1,2,...,I 這里,xi(n)表示音頻信號有效分段的第i個幀, xi(n)=x(n+mi)w(n) w(n)采用漢明窗
2)取臨界帶中的前19個,即L=19,頻率范圍0到大約4000Hz。這些頻帶在mel軸上均勻分布,約等于112mel。每個頻帶的形狀加權(quán)表示。這里采用如圖10所示的不重疊的三角形頻帶,其下界、中心和上界頻率分別位于 o(i)=(10mlo(i)/2595-1)×700, c(i)=(10mlc(i)/2595-1)×700, h(i)=(10mlh(i)/2595-1)×700, 其中,mlo(i)=(i-1)×ml,mlc(i)=(2×i-1)×ml/2,mlh(i)=i×ml。
3)在每個臨界頻帶內(nèi),求每一個三角形濾波器的輸出 l=1,2,…,L 4)對所有濾波器輸出做對數(shù)運(yùn)算,再進(jìn)一步做離散余弦變換(DCT)即可得到一組Mfcc 其中,j=0,1,…,R,1≤R≤L。這是由音頻數(shù)據(jù)文件的一幀數(shù)據(jù)所產(chǎn)生的Mfcc。
本專利把一個音頻數(shù)據(jù)文件的每個幀的Mfcc,作為矩陣的行,按順序組成的矩陣就是Mfccm,它可以表示為 其中,i=1,2,…,I,j=0,1,…,R,1≤R≤L,I為一個音頻數(shù)據(jù)文件分幀的個數(shù),R為一幀音頻數(shù)據(jù)MFCC的個數(shù),L為臨界頻帶的數(shù)量。
Mfcc及其Mfccm主要反映了音頻數(shù)據(jù)的靜態(tài)特性。與這種靜態(tài)特性相對應(yīng)的聲音的動態(tài)特性,可以通過對Mfccm的一階和二階差分得到,本專利主要利用這種動態(tài)特性實(shí)現(xiàn)環(huán)境音頻數(shù)據(jù)的檢索。其中一階差分d-mfccm的計(jì)算采用下面的公式 這里k為常數(shù),通常取2。
3、分段信號的最大諧波分量的頻率成分 生態(tài)環(huán)境音頻信號與其它周期序列一樣,可以表示成基波和一系列不同頻率成分的諧波的線性加權(quán)和,即傅立葉級數(shù)。級數(shù)中每一項(xiàng)的加權(quán)系數(shù)稱為傅立葉系數(shù)。某項(xiàng)加權(quán)系數(shù)的大小,與該頻率成分的諧波分量的大小相關(guān)。
對于有限長序列,常采用離散傅立葉變換(DFT)。對于N個樣本序列x[n]的DFT定義為 DFT序列X[k]的第k個值相對應(yīng)的歸一化頻率為2πk/N弧度。同時,這里的X[k]表示當(dāng)頻率成分為k時的諧波加權(quán)系數(shù)。例如,當(dāng)N=32時,序列X[k]在序號為k=11的地方所代表的歸一化角頻率為ω=11π/16。X[11]表示當(dāng)頻率成分為11時的諧波加權(quán)系數(shù)。
在實(shí)際應(yīng)用中,為了應(yīng)用DFT的快速算法,常以頻率間隔ωk=2πk/M,0≤k≤M-1來估計(jì)X(ejw),其中,M是2的整數(shù)冪,M>>N 通過對x[n]增加M-N個零值樣本可以得到新序列xe[n] 在式(2)中使用xe[n],得到 它是M個樣本的序列xe[n]經(jīng)過DFT產(chǎn)生的序列Xe[k],0≤k≤M-1。
在實(shí)施例中,取音頻信號的連續(xù)幀序列{x[n]}的長度N=128,即{x[n]}|n=1,2,...,N,相鄰幀之間有28個樣本的重疊,取M=4096對其進(jìn)行DFT并生成長度為4096的DFT序列{Xe[k]},即{Xe[k]}|k=1,2,...,M。這樣,對于每一幀序列xe[n],有一個相對應(yīng)的Xe[k]序列,即4096個不同頻率成分的諧波加權(quán)系數(shù)相對應(yīng),而其中的最大值對應(yīng)的k,0≤k≤M-1就是我們所要找的該幀的最大諧波分量的頻率成分,這里,用km表示。如果每個音頻信號的有效分段由I個幀組成,那么,每個有效分段有I個km,即I個幀有I個最大值的樣本。我們?nèi)個最大值樣本中的極大值樣本對應(yīng)的km作為該有效分段的最大諧波頻率成分,用kM表示。求kM時的DFT部分的計(jì)算,可以在求MFCC時同時進(jìn)行。
以上是本發(fā)明的較佳實(shí)施例,凡依本發(fā)明技術(shù)方案所作的改變,所產(chǎn)生的功能作用未超出本發(fā)明技術(shù)方案的范圍時,均屬于本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)分類方法,其特征在于該方法包括以下步驟
(1)對待定類型的生態(tài)環(huán)境音頻信號進(jìn)行有效分段,并計(jì)算各有效分段的分段長度;
(2)計(jì)算各有效分段的差分Mel頻率倒譜系數(shù)矩陣d-mfccm,以從中得到各有效分段的分類參數(shù);
(3)計(jì)算各有效分段的最大諧波分量頻率成分,并建立各有效分段的分段長度與最大諧波分量頻率成分的分布關(guān)系;
(4)分別根據(jù)各有效分段的分段長度、最大諧波分量頻率成分的上、下限確定各有效分段對應(yīng)的分類搜索范圍,并分別從數(shù)據(jù)庫中搜索落入各分類搜索范圍內(nèi)的所有已知類型音頻信號的有效分段對應(yīng)的數(shù)據(jù)點(diǎn);
(5)將各有效分段的分類參數(shù)與落入其分類搜索范圍內(nèi)的所有數(shù)據(jù)點(diǎn)的分類參數(shù)分別進(jìn)行比較,根據(jù)接近程度確定各有效分段相應(yīng)的可能類型;
(6)根據(jù)各有效分段的可能類型,最終確定待分類的音頻信號的類型。
2、根據(jù)權(quán)利要求1所述的區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)分類方法,其特征在于步驟(1)通過以下步驟進(jìn)行音頻信號的有效分段及分段長度的計(jì)算
(a)對音頻信號進(jìn)行分幀處理;
(b)計(jì)算每一幀的平均幅度Mi和整個音頻信號的平均幅度M;
(c)取幀平均幅度Mi連續(xù)n幀或n幀以上高于q*M的一段音頻信號作為一有效分段,從而將音頻信號分成若干有效分段;
(d)記錄每個有效分段中幀的數(shù)目。
3、根據(jù)權(quán)利要求2所述的區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)分類方法,其特征在于連續(xù)幀數(shù)n的最佳取值是5,系數(shù)q的最佳取值是0.67。
4、根據(jù)權(quán)利要求1所述的區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)分類方法,其特征在于步驟(2)通過以下方法計(jì)算差分Mel頻率倒譜系數(shù)矩陣d-mfccm并得到分類參數(shù)
計(jì)算各有效分段內(nèi)每個幀的Mel頻率倒譜系數(shù)Mfcc,并以每個幀的Mfcc為行建立各有效分段的矩陣Mfccm,對矩陣進(jìn)行一階差分得到差分Mel頻率倒譜系數(shù)矩陣d-mfccm,根據(jù)d-mfccm中各行與對應(yīng)的有效分段的短時平均幅度Mi的相似程度,選出一行作為分類參數(shù)。
5、根據(jù)權(quán)利要求1所述的區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)分類方法,其特征在于步驟(3)按以下步驟計(jì)算各有效分段的最大諧波分量頻率成分
(a)計(jì)算有效分段中每一幀音頻信號的最大諧波分量的頻率成分;
(b)從所述幀頻率成分的最大諧波分量中取極大值,取與極大值對應(yīng)的頻率成分作為該有效分段最大諧波分量的頻率成分。
全文摘要
本發(fā)明涉及音頻數(shù)據(jù)檢索、分類和處理技術(shù),為區(qū)域生態(tài)環(huán)境音頻數(shù)據(jù)的分析、索引、搜索和檢索提供一種高效的分類方法,包括以下步驟1)對音頻信號進(jìn)行有效分段并計(jì)算分段長度;2)計(jì)算各有效分段的差分Mel頻率倒譜系數(shù)矩陣;3)計(jì)算各有效分段的最大諧波分量頻率成分,并建立分段長度與最大諧波分量頻率成分的分布關(guān)系;4)分別確定各有效分段的分類搜索范圍,并分別從數(shù)據(jù)庫中搜索落入各分類搜索范圍內(nèi)的所有已知類型音頻信號的有效分段對應(yīng)的數(shù)據(jù)點(diǎn);5)將各有效分段的分類參數(shù)與落入其分類搜索范圍內(nèi)的所有數(shù)據(jù)點(diǎn)的分類參數(shù)分別進(jìn)行比較,根據(jù)接近程度確定各有效分段相應(yīng)的可能類型;6)根據(jù)各有效分段的可能類型,最終確定待分類的音頻信號的類型。
文檔編號G06F17/30GK101393553SQ200810071838
公開日2009年3月25日 申請日期2008年9月24日 優(yōu)先權(quán)日2008年9月24日
發(fā)明者應(yīng) 李 申請人:福州大學(xué)