本發明屬于聲學處理領域,特別涉及一種基于雙耳線索的空間音源定位方法及系統。
背景技術:
在安防監控的應用中,要隨時捕抓突發事件的發生,而只有及時準確的獲得周圍的有用信息,做出準確的判斷,才能采取快速有效的應急措施。
傳統安防應用中主要是依賴監控影像內容來判斷,這需要有專門的人員對各個監控點進行查看,而且無法察覺到在監控范圍以外發生的突發事件。理想情況是,在無人職守、專業人員閉目養神、監控盲點等的情況下,能夠自動實現對突發事件的預警,相關監控人員可快速定位事件發生方位、初步判斷事件發生的主體等信息,再通過監控影像進行查看驗證,從而做到盡量不遺漏任何發生的突發事件。同時在應急措施執行方面,對存在的危險狀況的快速傳遞也不可或缺。如在事故發生現場,應急措施首先通過廣播等方式快速傳遞,以免在相關處理人員到達現場前發生更大的無謂損失。通過及時判斷,才能及時采取應急措施,但是目前尚沒有相關技術方案出現。
技術實現要素:
本發明針對現有技術及設備的不足,提供了一種基于雙耳線索的空間音源定位方法及系統。
本發明的技術方案提供一種基于雙耳線索的空間音源定位方法,包括以下步驟,
步驟1,通過兩個麥克風對空間聲音信號進行錄音,對錄制信號進行降噪處理,確定聲源類型;
步驟2,對降噪后的信號進行時頻變換和頻帶劃分處理,得到三個頻帶,分別為中低頻、中高頻和高頻;
步驟3,對三個頻帶分別提取雙耳線索參數,包括雙耳強度差、雙耳時間差以及雙耳相關性;
步驟4,對各頻帶分別確定參數組合,包括在中低頻選擇ITD和IC參數,在中高頻和高頻選擇ILD和IC參數;
步驟5,根據步驟4所選參數的參數值,確定各頻帶相應的聲源方位及大小,得到低頻、中高頻、高頻帶相應水平角α1、α2、α3,對應的聲源大小分別為β1、β2、β3;
步驟6,根據聲源類型和各頻帶的方位和大小估計原始聲源方位和大小,實現方式如下,
設估計得到的原始聲源水平角為α,對應的聲源大小分別為β,則聲源的最終方位和大小計算如下,
α=(α1N1+α2N2+α3N3)/3
β=(β1N1+β2N2+β3N3)/3
其中,權值N1、N2、N3計算方式如下,
設n1、n2、n3表示聲源在三個頻帶覆蓋的子頻帶個數,
其中,i=1、2、3。
而且,頻帶劃分處理方式為,1.5kHz以下部分為中低頻區,1.5~6kHz部分為中高頻,6kHz以上部分為高頻。
而且,步驟5中,通過參照預設的查找表進行查表,或者根據預設的函數關系計算,確定各頻帶相應的聲源方位及大小。
上述方法用于根據估計原始聲源方位和大小,控制安防攝像頭向聲源轉動,并根據聲源大小調整焦距。
本發明相應提出一種基于雙耳線索的空間音源定位系統,包括以下模塊,
第一模塊,用于通過兩個麥克風對空間聲音信號進行錄音,對錄制信號進行降噪處理,確定聲源類型;
第二模塊,用于對降噪后的信號進行時頻變換和頻帶劃分處理,得到三個頻帶,分別為中低頻、中高頻和高頻;
第三模塊,用于對三個頻帶分別提取雙耳線索參數,包括雙耳強度差、雙耳時間差以及雙耳相關性;
第四模塊,用于對各頻帶分別確定參數組合,包括在中低頻選擇ITD和IC參數,在中高頻和高頻選擇ILD和IC參數;
第五模塊,用于根據第四模塊所選參數的參數值,確定各頻帶相應的聲源方位及大小,得到低頻、中高頻、高頻帶相應水平角α1、α2、α3,對應的聲源大小分別為β1、β2、β3;
第六模塊,用于根據聲源類型和各頻帶的方位和大小估計原始聲源方位和大小,實現方式如下,
設估計得到的原始聲源水平角為α,對應的聲源大小分別為β,則聲源的最終方位和大小計算如下,
α=(α1N1+α2N2+α3N3)/3
β=(β1N1+β2N2+β3N3)/3
其中,權值N1、N2、N3計算方式如下,
設n1、n2、n3表示聲源在三個頻帶覆蓋的子頻帶個數,
其中,i=1、2、3。
而且,頻帶劃分處理方式為,1.5kHz以下部分為中低頻,1.5~6kHz部分為中高頻,6kHz以上部分為高頻。
而且,第五模塊中,通過參照預設的查找表進行查表,或者根據預設的函數關系計算,確定各頻帶相應的聲源方位及大小。
上述系統用于根據估計原始聲源方位和大小,控制安防攝像頭向聲源轉動,并根據聲源大小調整焦距。
采用本發明提供的三維空間音源定位技術方案,能實時獲取聲源在場景內的空間方位及其大小,為安防監控和機器人等領域在非可見區域提供可靠的發聲物體的定位技術方案,能夠預防風險,降低損失,具有重要的市場價值。
附圖說明
圖1為本發明的方法流程圖。
具體實施方式
以下結合附圖和實施例對本發明技術方案進行詳細說明。
本發明的實施例包含以下步驟:
步驟1,通過兩個麥克風對空間聲音信號進行錄音,對錄制信號進行降噪處理,確定聲源的類型;
先將錄制信號進行降噪處理,以消除錄制設備和環境中的本底噪聲。對錄制的信號進行聲源類型檢測,如靜音,則無發聲源,不用進行以下步驟;如有聲源發聲,則需檢測聲源類型,如人聲,槍聲,汽車聲等等,再進入以下步驟。各種聲音信號的頻率范圍已經有大量的統計結果,具體實施時,可以根據各種聲音信號的頻率范圍、能量變化趨勢等實現聲源類型檢測。
步驟2,對降噪后的信號進行時頻變換和頻帶劃分處理;
對降噪后的信號先進行時頻變換,再將音頻信號的頻譜進行頻帶劃分,本實施例中將頻帶劃分為三部分,1.5kHz以下部分的中低頻,1.5~6kHz部分的中高頻,6kHz以上部分的高頻。
現有技術的常規劃分方法是按照人感知特性劃分為24個子頻帶,具體劃分如下:
本發明是由于ILD在1.5kHz以上起主要作用,ITD在1.5kHz以下起主要作用,因此提出對這些子頻帶進行合并處理,優選方案為:第一個頻帶合并前十個子頻帶,第二個合并中間九個子頻帶,最后五個子頻帶作為一個頻帶。
步驟3,對各頻帶提取雙耳線索參數,包括雙耳強度差,雙耳時間差以及雙耳相關性;
對錄制信號的每個子帶進行雙耳線索提取。三個線索參數計算方法很多,優選地,本實施例采用如下方式計算:
(1)雙耳強度差ILD線索的提取
ILD定義為兩個麥克風錄制信號對應子帶的能量比。計算方法如式(1)所示:
其中,x1(n)和x2(n)分別表示兩個麥克風錄制信號的子帶信號,N為子帶信號長度。
(2)雙耳時間差ITD線索的提取
計算方法如式(2)所示:
其中,d則表示延遲采樣數。
(3)雙耳相關性IC線索的提取
計算方式如式(3)所示:
步驟4,確定各頻帶相應的參數組合;
由于ILD在1.5kHz以上起主要作用,ITD在1.5kHz以下起主要作用,因此在選擇參數的時候參照此規則,實施例根據相應頻帶劃分方式,在中低頻選擇ITD和IC參數,在中高頻和高頻選擇ILD和IC參數。當采用其他頻帶劃分方式時,也應參考此規則。
步驟5,根據參數值,參照預設的查找表進行查表,或者根據預設的函數關系計算,確定各頻帶相應聲源的方位及其大小,得到低頻、中高頻、高頻帶相應水平角α1、α2、α3,對應的聲源大小分別為β1、β2、β3;
得到ILD、ITD值之后,根據ILD、ILD與水平角的對應關系可以計算或者查找其相應的角度值。ILD、ITD與水平角的對應關系可通過實驗獲得查找表或者函數關系,從而通過查表或者計算得到聲源的水平角。得到IC之后,根據IC與聲源大小的對應關系可以計算或者查找聲源的大小。IC與聲源大小的對應關系可通過實驗獲得查找表或者函數關系,從而通過查表或者計算得到聲源的大小。在本步驟根據步驟4的選擇,利用步驟3的結果即可。
ILD、ILD與水平角的對應關系的規律是:ILD值在[0,15]之間變化水平方位角在[0,90°],大于15都是90°;ITD在[0,700ms]之間變化水平方位角在[0,90°],大于700ms也都是90°;且他們都是隨著參數值變大逐漸增大到90°。IC與聲源大小的對應關系規律是:IC在[0,1]之間變化聲源大小,是從完全獨立的兩個聲源到一個點。具體實施時,建議預先建立相應查找表,運行本方法流程時直接調用以提高效率。
步驟6,根據聲源類型和各頻帶的方位和大小估算聲源方位和大小。
由于不同的音源的頻率范圍不同,因此估算聲源在不同頻帶的比重不一樣:比如敲門聲的頻率范圍是500—1000Hz,主要集中在中低頻,因此在估算聲源方位時,中低頻頻帶的計算權值接近與1,其他兩個頻帶接近于0;門鈴聲頻率范圍是1000—2000Hz,主要集中在中高頻帶,部分在中低頻帶,因此在估算聲源方位時,中低頻頻帶的計算權值可取0.3,中高頻頻帶的計算權值可取0.7,另一個頻帶可取0;汽車喇叭聲的頻率范圍是1500—3000Hz,主要集中在中高頻,因此在估算聲源方位時,中高頻頻帶的計算權值接近于1,其他兩個頻帶接近于0。因此根據頻率范圍落在不同頻帶的重合區域不同,不同頻帶計算權值可取不同值,計算方式為:因為聲源的頻率可能包括在三個大頻帶中的幾個子頻帶,用n1、n2、n3表示聲源在三個頻帶覆蓋的子頻帶個數。則權值的計算公式為:
頻帶參數權值計算具體取值可在實際使用時由本領域技術人員自行微調,以便定位更加準確。
根據不同頻帶計算的聲源水平角和聲源大小乘以他們的權值,最后估算出聲源的最終方位和大小。
設中低頻、中高頻、高頻帶算出的水平角以及最后計算得到的聲源水平角分別為α1、α2、α3、α(取值介于0度到180度),對應的聲源大小分別為β1、β2、β3、β(取值介于0到1)。則聲源的最終方位和大小的計算公式為:
α=(α1N1+α2N2+α3N3)/3
β=(β1N1+β2N2+β3N3)/3
上述方法用于根據估計原始聲源方位和大小,控制安防攝像頭向聲源轉動,并根據聲源大小調整焦距。
本發明利用了音頻聲源空間線索,可以廣泛地應用于安防領域,包括快速定位和運動軌跡提取。例如:在一個安全級別較高的工廠里,通過雙耳線索,方位角線索等線索可以對整個三維空間聲源進行監控。對于快速定位應用,在相對安靜的空間突然加入沖激響應聲源信號時,可以指揮多個視頻監視器快速轉動指向定位空間,并從不同角度監視正在發生的情況。當視頻監視器存在死角時,可以充分應用雙耳線索來確定有無重要事情發生并記錄下來,還可以還原成三維空間的虛擬立體聲。當然,視頻是安防領域的重點,但空間聲源的定位可以作為其有力的補充。
具體實施時,本發明所提供方法可基于軟件技術實現自動運行流程,也可采用模塊化方式實現相應系統。本發明提供一種基于雙耳線索的空間音源定位系統,包括以下模塊,
第一模塊,用于通過兩個麥克風對空間聲音信號進行錄音,對錄制信號進行降噪處理,確定聲源類型;
第二模塊,用于對降噪后的信號進行時頻變換和頻帶劃分處理,得到三個頻帶,分別為中低頻、中高頻和高頻;
第三模塊,用于對三個頻帶分別提取雙耳線索參數,包括雙耳強度差、雙耳時間差以及雙耳相關性;
第四模塊,用于對各頻帶分別確定參數組合,包括在中低頻選擇ITD和IC參數,在中高頻和高頻選擇ILD和IC參數;
第五模塊,用于根據第四模塊所選參數的參數值,確定各頻帶相應的聲源方位及大小,得到低頻、中高頻、高頻帶相應水平角α1、α2、α3,對應的聲源大小分別為β1、β2、β3;
第六模塊,用于根據聲源類型和各頻帶的方位和大小估計原始聲源方位和大小,實現方式如下,
設估計得到的原始聲源水平角為α,對應的聲源大小分別為β,則聲源的最終方位和大小計算如下,
α=(α1N1+α2N2+α3N3)/3
β=(β1N1+β2N2+β3N3)/3
其中,權值N1、N2、N3計算方式如下,
設n1、n2、n3表示聲源在三個頻帶覆蓋的子頻帶個數,
其中,i=1、2、3。
各模塊具體實現可參見相應步驟,本發明不予贅述。
本文中所描述的具體實施例僅僅是對本發明精神作舉例說明。本發明所屬技術領域的技術人員可以對所描述的具體實施例做各種各樣的修改或補充或采用類似的方式替代,但并不會偏離本發明的精神或者超越所附權利要求書所定義的范圍。