基于聽覺仿生中耳蝸基底膜的聲源定位方法
【技術領域】
[0001] 本發明涉及語音識別領域,特別是一種具有人耳聽覺特性的聲源定位方法。
【背景技術】
[0002] 人與人之間最主要、最方便、最快捷的信息交換就是語言。語言中傳播信息的載體 就是聲音信號,其在生活中無處不在。聲音信號中的響度、頻譜以及音高等特征都可以反映 出聲音信號的方向、位置等特征。因此世界各國都在對聲音信號做了大量的研究,也付出了 巨大的努力。使得語音交互技術慢慢成熟與各方面理論日趨完善。在聲音信號的研究里,聲 源定位技術的研究是及其重要的一個方面。"雞尾酒會效應"充分展示了人耳聽覺系統的語 音分離與定位功能,并且讓研究人員對噪聲環境下聲源定位技術的研究產生了興趣。在聽 覺生理學、人工智能和語音識別技術的不斷發展下,研究學者也更加關注聲源定位技術。
[0003] 如今,聲源定位技術已經廣泛地運用到生活中了,比如:在智能機器人中,讓機器 人能更好對聲源進行實時定位,提高智能機器人的人-機交互和語音識別能力;在視頻電話 會議中攝像頭能夠很快的對準講話人的位置,其是通過麥克風接收聲音信號,利用這聲源 定位技術對信號進行分析和處理,獲得聲源方位,從而引導相應的攝像頭,使其指向當前說 話人的方向。
[0004] 伴隨著科技不斷地進步,研究者對于說話人的定位技術也不斷地更新著,主要可 以分為聲源定位技術、電磁波定位技術、激光定位技術和視頻定位技術。經過幾十年的發展 與研究,如今的視頻定位技術已經是非常成熟,其可以實現目標的定位與跟蹤等功能。然而 聲源定位技術卻更加吸引研究者的重視,這主要歸功于聲源定位技術有著其獨特的優勢。
[0005] 第一,隱蔽性。聲源定位技術僅僅利用麥克風來接收聲音信號,而不必向外界發送 任何東西,這一點使得聲源定位技術在不改變周圍環境下輕松地得到外界目標聲音的信 息,而自己本身的位置卻很難被外界所發現。正是聲源定位技術的隱蔽性,使得很多潛水艇 在作戰中不會輕易打開聲吶等設備,卻會使用聲源定位技術來追蹤目標的位置。
[0006] 第二,實用性。聲音是屬于聲波,聲波在傳輸中不會受到電磁場、光線強弱等的干 擾與限制。光線強度弱的情況下對于視頻定位技術影響很大,存在障礙物的環境下對電磁 波有一定的干擾。例如:在深海中由于光線很弱,視頻定位技術就不能使用,而激光與電磁 波在深海中能量的衰減很快導致穿透距離很短。這種情況下聲源定位技術卻不會受限制于 深海環境中,可以很好的實現目標聲源的定位。
[0007] 第三,易實現。聲源定位技術相比于其他幾種定位技術,在成本上與設備上的要求 就低很多了,使得聲源定位技術在生活中容易得到應用。
[0008] 因為聲源定位技術的發展有著巨大的潛力,所以研究人員不斷的深入研究、探索 聲源定位技術。聲源定位的實現條件也比較容易,使其能運用在各個領域,包括軍事方面、 語音分離方面等。目前,研究學者已經給出了多種聲源定位技術的系統。從最初的基于麥克 風陣列信號的聲源定位系統,到如今的基于過零點聲源定位系統與人耳聽覺系統的聲源定 位系統。經過幾十年的發展,基于麥克風陣列的聲源定位系統已經非常完善,但是它的結構 太大,需要的麥克風也非常的多,計算量又大又復雜。學者在大量的實驗結果中發現:基于 麥克風定位技術的準確度還是無法與人耳的準確度相媲美。最近幾年,越來越多的學者在 研究基于人耳聽覺的聲源定位技術,本文也將研究在噪聲環境下基于聽覺仿生的聲源定 位。
【發明內容】
[0009] 針對以下現有的不足,提出了一種提高定位精度、良好的抗噪性和魯棒性的基于 聽覺仿生中耳蝸基底膜的聲源定位方法。。本發明的技術方案如下:一種基于聽覺仿生中耳 蝸基底膜的聲源定位方法,其包括以下步驟:
[0010] 1)采用雙麥克風模擬人耳聽覺系統獲取含噪聲的語音信號;
[0011] 2)對步驟1)得到的含噪聲的語音信號,采用基于人耳聽覺中的耳蝸基底膜模型進 行頻率分解、通過上橄欖核模型進行語音特征提取、采用膜上的內毛細胞模型進行信號轉 換以及內毛細胞上的神經纖維模型進行細胞重合,去除噪聲信號;
[0012] 3)步驟2)去處噪聲信號的聲源信號通過能量的關系式求解出聲源位置,完成定 位。
[0013] 進一步的,所述步驟2)采用基于人耳聽覺中的耳蝸基底膜模型進行頻率分解具體 為;采用具有人耳聽覺特性的Ga_atone伽馬通濾波器組對語音信號進行頻率分解。
[0014] 進一步的,所述Gammatone伽馬通濾波器組頻率的選擇范圍從20Hz-4KHz分別對 左、右耳混疊信號按時間幀進行頻率分解;耳蝸基底膜模型將語音信號按照濾波器個數進 行傳遞。
[0015] 進一步的,所述步驟2)通過上橄欖核模型進行語音信息提取具體為;
[0016] 耳蝸基底膜處理語音信號后分成多個通道傳遞給上橄欖復合體進行語音信號的 ITD雙耳時間差和ILD雙耳水平差定位信息的提取,ITD的計算公式如下:
[0018] 式中:
[0019]
_左耳和右耳的語音信號的互相關,可由下式計算:
[0021] 式中:
[0022] --左耳和右耳語音信號互功率譜 [0023] ILD的計算公式如下:
[0026] 式中:
[0027] 4(、奴--左耳和右耳的ILD值;Ω i--子帶i的頻率范圍(ΙΚΗζ~4KHz)Wi (ω )--濾波器權重;s( ω )--聲源功率譜。
[0028] 進一步的,當信號為20Hz到1000Hz低頻語音信號時,重合神經元模型只有來自上 橄欖內側的語音特征輸入;1000Hz到4KHz語音信號時,上橄欖外側和上橄欖內側的語音特 征都輸入重合神經元;高于4KHz語音信號時,重合神經元只有上橄欖外側語音特征的輸入。
[0029] 進一步的,所述步驟2)采用膜上的內毛細胞模型進行信號轉換的步驟具體為;采 用內毛細胞模型對聲音信號進行半波整流,并且將基底膜上的機械振動信號轉變為相應的 生物電信號,并將生物電信號傳遞給聽覺神經纖維;
[0030] 進一步的,所述內毛細胞模型主要由5個標準量構成,其分別是:再生庫中神經遞 質的量、間隙中神經遞質的量、內毛細胞中神經遞質的量、細胞膜的滲透性以及神經細胞脈 沖輸出的概率。
[0031] 本發明的優點及有益效果如下:
[0032] 針對傳統聲源定位系統抗噪性能、差精準度低的問題,提出了基于聽覺仿生中耳 蝸基底膜的聲源定位方法,并詳細闡述了整個模型的構建過程,包括基于人耳聽覺特性的 耳蝸基底膜分頻濾波、基底膜上內毛細胞信號分離重合的轉換、時間差能量差計算聲源定 位的過程。基于聽覺仿生中耳蝸基底膜的聲源定位方法的定位精度遠高于傳統的聲源定位 的精度,而且基于聽覺仿生中耳蝸基底膜的聲源定位方法具有良好的抗噪性和魯棒性。
【附圖說明】
[0033] 圖1是本發明提供優選實施例基于聽覺仿生中耳蝸基底膜的聲源定位流程圖; [0034] 圖2為Gammatone濾波器組多頻率分解圖;
[0035]圖3為內毛細胞模型圖;
[0036]圖4神經發放模型的基本電路圖 [0037]圖5為聲源方位坐標系。
【具體實施方式】
[0038] 以下結合附圖,對本發明作進一步說明:
[0039] 如圖1所示,針對噪聲環境下傳統聲源定位不能得到高信噪比的聲源信號帶來的 定位精度不高的問題,本文結合人耳聽覺特性,提出一種基于人耳的聽覺選擇能力即"雞尾 酒會效應"的選擇噪聲中聲源的過程。含噪聲的聲源信號經過耳蝸基底膜模型進行頻譜分 析,在經過耳蝸基底膜上的內毛細胞模型進行信號轉換以及內毛細胞上的神經纖維進行細 胞重合,再通過上橄欖核模型進行語音信息提取,最終進行聲源的定位。
[0040] 如圖1所示,為本發明提出的基于聽覺仿生中耳蝸基底膜的聲源定位方法系統框 圖,基于聽覺仿生中耳蝸基底膜的聲源定位方法包括基于人耳聽覺特性中耳蝸基底膜的濾 波、內毛細胞以及其上的神經纖維的分離重合。經過耳蝸基底膜模型進行頻譜分析,在經過 耳蝸基底膜上的內毛細胞模型進行信號轉換以及內毛細胞上的神經纖維進行細胞重合,再 通過上橄欖核模型進行語音信息提取,最終進行聲源的定位。
[0041] 如圖2所示,為本發明中Gammato