本發明屬于智能家居技術領域,特別涉及一種智能家居語音交互系統。
背景技術:
在實際家庭環境、辦公環境中,多人同時說話的場合很多。用戶做語音控制時,其他在場人員的語音會干擾系統造成誤判。所以,現有技術中,對于智能家庭設備語音控制,語音使用場景中如果同時有多人說話時,難以辨識出真正與系統語音交互的用戶語音。如果同時有多個用戶與系統語音交互時,系統也難以分別響應的問題。如果用戶要求其他人員不說話,會造成極大極大不便,也不太現實。
技術實現要素:
為了解決多人聲場景下難以準確識別語音指令使語音交互控制智能家居的適用場景大受限制這一問題,本發明基于此提出了一種基于多人聲分離的智能家居語音交互系統,使語音控制的適用場合更為廣泛。
一種智能家居語音交互系統,包括以下步驟:
A1,使用麥克風陣列采集聲音樣本后,經過信號降噪和語音檢測;
A2,如果聲音樣本中包含語音信號,則采用2D_MUSIC算法估計信號源數目和方位;
A3,根據信號源方位,依照MV_Bearnforning計算信號的權向量,做加權處理,形成聲音樣本的語音波束;
A4,與已經保存在系統的語音波束系列進行聲紋匹配,如果有未匹配成功的,則將未匹配成功的語音波束加入系列列表;
A5,定時根據聲紋聚類,將近似的語音波束聚合為同一類語音信號,系統對同一類語音信號認為是同一人語音。
系統為每一個人創建單獨的處理線程,分別對聲源進行語音識別,對于每一個說話人,系統創建一個單獨的語義上下文環境;
如果系統識別到用戶的語義與系統提供指令功能匹配時,則認為是用戶指令,系統分析用戶意圖,執行指令;
當有多個用戶同時發出指令時,系統分別執行;
當用戶發出指令有沖突時,系統給予用戶語音反饋。
本發明集合了現有的聲紋識別、話人跟蹤、麥克風陣列采樣分析、波束形成、語音識別、基于上下文的語義理解、語義關鍵詞匹配等技術。
本發明的有益效果是:在室內有多人同時說話時,系統通過分離出不同人的聲音信息,分別進行語音識別、語義處理、獨立出各自的上下文對話場景,提高多人聲場景語音交互時,指令識別的準確率。當多人說話的語音聲源同時處在麥克風陣列監聽范圍內,意圖和系統語音交互的用戶不必刻意提高音量、不必刻意靠近麥克風陣列,不必要求周圍人降低音量或暫停說話,可以直接和系統正常語音交互。從而使語音交互真正成為能適應復雜場合的短距離非接觸的交互方式,減少了使用語音交互的限制,大幅度提高語音控制的使用場合,為現代人室內生活提供一種無需隨身設備載體、簡便智能的人機交互。
本發明點的創新點還在于:本系統不僅將語音別處理,而且能在一段時間的多人對話中,分析出人與人的對話、人與系統的對話,再通過多人場景語境語義分析,獲取多人場景下用戶的一個或多個指令,給出統一或區別回復。如此實現一個人機共生的良好交互手段,進一步將智能家居的語音交互智能化、廣適化。
附圖說明
圖1是本發明實施例中的步驟流程示意圖。
具體實施方式
麥克風陣列采集聲音樣本后,經過先進行信號降噪、多人語音分離。麥克風陣列中各個麥克風接收到的聲音聲源強弱,結合2D_MUSIC算法估計信源數目和方位,再根據方位信息,依照MV_Bearnforning計算各個麥克風收到信號的權向量,做加權處理,形成波束。隨后按照圖1所示,將聲音波束先按定位聚類。對于有間斷且方位信息不同的聲源,做聲紋相似度聚類。系統將聚為同一類的聲源信號認為是同一人的語音信息。至此,實現了多人語音聲源分離、說話人識別。
完成聲源分離、話人識別的語音信息,系統將為每一個人創建單獨的處理線程,分別對聲源進行語音識別。對于每一個說話人,系統創建一個單獨的語義上下文環境。如果系統識別到用戶的語義與系統提供功能匹配,則認為是用戶指令,系統分析用戶意圖,執行指令。當有多個用戶同時發出指令時,系統分別執行。當用戶發出指令有沖突時,系統給予用戶語音反饋。
本發明涉及的2D_MUSIC算法和MV_Bearnforning算法可以參考文獻:
[1][2]林靜然,基于麥克風陣列的說話人跟蹤及語音分離實現技術的研究,電子科技大學,碩士學位論文,2005