一種可過濾揚聲器噪音的語音識別方法及其系統的制作方法
【專利摘要】本發明提供了一種可過濾揚聲器噪音的語音識別方法及其系統,方法包括:當檢測到通過麥克風錄入用戶語音、且檢測到揚聲器在播放智能終端中存儲語音文件時,則獲取用戶語音和揚聲器聲音的合成音;根據智能終端中采樣的揚聲器聲音的第一頻率、及第一振幅,及合成音的合成音頻率、及合成音振幅,計算得到用戶語音的第二頻率、及第二振幅;過濾合成音中揚聲器聲音的音色,并與用戶語音的第二頻率、及第二振幅復原得到用戶語音;根據語音數據庫,將用戶語音轉化為文本。本發明實現了用戶在使用語音識別軟件并且揚聲器在播放外音時,終端內處理器根據聲音組成進行分析,過濾掉揚聲器聲音,使得后臺接收的用戶語音中減少環境噪音,實現語音的高效識別。
【專利說明】
一種可過濾揚聲器噪音的語音識別方法及其系統
技術領域
[0001]本發明涉及語音識別技術領域,尤其涉及一種可過濾揚聲器噪音的語音識別方法及其系統。
【背景技術】
[0002]語音識別技術正逐步成為信息技術中人機接口的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,通過語音命令進行操作。移動互聯網的興起正成為語音識別最重要的應用環境,如蘋果公司的Siri,國內的訊飛軟件等,能夠高效的識別用戶的語音。目前智能終端上都可以安裝類似軟件,能夠將用戶語音轉換成文字,并將語音與后臺數據庫進行匹配,生成文字顯示,甚至直接進行控制。為了能夠高效識別語音,需要用戶輸入語音時盡量避免環境噪音。
[0003]但是,當智能終端在播放音樂時,用戶對著麥克風說話,會帶入揚聲器的音樂聲,導致識別效率大幅下降。
[0004]因此,現有技術還有待改進和發展。
【發明內容】
[0005]鑒于上述現有技術的不足之處,本發明的目的在于提供一種可過濾揚聲器噪音的語音識別方法及其系統,旨在解決現有技術中智能終端在播放音樂時,用戶對著麥克風說話,會帶入揚聲器的音樂聲,導致識別效率大幅下降的問題。
[0006]為了達到上述目的,本發明采取了以下技術方案:
一種可過濾揚聲器噪音的語音識別方法,其中,所述方法包括以下步驟:
A、當檢測到通過麥克風錄入用戶語音、且檢測到揚聲器在播放智能終端中存儲語音文件時,則獲取用戶語音和揚聲器聲音的合成音;
B、根據智能終端中采樣的揚聲器聲音的第一頻率、及第一振幅,及所述合成音的合成音頻率、及合成音振幅,計算得到用戶語音的第二頻率、及第二振幅;
C、過濾所述合成音中揚聲器聲音的音色,并與用戶語音的第二頻率、及第二振幅復原得到用戶語音;
D、根據語音數據庫,將用戶語音轉化為文本。
[0007]所述可過濾揚聲器噪音的語音識別方法,其中,所述步驟B具體包括:
B1、根據合成音頻率為第一頻率及第二頻率的最小公倍數,由合成音頻率和第一頻率計算得到第二頻率;
B2、根據合成音振幅與第一振幅之差,計算得到第二振幅。
[0008]所述可過濾揚聲器噪音的語音識別方法,其中,所述步驟C具體包括:
Cl、將合成音通過音頻編碼器模/數轉換后,將具有合成音頻率、合成音振幅及合成音音色的合成音編碼送至處理器;
C2、處理器過濾掉所述合成音中揚聲器聲音的音色,保留用戶語音的音色; C3、音頻解碼器將用戶語音的第二頻率、及第二振幅轉化成部分語音,所述部分語音與用戶語音的音色復原得到用戶語音。
[0009]所述可過濾揚聲器噪音的語音識別方法,其中,所述步驟D具體包括:
Dl、將用戶語音上傳至云端的語音數據庫;
D2、將用戶語音在語音數據庫中進行匹配,得到文本;
D3、將所述文本發送至智能終端,并顯示。
[0010]所述可過濾揚聲器噪音的語音識別方法,其中,所述步驟A中還包括處理器獲取音頻編碼器中揚聲器聲音每一幀的揚聲器聲音編碼。
[0011]—種可過濾揚聲器噪音的語音識別系統,其中,包括:
檢測及獲取模塊,用于當檢測到通過麥克風錄入用戶語音、且檢測到揚聲器在播放智能終端中存儲語音文件時,則獲取用戶語音和揚聲器聲音的合成音;
計算模塊,用于根據智能終端中采樣的揚聲器聲音的第一頻率、及第一振幅,及所述合成音的合成音頻率、及合成音振幅,計算得到用戶語音的第二頻率、及第二振幅;
過濾及復原模塊,用于過濾所述合成音中揚聲器聲音的音色,并與用戶語音的第二頻率、及第二振幅復原得到用戶語音;
轉化模塊,用于根據語音數據庫,將用戶語音轉化為文本。
[0012]所述可過濾揚聲器噪音的語音識別系統,其中,所述計算模塊具體包括:
頻率計算單元,用于根據合成音頻率為第一頻率及第二頻率的最小公倍數,由合成音頻率和第一頻率,計算得到第二頻率;
振幅計算單元,根據合成音振幅與第一振幅之差,計算得到第二振幅。
[0013]所述可過濾揚聲器噪音的語音識別系統,其中,所述過濾及復原模塊具體包括: 編碼發送單元,用于將合成音通過音頻編碼器模/數轉換后,將具有合成音頻率、合成音振幅及合成音音色的合成音編碼送至處理器;
過濾單元,處理器過濾掉所述合成音中揚聲器聲音的音色,保留用戶語音的音色;
復原單元,音頻解碼器將用戶語音的第二頻率、及第二振幅轉化成部分語音,所述部分語音與用戶語音的音色復原得到用戶語音。
[0014]所述可過濾揚聲器噪音的語音識別系統,其中,所述轉化模塊具體包括:
上傳單元,用于將用戶語音上傳至云端的語音數據庫;
匹配單元,用于將用戶語音在語音數據庫中進行匹配,得到文本;
發送顯示單元,用于將所述文本發送至智能終端,并顯示。
[0015]所述可過濾揚聲器噪音的語音識別系統,其中,所述檢測及獲取模塊中還用于處理器獲取音頻編碼器中揚聲器聲音每一幀的揚聲器聲音編碼。
[0016]本發明所述的可過濾揚聲器噪音的語音識別方法及其系統,方法包括:當檢測到通過麥克風錄入用戶語音、且檢測到揚聲器在播放智能終端中存儲語音文件時,則獲取用戶語音和揚聲器聲音的合成音;根據智能終端中采樣的揚聲器聲音的第一頻率、及第一振幅,及合成音的合成音頻率、及合成音振幅,計算得到用戶語音的第二頻率、及第二振幅;過濾合成音中揚聲器聲音的音色,并與用戶語音的第二頻率、及第二振幅復原得到用戶語音;根據語音數據庫,將用戶語音轉化為文本。本發明實現了用戶在使用語音識別軟件并且揚聲器在播放外音時,終端內的處理器根據聲音的組成進行分析,過濾掉揚聲器聲音,使得后臺接收的用戶語音中減少環境噪音,實現語音的高效識別。
【附圖說明】
[0017]圖1為本發明所述可過濾揚聲器噪音的語音識別方法較佳實施例的流程圖。
[0018]圖2為本發明所述可過濾揚聲器噪音的語音識別方法較佳實施例中獲取用戶語音的第二頻率和第二振幅的具體流程圖。
[0019]圖3為本發明所述可過濾揚聲器噪音的語音識別方法較佳實施例中復原得到用戶語音的具體流程圖。
[0020]圖4為本發明所述可過濾揚聲器噪音的語音識別方法較佳實施例中轉化文本的具體流程圖。
[0021 ]圖5為本發明所述可過濾揚聲器噪音的語音識別系統較佳實施例的結構框圖。
【具體實施方式】
[0022]本發明提供一種可過濾揚聲器噪音的語音識別方法及其系統,為使本發明的目的、技術方案及效果更加清楚、明確,以下參照附圖并舉實施例對本發明進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發明,并不用于限定本發明。
[0023]請參考圖1,其為本發明所述可過濾揚聲器噪音的語音識別方法較佳實施例的流程圖。如圖1所示,所述可過濾揚聲器噪音的語音識別方法,包括以下步驟:
步驟S100、當檢測到通過麥克風錄入用戶語音、且檢測到揚聲器在播放智能終端中存儲語音文件時,則獲取用戶語音和揚聲器聲音的合成音。
[0024]本實施例中,當用戶打開智能終端中的播放器時,也可同步打開后臺的語音識別進程,這樣智能終端在播放音樂時可實時檢測用戶是否錄入語音。一旦檢測到在智能終端上通過播放器播放語音文件,且有用戶聲音錄入時,則獲取用戶語音和揚聲器聲音的合成音。此時,未經任何處理時,用戶語音和揚聲器聲音還無法區分開,這就需要后續步驟的處理。
[0025]步驟S200、根據智能終端中采樣的揚聲器聲音的第一頻率、及第一振幅,及所述合成音的合成音頻率、及合成音振幅,計算得到用戶語音的第二頻率、及第二振幅。
[0026]本實施例中,由于揚聲器材料和結構是固定的,因此揚聲器音色對于智能終端內的處理器是已知的。同樣的,播放器在播放語音文件的過程中,處理器獲取音頻編碼器中揚聲器聲音每一幀的揚聲器聲音編碼,即可通過播放器獲取揚聲器聲音中聲音數據每一幀的第一頻率和第一振幅。
[0027]由于已經知道了揚聲器聲音的第一頻率、及第一振幅,及所述合成音的合成音頻率、及合成音振幅,故可以根據合成音頻率為第一頻率和第二頻率的最小公倍數而求得第二頻率,并可以根據合成音振幅為第一振幅與第二振幅之和求得第二振幅。這樣,通過處理器簡單的計算處理,即可得到用戶語音的第二頻率、及第二振幅。
[0028]步驟S300、過濾所述合成音中揚聲器聲音的音色,并與用戶語音的第二頻率、及第二振幅復原得到用戶語音。
[0029]當獲取了用戶語音的第二頻率、及第二振幅后,由于可選擇性的過濾掉揚聲器的音色(由于揚聲器的材料和結構是固定的,因此揚聲器音色對于智能終端內的處理器是已知的),僅保留用戶語音的音色,這樣通過用戶語音的音色、第二頻率及第二振幅可復原得到用戶語音。這樣,過濾掉了合成音中揚聲器聲音部分,只保留了用戶語音的部分,實現了過濾揚聲器噪音的語音識別效果。
[0030]步驟S400、根據語音數據庫,將用戶語音轉化為文本。
[0031]當用戶語音通過語音數據庫匹配后,則轉為為對應的文本,根據文本所對應的指令對智能終端進行對應的操作。例如,當用戶打開播放器播放音樂的過程中,后臺的語音識別進程檢測到用戶錄入語音“快進10秒”,則通過步驟S100-S400的處理后,轉化為文本“快進10秒”。此時,播放器根據該文本對應的控制指令快進將當前播放語音文件快進10秒。這樣實現了在有背景音的情況下,對用戶語音的精準識別。
[0032]進一步的,如圖2所示,在所述可過濾揚聲器噪音的語音識別方法中,所述步驟S200具體包括:
步驟S201、根據合成音頻率為第一頻率及第二頻率的最小公倍數,由合成音頻率和第一頻率計算得到第二頻率。
[0033]由于當揚聲器聲音和用戶語音形成合成音后,處理器是可采樣合成音的合成音頻率和合成音振幅的。而且,還已知合成音頻率為第一頻率及第二頻率的最小公倍數,即I/合成音頻率=N*(1/第一頻率)* (I/第二頻率),其中N為任意正整數。根據上式,可求解得到第二頻率。
[0034]步驟S202、根據合成音振幅與第一振幅之差,計算得到第二振幅。
[0035]進一步的,如圖3所示,在所述可過濾揚聲器噪音的語音識別方法中,所述步驟S300具體包括:
步驟S301、將合成音通過音頻編碼器模/數轉換后,將具有合成音頻率、合成音振幅及合成音音色的合成音編碼送至處理器;
步驟S302、處理器過濾掉所述合成音中揚聲器聲音的音色,保留用戶語音的音色;
步驟S303、音頻解碼器將用戶語音的第二頻率、及第二振幅轉化成部分語音,所述部分語音與用戶語音的音色復原得到用戶語音。
[0036]進一步的,如圖4所示,在所述可過濾揚聲器噪音的語音識別方法中,所述步驟S400具體包括:
步驟S401、將用戶語音上傳至云端的語音數據庫;
步驟S402、將用戶語音在語音數據庫中進行匹配,得到文本;
步驟S403、將所述文本發送至智能終端,并顯示。
[0037]可見,本發明實現了用戶在使用語音識別軟件并且揚聲器在播放外音時,終端內的處理器根據聲音的組成進行分析,過濾掉揚聲器聲音,使得后臺接收的用戶語音中減少環境噪音,實現語音的高效識別。
[0038]基于上述方法實施例,本發明還提供了一種可過濾揚聲器噪音的語音識別系統。如圖5所示,所述可過濾揚聲器噪音的語音識別系統,包括:
檢測及獲取模塊100,用于當檢測到通過麥克風錄入用戶語音、且檢測到揚聲器在播放智能終端中存儲語音文件時,則獲取用戶語音和揚聲器聲音的合成音;
計算模塊200,用于根據智能終端中采樣的揚聲器聲音的第一頻率、及第一振幅,及所述合成音的合成音頻率、及合成音振幅,計算得到用戶語音的第二頻率、及第二振幅; 過濾及復原模塊300,用于過濾所述合成音中揚聲器聲音的音色,并與用戶語音的第二頻率、及第二振幅復原得到用戶語音;
轉化模塊400,用于根據語音數據庫,將用戶語音轉化為文本。
[0039]進一步的,在所述可過濾揚聲器噪音的語音識別系統中,所述計算模塊200具體包括:
頻率計算單元,用于根據合成音頻率為第一頻率及第二頻率的最小公倍數,由合成音頻率和第一頻率計算得到第二頻率;
振幅計算單元,根據合成音振幅與第一振幅之差,計算得到第二振幅。
[0040]進一步的,在所述可過濾揚聲器噪音的語音識別系統中,所述過濾及復原模塊300具體包括:
編碼發送單元,用于將合成音通過音頻編碼器模/數轉換后,將具有合成音頻率、合成音振幅及合成音音色的合成音編碼送至處理器;
過濾單元,處理器過濾掉所述合成音中揚聲器聲音的音色,保留用戶語音的音色;
復原單元,音頻解碼器將用戶語音的第二頻率、及第二振幅轉化成部分語音,所述部分語音與用戶語音的音色復原得到用戶語音。
[0041]進一步的,在所述可過濾揚聲器噪音的語音識別系統中,所述轉化模塊400具體包括:
上傳單元,用于將用戶語音上傳至云端的語音數據庫;
匹配單元,用于將用戶語音在語音數據庫中進行匹配,得到文本;
發送顯示單元,用于將所述文本發送至智能終端,并顯示。
[0042]進一步的,在所述可過濾揚聲器噪音的語音識別系統中,所述檢測及獲取模塊100還用于處理器獲取音頻編碼器中揚聲器聲音每一幀的揚聲器聲音編碼。
[0043]綜上所述,本發明所述的可過濾揚聲器噪音的語音識別方法及其系統,方法包括:當檢測到通過麥克風錄入用戶語音、且檢測到揚聲器在播放智能終端中存儲語音文件時,則獲取用戶語音和揚聲器聲音的合成音;根據智能終端中采樣的揚聲器聲音的第一頻率、及第一振幅,及合成音的合成音頻率、及合成音振幅,計算得到用戶語音的第二頻率、及第二振幅;過濾合成音中揚聲器聲音的音色,并與用戶語音的第二頻率、及第二振幅復原得到用戶語音;根據語音數據庫,將用戶語音轉化為文本。本發明實現了用戶在使用語音識別軟件并且揚聲器在播放外音時,終端內的處理器根據聲音的組成進行分析,過濾掉揚聲器聲音,使得后臺接收的用戶語音中減少環境噪音,實現語音的高效識別。
[0044]可以理解的是,對本領域普通技術人員來說,可以根據本發明的技術方案及本發明構思加以等同替換或改變,而所有這些改變或替換都應屬于本發明所附的權利要求的保護范圍。
【主權項】
1.一種可過濾揚聲器噪音的語音識別方法,其特征在于,所述方法包括以下步驟: A、當檢測到通過麥克風錄入用戶語音、且檢測到揚聲器在播放智能終端中存儲語音文件時,則獲取用戶語音和揚聲器聲音的合成音; B、根據智能終端中采樣的揚聲器聲音的第一頻率、及第一振幅,及所述合成音的合成音頻率、及合成音振幅,計算得到用戶語音的第二頻率、及第二振幅; C、過濾所述合成音中揚聲器聲音的音色,并與用戶語音的第二頻率、及第二振幅復原得到用戶語音; D、根據語音數據庫,將用戶語音轉化為文本。2.根據權利要求1所述可過濾揚聲器噪音的語音識別方法,其特征在于,所述步驟B具體包括: B1、根據合成音頻率為第一頻率及第二頻率的最小公倍數,由合成音頻率和第一頻率計算得到第二頻率; B2、根據合成音振幅與第一振幅之差,計算得到第二振幅。3.根據權利要求1所述可過濾揚聲器噪音的語音識別方法,其特征在于,所述步驟C具體包括: Cl、將合成音通過音頻編碼器模/數轉換后,將具有合成音頻率、合成音振幅及合成音音色的合成音編碼送至處理器; C2、處理器過濾掉所述合成音中揚聲器聲音的音色,保留用戶語音的音色; C3、音頻解碼器將用戶語音的第二頻率、及第二振幅轉化成部分語音,所述部分語音與用戶語音的音色復原得到用戶語音。4.根據權利要求1所述可過濾揚聲器噪音的語音識別方法,其特征在于,所述步驟D具體包括: D1、將用戶語音上傳至云端的語音數據庫; D2、將用戶語音在語音數據庫中進行匹配,得到文本; D3、將所述文本發送至智能終端,并顯示。5.根據權利要求1所述可過濾揚聲器噪音的語音識別方法,其特征在于,所述步驟A中還包括處理器獲取音頻編碼器中揚聲器聲音每一幀的揚聲器聲音編碼。6.一種可過濾揚聲器噪音的語音識別系統,其特征在于,包括: 檢測及獲取模塊,用于當檢測到通過麥克風錄入用戶語音、且檢測到揚聲器在播放智能終端中存儲語音文件時,則獲取用戶語音和揚聲器聲音的合成音; 計算模塊,用于根據智能終端中采樣的揚聲器聲音的第一頻率、及第一振幅,及所述合成音的合成音頻率、及合成音振幅,計算得到用戶語音的第二頻率、及第二振幅; 過濾及復原模塊,用于過濾所述合成音中揚聲器聲音的音色,并與用戶語音的第二頻率、及第二振幅復原得到用戶語音; 轉化模塊,用于根據語音數據庫,將用戶語音轉化為文本。7.根據權利要求6所述可過濾揚聲器噪音的語音識別系統,其特征在于,所述計算模塊具體包括: 頻率計算單元,用于根據合成音頻率為第一頻率及第二頻率的最小公倍數,由合成音頻率和第一頻率計算得到第二頻率; 振幅計算單元,根據合成音振幅與第一振幅之差,計算得到第二振幅。8.根據權利要求6所述可過濾揚聲器噪音的語音識別系統,其特征在于,所述過濾及復原模塊具體包括: 編碼發送單元,用于將合成音通過音頻編碼器模/數轉換后,將具有合成音頻率、合成音振幅及合成音音色的合成音編碼送至處理器; 過濾單元,處理器過濾掉所述合成音中揚聲器聲音的音色,保留用戶語音的音色; 復原單元,音頻解碼器將用戶語音的第二頻率、及第二振幅轉化成部分語音,所述部分語音與用戶語音的音色復原得到用戶語音。9.根據權利要求6所述可過濾揚聲器噪音的語音識別系統,其特征在于,所述轉化模塊具體包括: 上傳單元,用于將用戶語音上傳至云端的語音數據庫; 匹配單元,用于將用戶語音在語音數據庫中進行匹配,得到文本; 發送顯示單元,用于將所述文本發送至智能終端,并顯示。10.根據權利要求6所述可過濾揚聲器噪音的語音識別系統,其特征在于,所述檢測及獲取模塊中還用于處理器獲取音頻編碼器中揚聲器聲音每一幀的揚聲器聲音編碼。
【文檔編號】G10L21/0316GK106098078SQ201610413367
【公開日】2016年11月9日
【申請日】2016年6月14日 公開號201610413367.5, CN 106098078 A, CN 106098078A, CN 201610413367, CN-A-106098078, CN106098078 A, CN106098078A, CN201610413367, CN201610413367.5
【發明人】齊東京, 方國寬
【申請人】惠州Tcl移動通信有限公司