一種語音識別方法和裝置的制造方法
【技術領域】
[0001] 本發明涉及語音識別技術領域,特別是涉及一種語音識別方法和裝置。
【背景技術】
[0002] 隨著科技的迅速發展,語音識別技術取得顯著進步,逐漸進入工業、家電、通信、汽 車電子、醫療、家庭服務、消費電子產品等各個領域。語音識別技術能夠使用戶無需手動按 鍵,實現命令和控制,方便用戶交互。
[0003] 語音識別系統需要大量音頻和文本的語料,在語料等條件限制不足以訓練某一領 域的垂直語音識別系統時,利用已有公開的通用識別引擎不失為一種選擇。但是通用語音 識別的語言模型與垂直領域的語言模型存在較大的差異,從而導致某一領域的語音識別引 擎在另一領域不能滿足需求。例如,將通用的連續語音識別引擎直接用于愛奇藝視頻搜索 的語音助手就會有性能瓶頸,在視頻垂直領域中用戶在通過語音命令控制搜索或播放視頻 時,由于語音命令的特殊性,例如,前綴動詞與后面視頻內容的連接在通用語法不常見,使 得其語言模型與通用語言模型有較大的差異性,從而導致對語音的識別結果不準確,比如, "播放綠箭俠"可能會被識別為"播放列表卡",因為"播放"后面連接"綠"字的概率較低,此 外,"查找虎媽貓爸"可能會被識別為"查找出了貓大","播放泰冏"可能會被識別為"播狀態 井 ^等等。
[0004] 因此,現有技術中采用通用語音識別引擎對語音進行識別的準確性較差。
【發明內容】
[0005] 本發明提供一種語音識別方法和裝置,以解決現有技術中采用通用語音識別引擎 對語音進行識別的準確性較差的問題。
[0006] 為了解決上述問題,本發明公開了一種語音識別方法,包括:
[0007] 檢測接收到的待識別語音信息中是否包括命令關鍵詞信息;
[0008] 若包括,則將所述待識別語音信息劃分為所述命令關鍵詞信息和未知內容信息兩 部分;
[0009] 確定所述命令關鍵詞信息對應的命令識別結果;
[0010] 利用語音識別引擎對所述未知內容信息進行識別,得到內容識別結果;
[0011] 將所述命令識別結果和所述內容識別結果進行組合后作為對所述待識別語音信 息的識別結果。
[0012] 優選地,所述檢測接收到的待識別語音信息中是否包括命令關鍵詞信息的步驟包 括:
[0013] 將接收到的待識別語音信息分別與預設的關鍵詞信息庫中包括的多個關鍵詞模 型和垃圾模型進行匹配;
[0014] 若檢測到與所述待識別語音信息中某時間段的語音信息相匹配的關鍵詞模型,則 確定所述待識別語音信息中包括命令關鍵詞信息。
[0015] 優選地,所述關鍵詞信息庫中還包括所述關鍵詞模型各自對應的文本信息;
[0016] 所述確定所述命令關鍵詞信息對應的命令識別結果的步驟,包括:
[0017] 將所述相匹配的關鍵詞模型對應的文本信息作為所述命令關鍵詞信息對應的命 令識別結果。
[0018] 優選地,所述將所述待識別語音信息劃分為所述命令關鍵詞信息和未知內容信息 兩部分的步驟,包括:
[0019] 獲取所述命令關鍵詞信息在所述待識別語音信息中的起始時間和結束時間;
[0020] 將所述待識別語音信息中所述起始時間和所述結束時間對應時間段的語音信息 作為命令關鍵詞信息,將所述待識別語音信息中除所述起始時間和所述結束時間對應時間 段的語音信息之外的剩余時間段的語音信息作為未知內容信息。
[0021] 優選地,在所述檢測接收到的待識別語音信息中是否包括命令關鍵詞信息的步驟 之后,還包括:
[0022] 若不包括,則利用語音識別引擎對所述待識別語音信息進行識別,得到對所述待 識別語音信息的識別結果。
[0023] 為了解決上述問題,本發明還公開了一種語音識別裝置,包括:
[0024] 檢測模塊,用于檢測接收到的待識別語音信息中是否包括命令關鍵詞信息;
[0025] 劃分模塊,用于在所述檢測模塊檢測到包括時,將所述待識別語音信息劃分為所 述命令關鍵詞信息和未知內容信息兩部分;
[0026] 確定模塊,用于確定所述命令關鍵詞信息對應的命令識別結果;
[0027] 第一識別模塊,用于利用語音識別引擎對所述未知內容信息進行識別,得到內容 識別結果;
[0028] 組合模塊,用于將所述命令識別結果和所述內容識別結果進行組合后作為對所述 待識別語音信息的識別結果。
[0029]優選地,所述檢測模塊,具體用于將接收到的待識別語音信息分別與預設的關鍵 詞信息庫中包括的多個關鍵詞模型和垃圾模型進行匹配;若檢測到與所述待識別語音信息 中某時間段的語音信息相匹配的關鍵詞模型,則確定所述待識別語音信息中包括命令關鍵 詞信息。
[0030] 優選地,所述關鍵詞信息庫中還包括所述關鍵詞模型各自對應的文本信息;
[0031] 所述確定模塊,具體用于將所述相匹配的關鍵詞模型對應的文本信息作為所述命 令關鍵詞信息對應的命令識別結果。
[0032]優選地,所述劃分模塊,具體用于獲取所述命令關鍵詞信息在所述待識別語音信 息中的起始時間和結束時間;將所述待識別語音信息中所述起始時間和所述結束時間對應 時間段的語音信息作為命令關鍵詞信息,將所述待識別語音信息中除所述起始時間和所述 結束時間對應時間段的語音信息之外的剩余時間段的語音信息作為未知內容信息。
[0033] 優選地,所述裝置還包括:
[0034] 第二識別模塊,用于在所述檢測模塊檢測到不包括時,利用語音識別引擎對所述 待識別語音信息進行識別,得到對所述待識別語音信息的識別結果。
[0035] 與現有技術相比,本發明包括以下優點:
[0036] 本發明在接收到待識別語音信息后,首先檢測該待識別語音信息中是否包括命令 關鍵詞信息,若包括,則將待識別語音信息劃分為命令關鍵詞信息和未知內容信息兩部分, 確定命令關鍵詞信息對應的命令識別結果,以及利用語音識別引擎對未知內容信息進行識 別得到內容識別結果,最后將命令識別結果和內容識別結果進行組合后作為對待識別語音 信息的識別結果。由此可知,本發明考慮到視頻垂直領域中語音命令的特殊性,將語音信息 劃分為兩部分單獨識別,僅將未知內容信息送入通用語音識別引擎進行識別,相比于直接 利用通用識別引擎進行整個語音信息的識別而言,其解耦了命令關鍵詞與未知內容之間的 語言約束,識別結果更加準確,并且無需關心通用語音識別引擎的內部結構,不需要重新訓 練語言模型,既可以直接應用通用語音識別引擎,又能一定程度解決語言模型失配導致的 性能問題。
【附圖說明】
[0037] 圖1是本發明實施例一的一種語音識別方法的步驟流程圖;
[0038] 圖2是本發明實施例二的一種語音識別方法的步驟流程圖;
[0039] 圖3是本發明實施例二的一種語音識別過程的示意圖;
[0040] 圖4是本發明實施例三的一種語音識別裝置的結構框圖;
[0041]圖5是本發明實施例四的一種語音識別裝置的結構框圖。
【具體實施方式】
[0042]為使本發明的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖和具體實 施方式對本發明作進一步詳細的說明。
[0043] 實施例一
[0044] 參照圖1,示出了本發明實施例一的一種語音識別方法的步驟流程圖。
[0045] 本實施例的語音識別方法可以包括以下步驟:
[0046] 步驟101,檢測接收到的待識別語音信息中是否包括命令關鍵詞信息。
[0047] 本發明實施例的語音識別方法可以應用于視頻垂直領域的語音識別,如各種視頻 網站的語音識別、各種智能電視機頂盒的語音識別等等。當用戶想要搜索、播放某個視頻 時,可以通過語音進行控制,用戶輸入一段待識別語音信息,系統(如視頻網站客戶端的系 統、智能電視機頂盒的等)在接收到該待識別語音信息后對其進行識別,并根據識別結果執 行相應的操作。<