一種關鍵詞檢測方法和裝置制造方法
【專利摘要】本發(fā)明實施方式提出了一種關鍵詞檢測方法和裝置。方法包括:生成包含語種信息的解碼網(wǎng)絡,在該解碼網(wǎng)絡中根據(jù)語種信息對關鍵詞進行分組;利用所述解碼網(wǎng)絡對輸入語音進行關鍵詞檢測,其中當檢測出的關鍵詞之間的語種信息不一致時,對所檢測出關鍵詞設置懲罰因子;基于懲罰因子評估所檢測出的關鍵詞。本發(fā)明實施方式有效規(guī)避了語種識別可能對關鍵詞檢測帶來的影響,使得在多語種混雜的語音句子中檢測關鍵詞成為可能,而且只需要單一的檢測引擎就可以完成多語種的關鍵詞檢測任務。
【專利說明】一種關鍵詞檢測方法和裝置
【技術領域】
[0001] 本發(fā)明實施方式涉及語音處理【技術領域】,更具體地,涉及一種關鍵詞檢測方法和 裝直。
【背景技術】
[0002] 關鍵詞檢測是從語音流中定位給定關鍵詞的起止時間點的過程,其中關鍵詞是能 夠表達某種實質(zhì)意義的詞語,一般為名詞或短語。現(xiàn)有的關鍵詞檢測系統(tǒng)框架一般可以分 為兩類,一類是基于垃圾網(wǎng)絡的系統(tǒng),一類是基于音素或音節(jié)識別器的系統(tǒng)。
[0003] 在基于垃圾網(wǎng)絡的系統(tǒng)中,解碼器的搜索空間由關鍵詞和補白音節(jié)組成的網(wǎng)絡構 成。當一段語音進入網(wǎng)絡后,有些部分被識別成關鍵詞,其他部分被識別成補白音節(jié),然后 用置信度判決模塊對識別出的關鍵詞進行判決,最后輸出被接受的關鍵詞及其在語音中的 位置信息。在基于音素或音節(jié)識別器的系統(tǒng)中,對輸入語音進行全文識別,輸出音素或音節(jié) 網(wǎng)絡,然后利用文本檢索技術在網(wǎng)絡中檢測給定的關鍵詞。
[0004] 在目前處理多語種關鍵詞檢測任務時,通常的做法是把該關鍵詞檢測任務分成兩 個獨立的階段進行。當一段語音被輸入后,首先對語音進行語種識別,然后根據(jù)語種識別結 果把語音送入與該語種相對應的關鍵詞檢測引擎中進行關鍵詞檢測,最后把所有結果匯總 起來作為最終的檢測結果。
[0005] 然而,在現(xiàn)有的多語種關鍵詞檢測技術中,語種識別的準確率直接會影響到后續(xù) 關鍵詞檢測的效果。而且,由于語種識別一般需要至少一定長度的音頻(如3?5秒),在實 際應用中會對流式關鍵詞檢測帶來一定的障礙。另外,現(xiàn)有技術的關鍵詞檢測技術無法解 決多語種混雜的情況,如"昨晚的演唱會high不high"則無法準確識別語種和關鍵詞。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實施方式提出一種關鍵詞檢測方法,以完成多語種的關鍵詞檢測任務。
[0007] 本發(fā)明實施方式還提出了一種關鍵詞檢測方法裝置,以完成多語種的關鍵詞檢測 任務。
[0008] 本發(fā)明實施方式的技術方案如下:
[0009] -種關鍵詞檢測方法,該方法包括:
[0010] 生成包含語種信息的解碼網(wǎng)絡,在該解碼網(wǎng)絡中根據(jù)語種信息對關鍵詞進行分 組;
[0011] 利用所述解碼網(wǎng)絡對輸入語音進行關鍵詞檢測,其中當檢測出的關鍵詞之間的語 種信息不一致時,對所檢測出關鍵詞設置懲罰因子;
[0012] 基于懲罰因子評估所檢測出的關鍵詞。
[0013] 一種關鍵詞檢測裝置,包括解碼網(wǎng)絡生成單元、關鍵詞檢測單元和關鍵詞評估單 元,其中:
[0014] 解碼網(wǎng)絡生成單元,用于生成包含語種信息的解碼網(wǎng)絡,在該解碼網(wǎng)絡中根據(jù)語 種信息對關鍵詞進行分組;
[0015] 關鍵詞檢測單元,用于利用所述解碼網(wǎng)絡對輸入語音進行關鍵詞檢測,其中當檢 測出的關鍵詞之間的語種信息不一致時,對所檢測出關鍵詞設置懲罰因子;
[0016] 關鍵詞評估單元,用于基于懲罰因子評估所檢測出的關鍵詞。
[0017] 從上述技術方案可以看出,在本發(fā)明實施方式中,生成包含語種信息的解碼網(wǎng)絡, 在該解碼網(wǎng)絡中根據(jù)語種信息對關鍵詞進行分組;利用所述解碼網(wǎng)絡對輸入語音進行關 鍵詞檢測,其中當檢測出的關鍵詞之間的語種信息不一致時,對所檢測出關鍵詞設置懲罰 因子;基于懲罰因子評估所檢測出的關鍵詞。由此可見,應用本發(fā)明實施方式之后,將語種 信息直接構造在解碼網(wǎng)絡中,利用語種信息對不同語種的關鍵詞進行分組,有效規(guī)避了語 種識別可能對關鍵詞檢測帶來的影響,也使在多語種混雜的語音句子中檢測關鍵詞成為可 能。
[0018] 另外,本發(fā)明實施方式在解碼過程中,通過對語種信息的判斷來調(diào)整令牌的得分, 并引入了語種轉換的懲罰函數(shù),只需要單一的檢測引擎就可以完成多語種的關鍵詞檢測任 務。
【專利附圖】
【附圖說明】
[0019] 圖1為現(xiàn)有技術中解碼網(wǎng)絡示意圖;
[0020] 圖2為根據(jù)本發(fā)明實施方式關鍵詞檢測方法流程圖;
[0021] 圖3為根據(jù)本發(fā)明實施方式解碼網(wǎng)絡示意圖;
[0022] 圖4為根據(jù)本發(fā)明實施方式關鍵詞檢測裝置結構圖。
【具體實施方式】
[0023] 為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面結合附圖對本發(fā)明作進一步 的詳細描述。
[0024] 圖1為現(xiàn)有技術中解碼網(wǎng)絡示意圖。
[0025] 由圖1可見,在現(xiàn)有技術基于垃圾網(wǎng)絡的關鍵詞檢測系統(tǒng)使用的解碼網(wǎng)絡中,關 鍵詞和填充音節(jié)需要進一步做聲學上下文展開,最終的解碼空間以HMM狀態(tài)為圖節(jié)點。關 鍵詞使用較精細的聲學模型描述,一般使用上下文相關的三音子HMM建模,這些模型被成 為前景模型;填充音節(jié)代表語音段中的非關鍵詞部分,一般使用較粗的聲學模型,如聚類后 的音素語言模型,這些模型被稱為背景模型。
[0026] 然而,在現(xiàn)有的多語種關鍵詞檢測技術中,由于語種識別一般需要至少一定長度 的音頻(如3?5秒),在實際應用中會對流式關鍵詞檢測帶來一定的障礙。另外,現(xiàn)有技術 的關鍵詞檢測技術無法解決多語種混雜的情況。
[0027] 在本發(fā)明實施方式中,基于垃圾網(wǎng)絡的框架基礎上提出了一種新的關鍵詞檢測 方案。在本發(fā)明實施方式構造解碼空間時,直接在解碼空間中嵌入語種信息,從而有效規(guī)避 了語種識別階段對流式檢測的影響;在本發(fā)明實施方式的解碼過程中,可以利用語種信息 對令牌傳遞策略進行調(diào)整,只需要單一的檢測引擎就可以完成多語種的關鍵詞檢測任務。
[0028] 與現(xiàn)有的基于垃圾網(wǎng)絡的關鍵詞檢測系統(tǒng)相比,本發(fā)明提出的技術方案主要有兩 點改進:
[0029] (1)多語種解碼網(wǎng)絡的構造,本發(fā)明在解碼網(wǎng)絡中嵌入語種信息;
[0030] (2)針對多語種解碼網(wǎng)絡的多語種關鍵詞檢測算法。在解碼過程中,通過對語種信 息的判斷來調(diào)整令牌的得分,并引入了語種轉換的懲罰函數(shù)。
[0031] 圖2為根據(jù)本發(fā)明實施方式關鍵詞檢測方法流程圖。
[0032] 如圖2所示,該方法包括:
[0033] 步驟201 :生成包含語種信息的解碼網(wǎng)絡,在該解碼網(wǎng)絡中根據(jù)語種信息對關鍵 詞進行分組。
[0034] 在這里,在生成解碼網(wǎng)絡的過程中,可以初始化開始節(jié)點和結束節(jié)點,并針對每個 語種信息k執(zhí)行如下步驟,其中i為語種序號:
[0035] 構造語種節(jié)點Nu,并構造從開始節(jié)點到Nu的邊;
[0036] 加載與該語種信息Q對應的關鍵詞列表和填充音節(jié)列表;
[0037] 對所述關鍵詞列表中的每一個關鍵詞I,其中j為關鍵詞序號,執(zhí)行如下動作:
[0038] 將關鍵詞Κ」轉化成三音子序列,并針對每個三音子構造一個節(jié)點以形成節(jié)點序 列;依次構造節(jié)點序列之間的邊;構造語種節(jié)點N u到節(jié)點序列中第一個節(jié)點的邊以及節(jié)點 序列中最后節(jié)點到結束節(jié)點的邊;
[0039] 對所述填充音節(jié)列表中的每個填充音節(jié)Fk,其中k為填充音節(jié)序號,執(zhí)行如下動 作:
[0040] 構造填充音節(jié)Fk對應的節(jié)點Na;
[0041] 構造語種節(jié)點Nu到NFk的邊和NFk到結束節(jié)點的邊;
[0042] 構造從結束節(jié)點到開始節(jié)點的邊;
[0043] 輸出所述解碼網(wǎng)絡。
[0044] 步驟202 :利用所述解碼網(wǎng)絡對輸入語音進行關鍵詞檢測,其中當檢測出的關鍵 詞之間的語種信息不一致時,對所檢測出關鍵詞設置懲罰因子。
[0045] 在一個實施方式中:
[0046] 在關鍵詞檢測的令牌傳播過程中,當遇到語種狀態(tài)節(jié)點時,比較該語種狀態(tài)節(jié)點 上的語種信息與令牌自帶的語種信息是否匹配,如果不匹配,則對該令牌得分設置懲罰因 子。
[0047] 更優(yōu)選地,預先設置對應于語種類別差異的懲罰因子表;
[0048] 當檢測出的關鍵詞之間的語種信息不一致時,通過檢索該懲罰因子表確定對檢測 出關鍵詞所設置的懲罰因子。
[0049] 步驟203 :基于懲罰因子評估所檢測出的關鍵詞。
[0050] 在這里,可以預先設置關鍵詞門限值;并利用置信度算法以及懲罰因子計算所檢 測出的關鍵詞的置信度,其中當計算出的置信度低于所述關鍵詞門限值時,去除該關鍵詞。
[0051] 在上述流程中,還可以對填充音節(jié)增加一個懲罰因子,使得關鍵詞更容易被識別 出來,提高檢測的召回率。而且,如果某些關鍵詞對檢測任務更重要,可以給這些關鍵詞更 大的加權因子,而給其他關鍵詞較小的加權因子;并且在令牌傳遞過程中可對令牌的得分 門限進行設置,從而加快解碼速度。
[0052] 圖3為根據(jù)本發(fā)明實施方式解碼網(wǎng)絡示意圖。
[0053] 由圖3可見,在該解碼網(wǎng)絡中根據(jù)語種信息對關鍵詞和填充音節(jié)進行分組。在每 個關鍵詞和填充音節(jié)前都增加了與關鍵詞和填充音節(jié)的語種相對應的語種狀態(tài)節(jié)點。比 如:語種節(jié)點1對應于具有該語種1的關鍵詞11到ln,語種節(jié)點1對應于具有該語種1的 填充音節(jié)11到lm ;依此類推,語種節(jié)點k對應于具有該語種k的關鍵詞kl到kn,語種節(jié)點 k還對應于具有該語種k的填充音節(jié)kl到km。
[0054] 在令牌傳播過程中,一旦遇到語種狀態(tài)節(jié)點,就要比較該節(jié)點上的語種信息與令 牌自帶的語種信息是否匹配,如果不匹配就要對該令牌的得分進行一定程度的懲罰。
[0055] 其中,在構建本發(fā)明實施方式的多語種解碼網(wǎng)絡時,具體可以包括以下步驟:
[0056] 第一步:初始化開始節(jié)點Nstart和結束節(jié)點NEnd ;
[0057] 第二步:遍歷多語種列表,其中針對每一個語種1^,可以順序執(zhí)行如下子步驟 [2. 1]、[2. 2] ·、[2. 3]和[2. 4],其中子步驟[2. 3]包括進一步的子步驟[2. 3. 1]、[2. 3. 2]、 [2. 3. 3]和[2. 3. 4];子步驟[2. 4]包括進一步的子步驟[2. 4. 1]和[2. 4. 2]。因此,第二 步具體包括:
[0058] [2. 1]·構造語種節(jié)點Nu,并構造從開始節(jié)點Nstart到Nu的邊;
[0059] [2. 2].加載與語種Q對應的關鍵詞列表和填充音節(jié)列表;
[0060] [2. 3].對關鍵詞列表中的每一個關鍵詞Kp執(zhí)行如下動作;
[0061] [2· 3· 1] ·將關鍵詞Κ』.轉化成三音子序列?\,Τ2, · · ·,Τρ ;
[0062] [2· 3· 2] ·針對每個三音子構造一個節(jié)點,節(jié)點序列記為心Ν2, · · ·,Νρ ;
[0063] [2· 3· 3] ·依次構造 & 到 Ν2, Ν2 到 Ν3, · · ·,I 到 Νρ 的邊;
[0064] [2. 3. 4].構造語種節(jié)點Nu到&的邊和Νρ到結束節(jié)點NEnd的邊;
[0065] [2. 4].對填充列表中的每個填充音節(jié)Fp執(zhí)行如下動作
[0066] [2. 4. 1].構造填充音節(jié)匕對應的節(jié)點NFJ ;
[0067] [2. 4. 2].構造語種節(jié)點Nu到NFj的邊和NFj到結束節(jié)點NEnd的邊;
[0068] 第三步:構造從結束節(jié)點NEnd到開始節(jié)點Nstart的邊;
[0069] 第四步:輸出構造好的多語種解碼網(wǎng)絡。
[0070] 而且,在多語種關鍵詞檢測時,可以順序執(zhí)行以下步驟。其中:[1]為第一步;[2] 為第二步;[3]為第三步;[4]為第四步;[5]為第五步;[6]為第六步。而且[2]可以包括 子步驟[2. 1];子步驟[2. 1]包括[2. 1. 1]、[2. 1. 2]、[2. 1. 3]和[2. 1. 4]。
[0071] 具體執(zhí)行順序如下:
[0072] [1].給開始節(jié)點一個初始活躍令牌(Token),得分初始化為1 ;
[0073] [2].讀下一幀語音數(shù)據(jù),執(zhí)行如下步驟,直至所有語音數(shù)據(jù)處理完畢:
[0074] [2. 1].對每一個活躍令牌Tk,執(zhí)行如下步驟,直至所有活躍令牌都處理完畢:
[0075] [2. 1. 1].把Tk從當前狀態(tài)節(jié)點Si沿著詞網(wǎng)格的邊往前傳遞,設新節(jié)點為Sj,新令 牌為Tp;
[0076] [2. 1. 2]·如果 Sj 為語種節(jié)點,根據(jù) Score (Τρ)= δ (Lang (Tp), Lang 〇) X Score (Τ k)更新令牌Tp的得分Score (Tp),其中Score (Tk)為令牌從開始節(jié)點傳遞到Si節(jié)點的過程 中通過的所有節(jié)點路徑上的聲學模型得分累積,然后轉[2. 1. 1]繼續(xù)往前傳遞令牌;否則 執(zhí)行[2. 1. 3];
[0077] 其中Lang( ·)是用于求出節(jié)點或令牌語種信息的函數(shù),δ ( ·)是一個懲罰函數(shù), 用來定義從一個語種轉換為另一個語種時對得分的懲罰力度,當語種信息一致時取值為1。
[0078] [2. 1. 3].根據(jù)當前幀的語音數(shù)據(jù),使用聲學模型更新令牌Tp的得分;
[0079] [2. 1. 4].根據(jù)剪枝策略,判斷新令牌是否Τρ活躍;
[0080] [3].在所有到達結束節(jié)點的活躍令牌中取得分最高的,記為Tfinal ;
[0081] [4].回溯獲取Tfinal的路徑信息,返回路徑上所有的關鍵詞;
[0082] [5].利用置信度算法評估每個檢測出來的關鍵詞;
[0083] [6]·輸出最終的檢測關鍵詞列表。
[0084] 懲罰函數(shù)δ (·)在實際應用中可以用一張二維表表示,如下為針對漢語、英語、日 語、俄語四個語種的一個懲罰函數(shù)示例。
【權利要求】
1. 一種關鍵詞檢測方法,其特征在于,該方法包括: 生成包含語種信息的解碼網(wǎng)絡,在該解碼網(wǎng)絡中根據(jù)語種信息對關鍵詞進行分組; 利用所述解碼網(wǎng)絡對輸入語音進行關鍵詞檢測,其中當檢測出的關鍵詞之間的語種信 息不一致時,對所檢測出關鍵詞設置懲罰因子; 基于懲罰因子評估所檢測出的關鍵詞。
2. 根據(jù)權利要求1所述的關鍵詞檢測方法,其特征在于,所述基于懲罰因子評估所檢 測出的關鍵詞包括: 預先設置關鍵詞門限值; 利用置信度算法以及懲罰因子計算所檢測出的關鍵詞的置信度,其中當計算出的置信 度低于所述關鍵詞門限值時,去除該關鍵詞。
3. 根據(jù)權利要求1所述的關鍵詞檢測方法,其特征在于,所述生成包含語種信息的解 碼網(wǎng)絡,在該解碼網(wǎng)絡中根據(jù)語種信息對關鍵詞進行分組包括 : 初始化開始節(jié)點和結束節(jié)點,并針對每個語種信息k執(zhí)行如下步驟,其中i為語種序 號: 構造語種節(jié)點Nu,并構造從開始節(jié)點到Nu的邊; 加載與該語種信息Q對應的關鍵詞列表和填充音節(jié)列表; 對所述關鍵詞列表中的每一個關鍵詞I,其中j為關鍵詞序號,執(zhí)行如下動作: 將關鍵詞Κ」轉化成三音子序列,并針對每個三音子構造一個節(jié)點以形成節(jié)點序列;依 次構造節(jié)點序列之間的邊;構造語種節(jié)點Nu到節(jié)點序列中第一個節(jié)點的邊以及節(jié)點序列 中最后節(jié)點到結束節(jié)點的邊; 對所述填充音節(jié)列表中的每個填充音節(jié)Fk,其中k為填充音節(jié)序號,執(zhí)行如下動作: 構造填充音節(jié)Fk對應的節(jié)點NFk; 構造語種節(jié)點Nu到NFk的邊和NFk到結束節(jié)點的邊; 構造從結束節(jié)點到開始節(jié)點的邊; 輸出所述解碼網(wǎng)絡。
4. 根據(jù)權利要求1所述的關鍵詞檢測方法,其特征在于,所述利用解碼網(wǎng)絡對輸入語 音進行關鍵詞檢測,其中當檢測出的關鍵詞之間的語種信息不一致時,對所檢測出關鍵詞 設置懲罰因子包括: 在關鍵詞檢測的令牌傳播過程中,當遇到語種狀態(tài)節(jié)點時,比較該語種狀態(tài)節(jié)點上的 語種信息與令牌自帶的語種信息是否匹配,如果不匹配,則對該令牌得分設置懲罰因子。
5. 根據(jù)權利要求4所述的關鍵詞檢測方法,其特征在于,所述利用解碼網(wǎng)絡對輸入語 音進行關鍵詞檢測,其中當檢測出的關鍵詞之間的語種信息不一致時,對所檢測出關鍵詞 設置懲罰因子包括: 預先設置對應于語種類別差異的懲罰因子表; 當檢測出的關鍵詞之間的語種信息不一致時,通過檢索該懲罰因子表確定對檢測出關 鍵詞所設置的懲罰因子。
6. 根據(jù)權利要求1-5中任一項所述的關鍵詞檢測方法,其特征在于,在該解碼網(wǎng)絡中 進一步利用語種信息對填充音節(jié)進行分組; 在利用所述解碼網(wǎng)絡對輸入語音進行關鍵詞檢測時,其中當檢測出的填充音節(jié)之間的 語種信息不一致時,對與該填充音節(jié)相對應的關鍵詞設置懲罰因子。
7. -種關鍵詞檢測裝置,其特征在于,包括解碼網(wǎng)絡生成單元、關鍵詞檢測單元和關鍵 詞評估單元,其中 : 解碼網(wǎng)絡生成單元,用于生成包含語種信息的解碼網(wǎng)絡,在該解碼網(wǎng)絡中根據(jù)語種信 息對關鍵詞進行分組; 關鍵詞檢測單元,用于利用所述解碼網(wǎng)絡對輸入語音進行關鍵詞檢測,其中當檢測出 的關鍵詞之間的語種信息不一致時,對所檢測出關鍵詞設置懲罰因子; 關鍵詞評估單元,用于基于懲罰因子評估所檢測出的關鍵詞。
8. 根據(jù)權利要求7所述的關鍵詞檢測裝置,其特征在于, 關鍵詞評估單元,用于預先設置關鍵詞門限值;利用置信度算法以及懲罰因子計算所 檢測出的關鍵詞的置信度,其中當計算出的置信度低于所述關鍵詞門限值時,去除該關鍵 。
9. 根據(jù)權利要求7所述的關鍵詞檢測裝置,其特征在于, 解碼網(wǎng)絡生成單元,用于初始化開始節(jié)點和結束節(jié)點,并針對每個語種信息k執(zhí)行如 下步驟,其中i為語種序號: 構造語種節(jié)點Nu,并構造從開始節(jié)點到Nu的邊; 加載與該語種信息Q對應的關鍵詞列表和填充音節(jié)列表; 對所述關鍵詞列表中的每一個關鍵詞I,其中j為關鍵詞序號,執(zhí)行如下動作: 將關鍵詞Κ」轉化成三音子序列,并針對每個三音子構造一個節(jié)點以形成節(jié)點序列;依 次構造節(jié)點序列之間的邊;構造語種節(jié)點Nu到節(jié)點序列中第一個節(jié)點的邊以及節(jié)點序列 中最后節(jié)點到結束節(jié)點的邊; 對所述填充音節(jié)列表中的每個填充音節(jié)Fk,其中k為填充音節(jié)序號,執(zhí)行如下動作: 構造填充音節(jié)Fk對應的節(jié)點NFk ; 構造語種節(jié)點Nu到NFk的邊和NFk到結束節(jié)點的邊; 構造從結束節(jié)點到開始節(jié)點的邊; 輸出所述解碼網(wǎng)絡。
10. 根據(jù)權利要求7所述的關鍵詞檢測裝置,其特征在于, 關鍵詞檢測單元,用于在關鍵詞檢測的令牌傳播過程中,當遇到語種狀態(tài)節(jié)點時,比較 該語種狀態(tài)節(jié)點上的語種信息與令牌自帶的語種信息是否匹配,如果不匹配,則對該令牌 得分設置懲罰因子。
11. 根據(jù)權利要求10所述的關鍵詞檢測裝置,其特征在于, 關鍵詞檢測單元,用于預先設置對應于語種類別差異的懲罰因子表;當檢測出的關鍵 詞之間的語種信息不一致時,通過檢索該懲罰因子表確定對檢測出關鍵詞所設置的懲罰因 子。
【文檔編號】G10L15/08GK104143328SQ201310355905
【公開日】2014年11月12日 申請日期:2013年8月15日 優(yōu)先權日:2013年8月15日
【發(fā)明者】李露, 盧鯉, 馬建雄, 孔令揮, 饒豐, 岳帥, 張翔, 劉海波, 王爾玉, 陳波 申請人:騰訊科技(深圳)有限公司