新增口說語匯的語音識別系統與方法
【技術領域】
[0001]本發明涉及一種新增口說語匯(spoken vocabulary)的語音識別系統與方法。
【背景技術】
[0002]語音識別模塊/系統在運行之前,常需預先設定好辨識的語匯與聲學模型,并且為該語匯建構辨識時期所需的搜尋網絡,以便在辨識時能引用該搜尋網絡與聲學模型進行辨識。因此,該語音識別模塊/系統在應用之前,需要在脫機階段做好事前的準備工作。
[0003]在實際應用上,當預先設定的語匯并非使用者所習慣的語匯,或是使用者日常所使用的語言/腔調與該語音識別模塊/系統的設定不一致時,例如,一個結合居家操控的語音識別器提供臺灣腔中文聲學模型與一組語匯,如「打開電燈」、「打開冷氣」、...等,讓使用者對居家電器設備進行語音操控,而用戶習慣用臺語,或者想用「開燈」來取代原本設定的「打開電燈」語匯,或者使用上辨識效果不佳時,可能會降低使用者的使用意愿。此時,前述的語音識別器,往往需要根據使用者的習慣做客制化設計或調整。
[0004]有一技術使用一圖形化接口來增加新語匯。新增的語匯透過拼音數據庫比對,得到對應的新語匯的拼音,再將此新語匯增加到語音識別字典中。有一新增語匯的技術透過一歧異性偵測器(ambiguity detect1n engine)來偵測輸入的語匯是否與已存在的語匯有歧異性;當沒有歧異性時,回饋給使用者并詢問是否做一新增語匯的動作。有一技術依據音素結構(phonetic structure),執行輸入的聲學數據(acoustic data)的語匯元素特定型態聲學音素錄制、語匯元素型態的分類、以及語匯元素特定型態音素至字母形式轉換(phoneme-to-grapheme convers1n),來產生語匯元素。有一技術先偵測輸入的語匯是否與已存在的多個語匯的一語匯實質上匹配,是的話,將該同義詞替代該語匯并請求打算使用該語匯的用戶的輸入語音新增該同義詞。有一技術透過麥克風逐字輸入欲增加的語匯,并提供一種增加語匯的操作接口。
[0005]現有含語音識別功能的產品有地域性的限制。不同地區因口音或語系差異,需要做客制化設計與足夠的發展時程。例如,需要收集該地區大量的語音數據來涵蓋該地區可能的年齡層與口音,并檢驗這些語料的質量,以及訓練適用于該地區的聲學模型等。
[0006]在上述及/或現行的語匯產生的的語音識別技術或產品中,有的需要根據不同地區口音,做客制化設計。有的需預先設定好識別的語匯與聲學模型,以便在識別時能引用該搜尋網絡與聲學模型進行識別;在實際應用上,需要根據使用者的習慣做客制化設計或調整。所以,能夠提供一個可根據使用者需求來做調整的語音識別模塊/系統,以讓用戶方便的進行操控,并且能夠減輕技術提供者的負擔,以讓技術可被廣泛的應用是目前研發的重點。
【發明內容】
[0007]本發明的實施例可提供一種新增口說語匯的語音識別系統與方法。
[0008]本發明的一實施例是關于一種新增口說語匯的語音識別系統。此系統可包含至少一輸入設備、一模式偵測(mode detect1n)模塊、一語音訓練模塊、以及一語音識別模塊。此輸入設備接收多個輸入信號,此多個輸入信號至少包括一段聲音信號(sound signal)。此模式偵測模塊偵測此多個輸入信號,當偵測出該段聲音信號中存在一特定聲音事件或是該多個輸入信號還包括該段聲音信號以外的至少一控制信號時,輸出一語音訓練模式,當偵測出該段聲音信號中不存在該特定聲音事件并且該多個輸入信號中不存在此段聲音信號以外的該至少一控制信號時,輸出一語音識別模式。此語音訓練模塊接收該語音訓練模式,并對該段聲音信號進行一訓練處理后,輸出一訓練結果。此語音識別模塊接收該語音識別模式,并對該段聲音信號進行一語音識別處理后,輸出一辨識結果。
[0009]本發明的另一實施例是關于一種新增口說語匯的語音識別方法。此方法可包含:利用至少一輸入設備接收多個輸入信號,此多個輸入信號至少包括一段聲音信號,并利用一模式偵測模塊偵測此多個輸入信號;當偵測出該段聲音信號中存在一特定聲音事件或是該多個輸入信號還包括該段聲音信號以外的至少一控制信號時,輸出一語音訓練模式,由一語音訓練模塊對該段聲音信號進行一訓練處理后,輸出一訓練結果;以及當偵測出該段聲音信號中不存在該特定聲音事件并且是該多個輸入信號中不存在此段聲音信號以外的該至少一控制信號時,輸出一語音識別模式,由一語音識別模塊對該段聲音信號進行一語音識別處理后,輸出一辨識結果。
[0010]下面將結合下列圖示、實施例的詳細說明及申請專利范圍,將詳細描述上述及本發明的其他優點。
【附圖說明】
[0011]圖1是根據本發明的一實施例,說明一種新增口說語匯的語音識別系統。
[0012]圖2是根據本發明的一實施例,說明新增口說語匯的語音識別系統的一應用范例。
[0013]圖3是根據本發明的一實施例,說明新增口說語匯的語音識別系統的另一應用范例。
[0014]圖4(A)是根據本發明的一實施例,說明聲音事件偵測模塊進行關鍵詞萃取,取得此特定關鍵詞存在于輸入的一段聲音信號的分段時間標記的一范例示意圖。
[0015]圖4(B)是根據本發明的一實施例,說明聲音事件偵測模塊進行靜音偵測,取得此特定靜音存在于輸入的一段聲音信號的分段時間標記的一范例不意圖。
[0016]圖4(C)是根據本發明的一實施例,說明聲音事件偵測模塊進行特殊音偵測,取得此特定特殊音存在于輸入的一段聲音信號的分段時間標記的一范例不意圖。
[0017]圖5是根據本發明的一實施例,說明控制信號偵測模塊偵測默認的控制信號,取得此默認的控制信號存在于輸入的一段聲音信號的分段時間標記的一范例示意圖。
[0018]圖6是根據本發明的一實施例,說明語音訓練模塊進行語匯訓練的一范例示意圖。
[0019]圖7是根據本發明的一實施例,說明一種新增口說語匯的語音識別方法。
[0020]圖8是根據本發明的一實施例,說明一語匯模型訓練器的元件與處理流程。
[0021]圖9㈧是根據本發明的一實施例,說明以圖4㈧或圖4(C)的范例,經語音切割處理后,得到的語音段落。
[0022]圖9(B)是根據本發明的一實施例,說明以圖4(B)的范例,經語音切割處理后,得到的語音段落。
[0023]圖10是根據本發明的一實施例,舉一范例說明一種可避免無法成功偵測既定語匯的處理流程。
[0024]附圖標記說明:
[0025]100新增口說語匯的語音識別系統
[0026]110輸入設備120模式偵測模塊
[0027]130語音訓練模塊 140語音識別模塊
[0028]112輸入信號114 一段聲音信號
[0029]124語音訓練模式 126語音識別模式
[0030]132訓練處理134訓練結果[0031 ] 142語音識別處理 144辨識結果
[0032]210輸入設備220聲音事件偵測模塊
[0033]310另一輸入設備 320控制信號偵測模塊
[0034]314非聲音信號
[0035]兩箭頭分段時間標記
[0036]505使用者507默認的控制信號
[0037]514—段聲音信號 520另一輸入設備
[0038]634數據庫
[0039]632語匯模型訓練器ml 1、ml2語匯模型
[0040]636語匯集合
[0041]710利用至少一輸入設備接收多個輸入信號,此多個輸入信號至少包括一段聲音信號
[0042]720利用一模式偵測模塊偵測此多個輸入信號
[0043]732當偵測出該段聲音信號中存在一特定聲音事件或是該多個輸入信號還包括該段聲音信號以外的至少一控制信號時,輸出一語音訓練模