語音識別裝置的制造方法
【技術領域】
[0001]本發明涉及對說出的語音進行識別的語音識別裝置。
【背景技術】
[0002]作為語音識別的方法,在說話人進行了語音識別開始指示的操作之后對說出的語音進行識別的方法、和不進行該操作而始終對說出的語音進行識別的方法已廣為人知。前一方法通過明確地示出所說語音的起始端,從而使區間檢測變得容易,因此識別率變高,但由于在識別時需要進行特定的操作,因此比較麻煩。而后一方法無需進行特定的操作,因此克服了上述缺點,但由于語音的區間檢測較為困難,所以存在識別率變低的問題。
[0003]為解決這些問題,例如專利文獻I中公開了具備上述2種語音識別方法并根據說話人的狀況或周圍的狀況來自動地切換到合適的語音識別方法的語音識別裝置。具體而言,例如在周圍的噪音較大的情況下切換到前一語音識別方法,在噪音較小的情況下切換到后一語音識別方法。
現有技術文獻專利文獻
[0004]專利文獻I
日本專利特開2001-42894號公報
【發明內容】
發明所要解決的技術問題
[0005]然而,在例如專利文獻I那樣的現有語音識別裝置中,當切換到其中一個語音識別方法時,就無法使用另一語音識別方法。因此,例如即使在噪音較小的場所想要更可靠地對語音進行識別的情況下,也無法使用前一語音識別方法,從而存在對于說話人來說便利性較低的問題。
[0006]本發明是為了解決上述技術問題而完成的,其目的在于提供一種即使是在始終對說出的語音進行識別的情況下也能夠接受說話人的語音識別開始指示操作的語音識別裝置。
解決技術問題所采用的技術手段
[0007]為了達到上述目的,本發明的語音識別裝置對說出的語音進行識別,其包括:語音獲取部,該語音獲取部檢測并獲取所述說出的語音;第I語音識別部,該第I語音識別部在所述語音識別裝置啟動的情況下始終對所述語音獲取部所獲取的語音數據進行識別;語音識別開始指示部,該語音識別開始指示部輸出語音識別開始的指示信號;第2語音識別部,該第2語音識別部在接收到所述語音識別開始指示部輸出的信號時,對所述語音獲取部所獲取的語音數據進行識別;以及控制部,該控制部獲取并輸出所述第I語音識別部或所述第2語音識別部的識別結果,所述控制部獲取所述第I語音識別部的識別結果,在沒有接收到所述語音識別開始指示部輸出的信號的情況下,將所述第I語音識別部的識別結果輸出到所述語音識別裝置所適用的裝置,在接收到所述語音識別開始指示部輸出的信號的情況下,獲取所述第2語音識別部的識別結果,并將該第2語音識別部的識別結果優先于所述第I語音識別部的識別結果進行輸出。
發明效果
[0008]根據本發明的語音識別裝置,即使是在始終對說出的語音進行識別的情況下,也能夠接受語音識別開始指示的操作,因此能夠避免因識別時需要進行特定操作所帶來的麻煩,而且在說話人希望的情況下,能夠通過語音識別開始指示的操作,利用識別率更高的語音識別方法來進行識別,從而能夠提高便利性。
【附圖說明】
[0009]圖1是表示實施方式I的語音識別裝置的一個示例的框圖。
圖2是表示實施方式I的語音識別裝置中的處理的流程圖。
圖3是表示實施方式2的語音識別裝置的一個示例的框圖。
圖4是存儲了畫面的類別信息的表格。
圖5是表示實施方式2的語音識別裝置中的處理的流程圖。
圖6是表示在導航部的顯示部上顯示名稱列表的畫面例的圖。
圖7是表示實施方式3的語音識別裝置的一個示例的框圖。
圖8是表示實施方式3的語音識別裝置中的處理的流程圖。
圖9是表示實施方式4的語音識別裝置的一個示例的框圖。
圖10是表示實施方式4的語音識別裝置中的處理的流程圖。
圖11是明確示出是否是輸出始終進行語音識別的第I語音識別部的識別結果的狀態的圖像或文字等的例子。
圖12是在一般的導航畫面中顯示圖11所示的圖像或文字等的例子。
圖13是在一般的導航畫面中用視覺性的方法顯示噪音音量的例子。
【具體實施方式】
[0010]下面,參照附圖,對本發明的實施方式進行詳細說明。
本發明是對說出的語音進行識別的語音識別裝置,在該語音識別裝置啟動的情況下,始終進行語音識別,同時也接受說話人的語音識別開始指示的操作。在下面的實施方式中,以將本發明的語音識別裝置用于搭載于車輛等移動體的導航裝置的情況為例進行說明,但也可以用于安裝在智能手機、平板電腦、移動電話等上的導航系統等。
[0011]實施方式I
圖1是表示本發明的實施方式I的語音識別裝置的一個示例的框圖。該語音識別裝置10包括語音獲取部1、語音識別開始指示部2、語音識別部3、語音識別詞典4和控制部5。該語音識別裝置10被用于具備導航部6的導航裝置。
[0012]語音獲取部I取得由麥克風收集的話語、即輸入的語音,并通過例如PCM(PulseCode Moduat1n:脈沖編碼調制)來進行A/D (Analog/Digital:模/數)轉換。
[0013]語音識別開始指示部2是例如顯示在觸摸屏上的圖標、手柄或設置在導航系統中的按鈕或遙控器等的操作部,當說話人按下該語音識別開始指示部2時,向后述的第2語音識別部3b輸出指示語音識別處理開始的信號。還向后述的控制部5輸出表示語音識別開始指示部2被按下的信號。
[0014]語音識別部3由第I語音識別部3a和第2語音識別部3b構成,從經由語音獲取部I而數字化后的語音信號中,檢測出與說話內容相符合的語音區間,提取出該語音區間的語音數據的特征量,基于該特征量,利用語音識別詞典4進行識別處理,并輸出語音識別結果的字符串。識別處理使用例如HMM(Hidden Markov Model:隱馬爾可夫模型)法之類的一般方法即可。
[0015]這里,第I語音識別部3a在說話人沒有做出語音識別開始指示的情況下也始終對說話人說話的內容進行識別。即,第I語音識別部3a在沒有接收到語音識別開始指示部2輸出的語音識別開始指示信號的情況下,也始終對語音獲取部I所獲取的語音數據進行上述識別處理。另一方面,第2語音識別部3b在說話人按下語音識別開始指示部2從而接收到語音識別開始指示部2所輸出的語音識別開始信號時,以此為觸發來對語音獲取部I所獲取的語音數據進行識別。
[0016]該第I語音識別部3a的識別結果與第2語音識別部3b的識別結果相比,始終進行識別的第I語音識別部3a的識別結果的精度沒有第2語音識別部3b的識別結果的精度好。但由于在說話人沒有作出語音識別開始指示的情況下也始終進行語音識別,因此便利性更好。
另一方面,第2語音識別部3b的識別結果是以說話人做出的語音識別開始指示為觸發來開始語音識別的,因此語音識別開始地點明確,所以語音識別的精度更好。但說話人必須要在語音識別開始指示部2上進行操作。
[0017]語音識別詞典4中存儲有用來在語音識別部3 (第I語音識別部3a和第2語音識別部3b)進行語音識別時與語音數據的特征量進行對照的可能被提取出的詞匯。
[0018]控制部5獲取語音識別部3 (第I語音識別部3a和第2語音識別部3b)所識別的結果,判斷是否輸出各識別結果,并將其輸出至后述的導航部6 (語音識別裝置10所適用的裝置)。此時,控制部5基本上是輸出第I語音識別部3a所識別出的識別結果字符串,但在語音識別開始指示部2輸出了信號的情況下,將第2語音識別部3b所識別的識別結果字符串優先于第I語音識別部3a所識別的識別結果字符串進行輸出。
[0019]導航部6使用控制部5所輸出的識別結果字符串來進行設施檢索、或將識別結果顯示在畫面上、或執行與識別結果字符串相對應的功能。導航部6具備通常的導航裝置所具備的的基本功能,圖中省略了圖示,但也可以具備用于對識別結果進行畫面顯示的顯示部。<