本發明涉及機器人的技術領域,尤其涉及一種兒童機器人用的語音識別裝置。
背景技術:
隨著智能移動終端技術和語音交互技術高速發展,以及語音交互技術在智能移動終端的廣泛應用,使得智能移動終端具備語音交互功能。通常的語音交互技術中,由于受到采集難易程度和采集成本等不同因素影響,使得已知語料庫中是以采集較為方便的成人語料為主,兒童語料占據比例小。但是,與成年人相比,兒童的發音有著聲道長度短、發音速度變化大以及無意義語氣詞較多等特點,因此,采用上述已知語料庫的語音識別系統對兒童語音的針對性不足,對成年人的語音進行語音識別處理的準確度要高于兒童的。
技術實現要素:
本發明主要解決的技術問題是提供一種兒童機器人用的語音識別裝置,適用于兒童機器人,對兒童所發出的語音進行識別,識別后發出正確的語音并通知執行相關的動作,合理高效地提高了對兒童語音的識別率,達到對兒童語音針對性更強,語音識別率更高,識別結果更加準確的有益效果。
為解決上述技術問題,本發明采用的一個技術方案是:提供了一種兒童機器人用的語音識別裝置,包括語音采集端、語音發送端、語音語料庫、提取處理器、識別分析儀以及同步模塊,所述的語音采集端與語音語料庫相連接,所述的語音語料庫分別與提取處理器和識別分析儀相連接,所述的語音語料庫通過相連接的提取處理器和識別分析儀與同步模塊連接在一起,所述的語音語料庫通過相連接的提取處理器和識別分析儀與同步模塊連接在一起,所述的語音發送端與同步模塊相連接。
在本發明一個較佳實施例中,所述的兒童機器人用的語音識別裝置還包括語言模型,所述的語音語料庫通過語言模型與識別分析儀相連接。
在本發明一個較佳實施例中,所述的兒童機器人用的語音識別裝置還包括語言模型和聲學模型,所述的語音語料庫通過語言模型與識別分析儀相連接;所述的語音語料庫通過聲學模型與提取處理器相連接。
在本發明一個較佳實施例中,所述的聲學模型通過隱馬爾科夫模型對語音語料庫內的聲學特征進行建模。
在本發明一個較佳實施例中,所述的聲學模型中還設置有靜音模型和語氣詞模型。
在本發明一個較佳實施例中,所述的靜音模型采用64個高斯混合模型進行描述聲韻母的HMM的每個狀態。
在本發明一個較佳實施例中,所述的語氣詞模型采用多個語氣詞共建立一個模型或者對每個語氣詞分別建立一個模型。
在本發明一個較佳實施例中,所述的語言模型采用 N-gram 的統計語言模型。
在本發明一個較佳實施例中,所述的語音語料庫包括成人的語音語料和兒童的語音語料。
在本發明一個較佳實施例中,所述的兒童機器人用的語音識別裝置還包括執行組件,所述的執行組件與語音發送端相連接。
本發明的有益效果是:本發明的兒童機器人用的語音識別裝置,適用于兒童機器人,對兒童所發出的語音進行識別,識別后發出正確的語音并通知執行相關的動作,合理高效地提高了對兒童語音的識別率,達到對兒童語音針對性更強,語音識別率更高,識別結果更加準確的有益效果。
附圖說明
為了更清楚地說明本發明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它的附圖,其中:
圖1 是本發明兒童機器人用的語音識別裝置的一較佳實施例的結構示意圖。
具體實施方式
下面將對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅是本發明的一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其它實施例,都屬于本發明保護的范圍。
如圖1所示,本發明實施例包括:
一種兒童機器人用的語音識別裝置,包括語音采集端、語音發送端、語音語料庫、提取處理器、識別分析儀以及同步模塊,所述的語音采集端與語音語料庫相連接,所述的語音語料庫分別與提取處理器和識別分析儀相連接,所述的語音語料庫通過相連接的提取處理器和識別分析儀與同步模塊連接在一起,所述的語音語料庫通過相連接的提取處理器和識別分析儀與同步模塊連接在一起,所述的語音發送端與同步模塊相連接。
上述中,所述的兒童機器人用的語音識別裝置還包括語言模型和聲學模型,所述的語音語料庫通過語言模型與識別分析儀相連接;所述的語音語料庫通過聲學模型與提取處理器相連接。
其中,所述的語音語料庫包括成人的語音語料和兒童的語音語料;所述的聲學模型通過隱馬爾科夫模型對語音語料庫內的聲學特征進行建模;語言模型均采用 N-gram 的統計語言模型。
通過已知的語音語料庫分別建立聲學模型和語言模型;接收兒童的語音信號,并對語音信號進行前端處理;對經過前端處理的語音信號進行特征提取處理,以獲取語音信號的聲學特征;提取聲學特征后再進行識別分析處理,通過聲學模型和語言模型對語音信號的聲學特征進行解碼搜索,再進行識別分析處理以獲得識別文本,同步校正后發出對應的語音信號,并通知兒童機器人執行相關的動作。
其中,通過語音語料庫建立聲學模型包括:對所述語音語料庫中的全部語音語料進行特征提取處理,并在所述特征提取處理過程中加入聲道長度歸一化技術,以獲得所述全部語音語料的聲學特征;根據所述全部語音語料的聲學特征進行建模,以獲得所述聲學模型。
需要說明的是,本實施例中的聲學模型除了常用的中文聲韻母模型的配置方式,還可以加入下文將要描述的靜音模型和語氣詞模型。現對本實施例中的靜音模型以及語氣詞模型進行分別介紹。
由于兒童發音語速變化大,并且兒童的語音信息中可能出現會說說停停的問題,因此,需要在聲學模型的設置中加入靜音模型,來識別兒童語音中可能出現大段靜音的情況。本發明實施例中,在建立聲學模型時,需要對不同的發音建立單獨的模型。以中文為例,需要對66個聲韻母單獨建立HMM模型。并且,本發明實施例能夠進一步增大靜音模型的描述精度。例如,在通常的聲音模型中,采用32個高斯混合模型(Gassion Mixture Model,以下簡稱GMM)進行描述聲韻母的HMM的每個狀態,則在建立本發明實施例中的靜音模型時, 可以將GMM的采用個數提升為至少采用64個。本發明實施例中,針對兒童發音速度變化大、容易出現大段靜音的發音特點,在建立的聲音模型中添加靜音模型,提高對兒童語音信息的識別率,合理高效地增大對兒童語音信息識別的準確性。
另外,本發明實施例建立的聲學模型中還可以添加語氣詞模型。由于兒童發音時經常會出現無意義的語氣詞,例如“嗯”、“啊”、“哦”,等,因此,為提高對兒童語音信息的識別率,在聲學模型的設置中加入語氣詞模型,單獨對語氣詞建立數學模型。優選地,本發明實施例中,可以在訓練語料不足的情況下,對“嗯”、“啊”、“哦”等多個語氣詞共建立一個模型,還可以在訓練語料多的情況下,對每個語氣詞分別建立一個模型。本發明實施例中,針對兒童無意義的語氣詞較多的發音特點,在聲學模型的建立中,添加語氣詞模型,進一步提高對兒童語音的識別率,增大識別的準確性。
建立語言模型時,為生成語言模型,通常需要大量的文本語料對各個字詞之間的N-gram進行統計。因此,現有技術中,建立模型所采用的語音語料庫越接近兒童的發音方式,識別性能就越好。但是,兒童發音與成人發音存在巨大的差異,而大部分的語音語料庫以成人文本語料為主。因此,語音語料庫并不能夠準確地描述或者涵蓋兒童的發音方式。
為取得能夠準確描述或者涵蓋兒童的發音方式的語音語料庫,本發明實施例對語音語料庫進行變形處理。在對語音語料庫進行變形處理時,考慮到兒童的性格和/或天性和/或本能,設置適合兒童的發音方式的預設變性規則。
例如,由于兒童的天性或者本能為兒童喜歡對看見和/或聽見和/或聞見和/ 或通過其他感官接觸到的事物進行異想天開的聯想,導致兒童的發音方式容易出現如下發音特點:
同一個詞可能會多次重復。例如“蘋果好吃”會說成“蘋果蘋果好吃”;詞尾的字也可能會重復,例如“蘋果好吃”會說成“蘋果果好吃”,或“蘋果好吃吃”等;無意義的助聲詞增多,例如“蘋果好吃”會說出“蘋果、嗯、好吃”,或“蘋、啊、果、好 吃”等。
本實施例中,對待變形文本語料進行變形處理時,首先對待變形文本語料中所有的語句進行分詞處理。即,將完整的語句變成獨立的詞。例如“今天媽媽買的蘋果真好吃”分詞后變成“今天媽媽買的蘋果真好吃”。
其次,在經過分詞處理的待變形文本語料中,隨機選擇至少一個詞進行重復處理。本發明實施例中,對經過分詞處理的待變形文本語料中隨機選擇的至少一個詞進行的重復處理,可以是根據兒童發音方式對待變形文本語料進行的任意重復處理操作。優選地,本實施例中,根據兒童發音方式中常見的情況,選取三種重復處理操作,即詞重復處理、詞尾重復處理以及助聲詞增多處理。在對待變形文本語料進行分詞處理之后,本實施例能夠選取上述三種重復處理操作中的一種或者多種對待變形語料進行變性。并且,本實施例中,若選取三種重復處理操作中的多種對待變形語料進行變形,則本實施例對執行不同重復處理的順序不加限定。
因此,針對兒童的發音特點,本發明實施例對語音語料庫的文本進行變形處理,并通過變形的語音語料庫建立更加準確的語音模型以增加對兒童語音識別的準確性。
綜上所述,本發明的兒童機器人用的語音識別裝置,適用于兒童機器人,對兒童所發出的語音進行識別,識別后發出正確的語音并通知執行相關的動作,合理高效地提高了對兒童語音的識別率,達到對兒童語音針對性更強,語音識別率更高,識別結果更加準確的有益效果。
以上所述僅為本發明的實施例,并非因此限制本發明的專利范圍,凡是利用本發明說明書內容所作的等效結構或等效流程變換,或直接或間接運用在其它相關的技術領域,均同理包括在本發明的專利保護范圍內。