專利名稱:具有語音控制功能的數字媒體適配器及其語音控制方法
技術領域:
本發明涉及數字多媒體設備領域,特別涉及數字媒體適配器領域,具體是指一種具有語音控制功能的數字媒體適配器及其語音控制方法。
背景技術:
現代生活中,各種各樣的家用電器為了方便使用,都配備了遙控器,但是由于社會中一些特殊的弱勢群體的存在,以及一部分用戶對于使用遙控器感到很繁瑣,又時常會發生家中遙控器一多,便不知所蹤的情況,特別是對于數字多媒體設備領域,其功能非常強大,相應的控制操作也較為復雜,而現有技術中還沒有一種可以使用語音進行控制操作的數字多媒體裝置,這樣就給數字多媒體技術的普及推廣帶來了一定的不便。
發明內容
本發明的目的是克服了上述現有技術中的缺點,提供一種能夠對不同人的語音進行準確識別、可以進行語音識別訓練、支持多種語言、使用靈活快捷方便、操作界面友好、工作性能穩定可靠、適用面較為廣泛的具有語音控制功能的數字媒體適配器及其語音控制方法。
為了實現上述的目的,本發明的具有語音控制功能的數字媒體適配器及其語音控制方法如下該具有語音控制功能的數字媒體適配器,包括數字媒體適配器內部功能電路和紅外遙控信號輸入模塊,該數字媒體適配器與數字媒體設備相連接,其主要特點是,所述的數字媒體適配器中還包括語音輸入模塊、數模轉換模塊、語音識別模塊、語音提示與語音回放功能模塊、用戶信息存儲庫和系統控制模塊,所述的語音輸入模塊依次通過數模轉換模塊、語音識別模塊、語音提示與語音回放功能模塊和所述的系統控制模塊相連接,所述的紅外遙控信號輸入模塊和所述的系統控制模塊相連接,所述的用戶信息存儲庫和所述的語音識別模塊相連接。
該具有語音控制功能的數字媒體適配器的語音輸入模塊為具有前置放大器的駐極體麥克風。
該具有語音控制功能的數字媒體適配器的駐極體麥克風的背面安設有隔音裝置。
該使用上述的數字媒體適配器進行語音控制操作的方法,其主要特點是,所述的方法包括以下步驟(1)系統進行初始化操作;(2)系統判斷在預設的超時時間內是否通過紅外遙控信號輸入模塊接收到紅外遙控信號;(3)如果收到,則系統進入紅外遙控控制狀態,并進行后續處理;(4)如果未收到,則系統進入語音控制狀態;(5)系統判斷用戶信息存儲庫中是否為空;(6)如果是空,則系統進行用戶個人信息庫的建立和語音訓練的操作處理;(7)如果不是空,則系統等待通過語音輸入模塊接收用戶選擇個人信息庫的語音信息;(8)系統通過數模轉換模塊對所接收到的用戶的語音信息進行數模轉換處理操作;(9)系統通過語音識別模塊判斷相應的語音信息是否與所選擇的個人信息庫相符合;(10)如果否,則系統進行用戶個人信息庫的建立和語音訓練的操作處理;(11)如果是,則裝載相應的用戶個人信息庫;(12)系統通過語音輸入模塊接收用戶的語音命令;(13)系統通過數模轉換模塊對所接收到的用戶的語音信息進行數模轉換處理操作;(14)系統通過語音識別模塊、語音提示與語音回放功能模塊和系統控制模塊進行相應用戶語音命令的識別和處理操作。
該進行數字媒體適配器的語音控制操作的方法的預設的超時時間為30秒。
該進行數字媒體適配器的語音控制操作的方法的進行用戶個人信息庫的建立和語音訓練的操作處理包括以下步驟(1)系統在用戶信息存儲庫中創建相應用戶個人信息庫;(2)在該信息庫中存入該用戶的相關信息;(3)系統判斷用戶是否要進行語音訓練;(4)如果否,則將默認語音庫中的語音信息作為該用戶的個人信息庫中的語音信息;(5)如果是,則系統通過語音輸入模塊接收用戶的語音信息;(6)系統通過數模轉換模塊對所接收到的用戶的語音信息進行數模轉換處理操作;(7)系統通過語音識別模塊對語音信息進行噪音過濾和擴音處理,并進行優化算法處理;(8)對語音信息進行模式匹配算法處理;
(9)將經過上述處理后的語音信息存入該用戶的個人信息庫中。
該進行數字媒體適配器的語音控制操作的方法的用戶的相關信息包括用戶名稱、性別、語種。
該進行數字媒體適配器的語音控制操作的方法的模式匹配算法為雙模板算法或者兩級端點檢測算法。
該進行數字媒體適配器的語音控制操作的方法的數模轉換處理操作包括以下步驟(1)將用戶的語音信號轉化成數字采樣信號;(2)將上述數字采樣信號轉換為音頻模擬信號并輸出。
該進行數字媒體適配器的語音控制操作的方法的判斷相應的語音信息是否與所選擇的個人信息庫相符合包括以下步驟(1)對該語音信息進行噪音過濾和擴音處理,并進行優化算法處理;(2)結合相應的個人信息庫中存儲的對應語音信息,對上述語音信息進行模式匹配算法處理;(3)如果模式匹配結果正常,則返回語音信息相符合的結果;否則,返回語音信息不相符合的結果。
該進行數字媒體適配器的語音控制操作的方法的相應用戶語音命令的識別和處理操作包括以下步驟(1)系統通過語音識別模塊對該語音信息進行噪音過濾和擴音處理,并進行優化算法處理;(2)系統通過語音識別模塊結合相應的個人信息庫,對用戶的語音命令信號進行分析并識別出所代表的相應命令;(3)系統通過語音提示與語音回放功能模塊提示用戶進行操作并對所識別語音進行響應;(4)系統通過系統控制模塊將識別出的命令轉換成相應的控制操作信號,通過操作對應的數字媒體設備而完成該功能。
采用了該發明的具有語音控制功能的數字媒體適配器及其語音控制方法,由于在數字媒體適配器DMA的主機中加入有語音接受控制裝置,并且能夠將用戶的各種語音命令進行準確識別并轉換為系統操作指令,從而實現了對數字媒體設備的相應操作,不僅免除了復雜的遙控器操作,而且方便了許多肢體上有殘疾的殘障人士,使他們不需手動便可以實現DMA中的各項操作功能;同時還可以根據不同的用戶建立不同的記錄有語音信息的用戶個人信息庫,并可以在用戶首次使用系統的時候進行語音識別訓練,不僅系統擴展性較強,而且增加了語音識別的準確性,同時支持多種語言,使用方式靈活快捷方便,操作界面友好,系統擴展性較強;不僅如此,本發明的數字媒體適配器及其方法的工作性能穩定可靠,適用面較為廣泛,為數字多媒體技術的推廣應用帶來了很大的便利。
圖1為本發明的具有語音控制功能的數字媒體適配器的硬件模塊圖。
圖2為本發明的進行數字媒體適配器的語音控制操作的方法的工作流程圖。
圖3為本發明的進行數字媒體適配器的語音控制操作的方法的語音識別處理過程示意圖。
具體實施例方式
為了能夠更清楚地理解本發明的技術內容,特舉以下實施例詳細說明。
請參閱圖1所示,該具有語音控制功能的數字媒體適配器,包括數字媒體適配器內部功能電路和紅外遙控信號輸入模塊10,該數字媒體適配器1與數字媒體設備2相連接,其種,所述的數字媒體適配器1中還包括語音輸入模塊11、數模轉換模塊12、語音識別模塊13、語音提示與語音回放功能模塊14、用戶信息存儲庫15和系統控制模塊16,所述的語音輸入模塊11為具有前置放大器的駐極體麥克風,且該駐極體麥克風的背面還安設有隔音裝置;所述的語音輸入模塊11依次通過數模轉換模塊12、語音識別模塊13、語音提示與語音回放功能模塊14和所述的系統控制模塊16相連接,所述的紅外遙控信號輸入模塊10和所述的系統控制模塊16相連接,所述的用戶信息存儲庫15和所述的語音識別模塊13相連接。
在實際應用當中,本發明的數字媒體適配器上的語音處理功能硬件主要由四個部分組成。第一部分為模/數轉換部分,其輸入端接收輸入的語音信號,并將其轉化成數字芯片可處理的數字采樣信號;在輸出端將解碼后的語音數字信號轉換為音頻模擬信號。第二部分為語音識別部分,它的作用是對輸入的數字語音詞條信號進行分析,識別出詞條信號所代表的命令,一般由DSP芯片完成。第三部分為語音提示和語音回放部分,它一般也是在DSP中完成的,其核心是對語音信號進行數字壓縮編碼和解碼,目的是提示用戶操作并對識別語音的響應,完成人機的語音交互。第四部分是系統控制部分,它將語音識別結果轉換成相應的控制信號,并將其輸出轉換成操作,完成具體功能。語音識別與系統控制的有機結合是完成聲控交互的關鍵。
同時,對于其中的語音信號處理模塊,可以采用具有語音處理能力的芯片作為主控芯片,例如SPCE061A等,其具體技術細節描述請參見網頁http://www.unsp.com.cn/app/html/20036293035.shtml不僅如此,對于語音輸入模塊11可以采用具有前置放大器的駐極體麥克風,由于其具有高增益,高噪聲抑制能力,低輸出阻抗等特點。對于模式匹配算法,可以使用雙模板和兩級端點檢測方法,能有效地提高識別率和穩健性。
再請參閱圖2和圖3所示,該使用上述的數字媒體適配器進行語音控制操作的方法,包括以下步驟(1)系統進行初始化操作;(2)系統判斷在預設的超時時間內是否通過紅外遙控信號輸入模塊接收到紅外遙控信號,該預設的超時時間為30秒;(3)如果收到,則系統進入紅外遙控控制狀態,并進行后續處理;(4)如果未收到,則系統進入語音控制狀態;(5)系統判斷用戶信息存儲庫中是否為空;(6)如果是空,則系統進行用戶個人信息庫的建立和語音訓練的操作處理,該操作處理包括以下步驟(a)系統在用戶信息存儲庫中創建相應用戶個人信息庫;(b)在該信息庫中存入該用戶的相關信息,包括用戶名稱、性別、語種;(c)系統判斷用戶是否要進行語音訓練;(d)如果否,則將默認語音庫中的語音信息作為該用戶的個人信息庫中的語音信息;(e)如果是,則系統通過語音輸入模塊接收用戶的語音信息;(f)系統通過數模轉換模塊對所接收到的用戶的語音信息進行數模轉換處理操作;(g)系統通過語音識別模塊對語音信息進行噪音過濾和擴音處理,并進行優化算法處理;(h)對語音信息進行模式匹配算法處理,該模式匹配算法為雙模板算法或者兩級端點檢測算法;(i)將經過上述處理后的語音信息存入該用戶的個人信息庫中;(7)如果不是空,則系統等待通過語音輸入模塊接收用戶選擇個人信息庫的語音信息;(8)系統通過數模轉換模塊對所接收到的用戶的語音信息進行數模轉換處理操作,該處理操作包括以下步驟(a)將用戶的語音信號轉化成數字采樣信號;
(b)將上述數字采樣信號轉換為音頻模擬信號并輸出;(9)系統通過語音識別模塊判斷相應的語音信息是否與所選擇的個人信息庫相符合,該判斷操作包括以下步驟(a)對該語音信息進行噪音過濾和擴音處理,并進行優化算法處理;(b)結合相應的個人信息庫中存儲的對應語音信息,對上述語音信息進行模式匹配算法處理;(c)如果模式匹配結果正常,則返回語音信息相符合的結果;否則,返回語音信息不相符合的結果;(10)如果否,則系統進行用戶個人信息庫的建立和語音訓練的操作處理,其操作處理過程與上述相同;(11)如果是,則裝載相應的用戶個人信息庫;(12)系統通過語音輸入模塊接收用戶的語音命令;(13)系統通過數模轉換模塊對所接收到的用戶的語音信息進行數模轉換處理操作;(14)系統通過語音識別模塊、語音提示與語音回放功能模塊和系統控制模塊進行相應用戶語音命令的識別和處理操作,該識別和處理操作包括以下步驟(a)系統通過語音識別模塊對該語音信息進行噪音過濾和擴音處理,并進行優化算法處理;(b)系統通過語音識別模塊結合相應的個人信息庫,對用戶的語音命令信號進行分析并識別出所代表的相應命令;(c)系統通過語音提示與語音回放功能模塊提示用戶進行操作并對所識別語音進行響應;(d)系統通過系統控制模塊將識別出的命令轉換成相應的控制操作信號,通過操作對應的數字媒體設備而完成該功能。
在實際應用當中,當系統進行上電工作時,首先進入系統初期,會出現遙控選擇等待界面,如果用戶此時按下遙控器的任意鍵,即進入遙控器控制狀態,若等待時間內不做任何遙控器操作,30秒后超時,則自動進入聲音控制界面,并等待用戶選擇用戶信息庫,或者使用默認信息庫。若系統內無任何保留的用戶信息,則直接提示用戶建立新的用戶數據庫,若系統內已有用戶信息,則語音提示用戶選擇相對應的用戶數據庫對于初次使用的用戶,DMA將為其建立一個個人語音信息庫,其中儲存著該用戶的一些相關信息(性別,語音信息等)。用戶可以選擇進行語音訓練或者跳過,雖然系統也會有一套默認的語音數據庫,但是系統仍將推薦初次使用的用戶使用語音訓練系統,這樣可以使DMA獲得更好的語音識別能力,使用戶更好地對DMA進行語音控制。
對于語音訓練系統,用戶可以在任何開機的時候進行。由于DMA主要為無線連接,故DMA可任意放置。聲控DMA內有內置麥克風,需要對DMA錄音。而克服環境干擾主要通過硬件與軟件共同實現,硬件采用的是具有前置放大器的駐極體麥克風,由于其具有高增益,高噪聲抑制能力,低輸出阻抗等特點;另外為了避免在錄音的時候,用戶的聲音與電視中發出的聲音產生相互的干擾,可以使DMA具備集中針對某個方向的聲音做出處理的功能,由于用戶發出的聲音是具有一定的方向性的,于是可以在內置駐極體麥克風的背面添置隔音裝置,這樣DMA就可以對來自電視機,也就是DMA背面的聲音做出隔離,減少聲音訓練誤差的發生。對于軟件部分也就是模式匹配算法,可以使用雙模板和兩級端點檢測方法,能有效地提高識別率和穩健性。
選擇用戶信息庫的形式用戶信息庫以任意英文字符來命名。如Jack,Mike等。由于系統能夠接受的僅為單個的英文字符,因此用戶選擇信息庫的時候應該將組成該英文名稱的單個英文字母逐一讀出,例如對于Jack,用戶讀出時應為J、A、C、K;當用戶發出語音指令如”語音輸入結束”,或當用戶15秒內無任何語音操作,則聲控系統自動進入休眠狀態。當用戶需要再次輸入語音指令時,只需再次說出特定命名,如”語音輸入開始”則系統將會自動恢復語音輸入狀態,并且此時播放的節目將會被靜音,此時用戶可以再次輸入語音指令。
聲音控制DMA支持多語言版本的語音控制系統。目前主要的中英文命令有play(播放)、stop(停止)、pause(暫停)、main menu(主菜單)、video(視頻)、audio(音頻)、photo(圖片)、enter(進入)、back(退出)、up(向上)、down(向下)、left(向左)、right(向右)、播放模式、(repeat one、repeat all、normal等)、亂序播放(shuffle)、上下翻頁(page up、pagedown)、快進X倍速(fast-forward)、慢進X倍速(slow-motion)、快退X倍速(rewind)、0~9數字(數字用來輸入IP地址、網關等,例如192.168.1.22,255.255.255.0等)、26個字母等,這里就不再詳細列舉出來了。根據具有不同功能的DMA,語音指令也會有所不同。
采用了上述的具有語音控制功能的數字媒體適配器及其語音控制方法,由于在數字媒體適配器DMA的主機中加入有語音接受控制裝置,并且能夠將用戶的各種語音命令進行準確識別并轉換為系統操作指令,從而實現了對數字媒體設備的相應操作,不僅免除了復雜的遙控器操作,而且方便了許多肢體上有殘疾的殘障人士,使他們不需手動便可以實現DMA中的各項操作功能;同時還可以根據不同的用戶建立不同的記錄有語音信息的用戶個人信息庫,并可以在用戶首次使用系統的時候進行語音識別訓練,不僅系統擴展性較強,而且增加了語音識別的準確性,同時支持多種語言,使用方式靈活快捷方便,操作界面友好,系統擴展性較強;不僅如此,本發明的數字媒體適配器及其方法的工作性能穩定可靠,適用面較為廣泛,為數字多媒體技術的推廣應用帶來了很大的便利。
在此說明書中,本發明已參照其特定的實施例作了描述。但是,很顯然仍可以作出各種修改和變換而不背離本發明的精神和范圍。因此,說明書和附圖應被認為是說明性的而非限制性的。
權利要求
1.一種具有語音控制功能的數字媒體適配器,包括數字媒體適配器內部功能電路和紅外遙控信號輸入模塊,該數字媒體適配器與數字媒體設備相連接,其特征在于,所述的數字媒體適配器中還包括語音輸入模塊、數模轉換模塊、語音識別模塊、語音提示與語音回放功能模塊、用戶信息存儲庫和系統控制模塊,所述的語音輸入模塊依次通過數模轉換模塊、語音識別模塊、語音提示與語音回放功能模塊和所述的系統控制模塊相連接,所述的紅外遙控信號輸入模塊和所述的系統控制模塊相連接,所述的用戶信息存儲庫和所述的語音識別模塊相連接。
2.根據權利要求1所述的具有語音控制功能的數字媒體適配器,其特征在于,所述的語音輸入模塊為具有前置放大器的駐極體麥克風。
3.根據權利要求2所述的具有語音控制功能的數字媒體適配器,其特征在于,所述的駐極體麥克風的背面安設有隔音裝置。
4.一種使用權利要求1所述的數字媒體適配器進行語音控制操作的方法,其特征在于,所述的方法包括以下步驟(1)系統進行初始化操作;(2)系統判斷在預設的超時時間內是否通過紅外遙控信號輸入模塊接收到紅外遙控信號;(3)如果收到,則系統進入紅外遙控控制狀態,并進行后續處理;(4)如果未收到,則系統進入語音控制狀態;(5)系統判斷用戶信息存儲庫中是否為空;(6)如果是空,則系統進行用戶個人信息庫的建立和語音訓練的操作處理;(7)如果不是空,則系統等待通過語音輸入模塊接收用戶選擇個人信息庫的語音信息;(8)系統通過數模轉換模塊對所接收到的用戶的語音信息進行數模轉換處理操作;(9)系統通過語音識別模塊判斷相應的語音信息是否與所選擇的個人信息庫相符合;(10)如果否,則系統進行用戶個人信息庫的建立和語音訓練的操作處理;(11)如果是,則裝載相應的用戶個人信息庫;(12)系統通過語音輸入模塊接收用戶的語音命令;(13)系統通過數模轉換模塊對所接收到的用戶的語音信息進行數模轉換處理操作;(14)系統通過語音識別模塊、語音提示與語音回放功能模塊和系統控制模塊進行相應用戶語音命令的識別和處理操作。
5.根據權利要求4所述的進行數字媒體適配器的語音控制操作的方法,其特征在于,所述的預設的超時時間為30秒。
6.根據權利要求4所述的進行數字媒體適配器的語音控制操作的方法,其特征在于,所述的進行用戶個人信息庫的建立和語音訓練的操作處理包括以下步驟(1)系統在用戶信息存儲庫中創建相應用戶個人信息庫;(2)在該信息庫中存入該用戶的相關信息;(3)系統判斷用戶是否要進行語音訓練;(4)如果否,則將默認語音庫中的語音信息作為該用戶的個人信息庫中的語音信息;(5)如果是,則系統通過語音輸入模塊接收用戶的語音信息;(6)系統通過數模轉換模塊對所接收到的用戶的語音信息進行數模轉換處理操作;(7)系統通過語音識別模塊對語音信息進行噪音過濾和擴音處理,并進行優化算法處理;(8)對語音信息進行模式匹配算法處理;(9)將經過上述處理后的語音信息存入該用戶的個人信息庫中。
7.根據權利要求6所述的進行數字媒體適配器的語音控制操作的方法,其特征在于,所述的用戶的相關信息包括用戶名稱、性別、語種。
8.根據權利要求6所述的進行數字媒體適配器的語音控制操作的方法,其特征在于,所述的模式匹配算法為雙模板算法或者兩級端點檢測算法。
9.根據權利要求4至8中任一項所述的進行數字媒體適配器的語音控制操作的方法,其特征在于,所述的數模轉換處理操作包括以下步驟(1)將用戶的語音信號轉化成數字采樣信號;(2)將上述數字采樣信號轉換為音頻模擬信號并輸出。
10.根據權利要求4至8中任一項所述的進行數字媒體適配器的語音控制操作的方法,其特征在于,所述的判斷相應的語音信息是否與所選擇的個人信息庫相符合包括以下步驟(1)對該語音信息進行噪音過濾和擴音處理,并進行優化算法處理;(2)結合相應的個人信息庫中存儲的對應語音信息,對上述語音信息進行模式匹配算法處理;(3)如果模式匹配結果正常,則返回語音信息相符合的結果;否則,返回語音信息不相符合的結果。
11.根據權利要求4至8中任一項所述的進行數字媒體適配器的語音控制操作的方法,其特征在于,所述的相應用戶語音命令的識別和處理操作包括以下步驟(1)系統通過語音識別模塊對該語音信息進行噪音過濾和擴音處理,并進行優化算法處理;(2)系統通過語音識別模塊結合相應的個人信息庫,對用戶的語音命令信號進行分析并識別出所代表的相應命令;(3)系統通過語音提示與語音回放功能模塊提示用戶進行操作并對所識別語音進行響應;(4)系統通過系統控制模塊將識別出的命令轉換成相應的控制操作信號,通過操作對應的數字媒體設備而完成該功能。
全文摘要
本發明涉及一種具有語音控制功能的數字媒體適配器及方法,其中適配器包括語音輸入模塊、數模轉換模塊、語音識別模塊、語音提示與語音回放功能模塊、用戶信息存儲庫、紅外遙控信號輸入模塊和系統控制模塊,該方法包括判斷在一定時間內是否有紅外遙控信號、用戶信息庫建立和語音訓練、接收選擇用戶信息庫的語音信息、對語音信息進行數模轉換處理、判斷相應的語音信息是否與所選擇的個人信息庫相符合、進行相應用戶語音命令的識別和處理操作。采用該種具有語音控制功能的數字媒體適配器及其語音控制方法,不需手動便可實現DMA的操作功能,支持多用戶、多語言和語音識別訓練,擴展性較強,語音識別的準確性高,工作性能穩定可靠,適用面較為廣泛。
文檔編號G08C23/02GK101025860SQ20061002414
公開日2007年8月29日 申請日期2006年2月24日 優先權日2006年2月24日
發明者吳燏瑛 申請人:環達電腦(上海)有限公司