語音對話設備、系統、及語音對話實現方法

文檔序號：6356932閱讀：300來源：國知局

專利名稱：語音對話設備、系統、及語音對話實現方法
技術領域：
本發明涉及ー種語音對話技術，特別是涉及ー種語音對話設備、系統、及語音對話實現方法。
背景技術：
語音對話技術一直是倍受人們關注的熱點之一。語音對話設備的應用前景非常廣泛，例如，隨著旅游業的發展，游客在一個陌生的城市中往往會存在諸如尋找住宿、詢問路線、以及尋求救助等諸多的問題；而在城市中設置語音對話設備，是為游客提供幫助的ー個很好的解決辦法。現有的語音對話設備實現語音對話的方式通常為采集語音信號，對該語音信號進行語音識別，根據語音識別結果在其內部查找應答內容，之后，朗讀該應答內容。發明人在實現本發明過程中發現現有的網絡資源是非常豐富的，而僅利用語音對話設備內部存儲的訊息來實現語音對話，不但沒有充分利用現有的網絡資源，而且，還會使語音對話設備的應答內容受到語音對話設備自身存儲內容的限制，另外，對語音對話設備內部存儲的訊息進行更新管理并不便捷。有鑒于上述現有的語音對話實現方式存在的缺陷，本發明人基于從事此類產品設計制造多年豐富的實務經驗及專業知識，并配合學理的運用，積極加以研究創新，以期創設ー種新型結構的語音對話設備和系統、以及ー種新的語音對話實現方法，能夠克服現有的語音對話實現方式存在的問題，使其更具有實用性。經過不斷的研究、設計，經過反復試作樣品及改進后，終于創設出確具實用價值的本發明。

發明內容
本發明的目的在于，克服現有的語音對話實現方式存在的缺陷，而提供ー種新型結構的語音對話設備和系統、以及ー種新的語音對話方法實現方法，所要解決的技術問題是，充分利用網絡資源，消除語音對話設備自身存在的限制條件，且便于語音對話設備的維護，非常適于實用。本發明的目的以及解決其技術問題可以采用以下的技術方案來實現。依據本發明提出的ー種語音對話設備，所述設備包括聲音擷取模塊，用于拾取聲音，并輸出音頻信號；語音識別模塊，用于將所述音頻擷取模塊輸出的音頻信號轉換為文本格式信息；關鍵詞模塊，用于從所述語音識別模塊轉換后的文本格式信息中提取關鍵詞，并輸出；程序接ロ模塊；查詢模塊，用于在本地未存儲有與所述關鍵詞匹配的應答文本的情況下，通過所述程序接ロ模塊向預定程序接ロ服務器發送包含有所述關鍵詞作為查詢參數的查詢請求消息；朗讀模塊，用于朗讀所述程序接ロ模塊接收到的所述程序接ロ服務器發送來的查詢應答消息中的成功查詢結果信息或者朗讀本地存儲的與所述關鍵詞匹配的應答文本。本發明的目的以及解決其技術問題還可以采用以下的技術措施來進ー步實現。
較佳的，前述的語音對話設備，其中所述的語音對話設備包括移動電話、臺式計算機、筆記本型計算機、或者平板計算機。較佳的，前述的語音對話設備，其中語音對話設備還包括去噪模塊用于對所述聲音擷取模塊輸出的音頻信號進行去噪處理，并將去噪后的音頻信號傳輸給語音識別模塊。較佳的，前述的語音對話設備，其中所述查詢模塊包括地址單元，用于在本地未存儲有與所述關鍵詞匹配的應答文本的情況下，判斷所述關鍵詞所屬的類型，并確定所述關鍵詞所屬的類型對應的程序接ロ服務器地址；查詢單元，用于通過所述程序接ロ模塊根據所述對應的程序接ロ服務器地址發送包含有所述關鍵詞的查詢請求消息；解析単元，對所述程序接ロ模塊接收到的所述程序接ロ服務器發送來的針對所述查詢請求消息的回復消息進行解析，并將解析出的成功查詢結果信息以文本格式提供給朗讀模塊。較佳的，前述的語音對話設備，其中所述查詢模塊還用于，在所述程序接ロ模塊接收到程序接ロ服務器發送來的重定位消息后，根據所述重定位消息中攜帯的服務器地址信息通過所述程序接ロ模塊發送包含有所述關鍵詞的查詢請求消息。依據本發明提出的ー種語音對話系統，所述系統包括至少ー個程序接ロ服務器和至少ー個上述的語音對話設備。依據本發明提出的ー種語音對話實現方法，所述方法包括語音對話設備拾取聲音的音頻信號；對所述音頻信號進行語音識別，以轉換為文本格式信息；從所述文本格式信息中提取關鍵詞；在本地未存儲有與所述關鍵詞匹配的應答文本的情況下，向預定程序接ロ服務器發送包含有所述關鍵詞的查詢請求消息，并接收所述程序接ロ服務器發送來的查詢應答消息；朗讀所述查詢應答消息中攜帯的成功查詢結果信息。較佳的，前述的語音對話實現方法，所述對所述音頻信號進行語音識別包括將所述拾取的聲音的音頻信號進行去噪和/或格式轉換處理，并對處理后的音頻信號進行語音識別處理。較佳的，前述的所述向預定程序接ロ服務器發送包含有所述關鍵詞的查詢請求消息包括在本地未存儲有與所述關鍵詞匹配的應答文本的情況下，判斷所述關鍵詞所屬的類型，并確定所述關鍵詞所屬的類型對應的程序接ロ服務器地址；根據所述程序接ロ服務器地址發送包含有所述關鍵詞的查詢請求消息。較佳的，前述的的語音對話實現方法，所述方法還包括在接收到所述程序接ロ服務器發送來的重定位消息后，根據所述重定位消息中攜帯的服務器地址信息發送包含有所述關鍵詞的查詢請求消息。借由上述技術方案，本發明的語音對話設備、系統、及語音對話實現方法至少具有下列優點及有益效果本發明中的語音對話設備通過從語音識別后的文本格式信息中選取關鍵詞，井向程序接ロ服務器發送包含有關鍵詞的查詢請求消息，使程序接ロ服務器可以向語音對話設備提供與該關鍵詞對應的成功查詢結果信息，從而充分利用了網絡資源，消除了語音對話設備自身存在的限制條件，提高了語音對話設備的可維護性，非常適于實用。綜上所述，本發明在技術上有顯著的進步，并具有明顯的積極效果，誠為一新穎、進步、實用的新設計。上述說明僅是本發明技術方案的概述，為了能夠更清楚了解本發明的技術手段，而可依照說明書的內容予以實施，并且為了讓本發明的上述和其他目的、特征和優點能夠更明顯易懂，以下特舉較佳實施例，并配合附圖，詳細說明如下。

圖I為本發明的語音對話設備示意圖；圖2為本發明的語音對話系統示意·
圖3為本發明的語音對話實現方法流程圖。
具體實施例方式為更進一步闡述本發明為達成預定發明目的所采取的技術手段及功效，以下結合附圖以及較佳實施例，對依據本發明提出的語音對話設備、系統、及語音對話實現方法其具體實施方式
、結構、步驟、特征及功效，詳細說明如后。實施例一、語音對話設備。圖I示出了本發明具體實施例的ー種語音對話設備。該語音對話設備可以具體為移動電話、臺式計算機、筆記本型計算機、或者平板計算機等。另外，該語音對話設備還可以為在街道、酒店、電話廳等處專門設置的查詢設備等。本發明不限制語音對話設備的具體表現形式。圖I示出的語音對話設備包括聲音擷取模塊I、語音識別模塊2、關鍵詞模塊3、程序接ロ模塊4、查詢模塊5、以及朗讀模塊6。另外，該語音對話設備還可以包括去噪模塊7。聲音擷取模塊I主要用于拾取聲音，即拾取對話方發出的聲音。聲音擷取模塊I將拾取到的聲音的音頻信號輸出至去噪模塊7。在語音對話設備不存在去噪模塊7的情況下，聲音擷取模塊I可以將其拾取到的聲音的音頻信號輸出至語音識別模塊2。聲音擷取模塊I可以具體表現為麥克風、或者耳麥等形式。去噪模塊7主要用于對聲音擷取模塊I輸出的音頻信號進行去噪、以及格式轉換等處理，去噪模塊7將處理后的音頻信號傳輸給語音識別模塊2。語音識別模塊2主要用于將音頻擷取模塊I或者去噪模塊7輸出的音頻信號進行語音識別處理，從而將其接收到的音頻信號轉換為文本格式信息。本發明中的語音識別模塊2可以采用現有的多種語音識別技術來進行語音識別，本發明不限制語音識別模塊2進行語音識別的具體實現過程。關鍵詞模塊3主要用于從語音識別模塊2轉換后的文本格式信息中提取關鍵詞，并向查詢模塊5輸出其提取出的關鍵詞。關鍵詞模塊3提取出的關鍵詞可以具體為地名、街道名稱、景點名稱、時間、交通工具、以及建筑物名稱等等。關鍵詞模塊3可以采用預定的提取策略進行關鍵詞的提取，例如，關鍵詞キ吳塊3在提取關鍵詞的過程中可以忽略“的”、“了”、以及“你、我、他”等語氣助詞和代詞等。關鍵詞模塊3可以采用現有的提取策略進行關鍵詞的提取，本發明不限制關鍵詞模塊3提取關鍵詞的具體實現過程。程序接ロ模塊4是語音對話設備與程序接ロ服務器之間進行信息交互的接ロ，該程序接ロ模塊4可以為無線網絡接ロ，也可以為有線網絡接ロ。本發明不限制程序接ロ模塊4的具體表現形式。查詢模塊5主要用于在本地未存儲有與所述關鍵詞匹配的應答文本的情況下，通過程序接ロ模塊4向預定程序接ロ服務器發送包含有關鍵詞模塊3提取的關鍵詞的查詢請求消息，即查詢模塊5將關鍵詞封裝為預定協議的消息并發送。這里的預定程序接ロ服務器是指語音對話設備中預先存儲的程序接ロ服務器地址對應的程序接ロ服務器。語音對話設備中預先存儲的程序接ロ服務器地址可以為ー個或者多個。在語音對話設備中存儲的程序接ロ服務器地址為多個情況下，查詢模塊5可以從中選取ー個地址，井根據該地址發送包含有關鍵詞的查詢請求消息。查詢模塊5選取地址的方式可以為選取缺省地址，也可以為根據關鍵詞所屬的類型、以及程序接ロ服務器地址所屬的類型選取類型匹配的服務器地址。本發明不限制查詢模塊5選取程序接ロ服務器地址的具體實現方式、以及查詢請求消息所采用的具體協議。查詢模塊5還可以對程序接ロ模塊4接收到的程序接ロ服務器發送來的針對查詢請求消息的回復消息進行解析，該回復消息如查詢應答消息、以及重定位消息等。在回復消息為包含有成功查詢結果信息的查詢應答消息的情況下，查詢模塊5會將查詢應答消息中攜帯的查詢結果信息以文本格式的形式提供給朗讀模塊6。在回復消息為包含有查詢失敗信息的查詢應答消息的情況下，查詢模塊5會將預先設定的查詢失敗的文本格式信息提供給朗讀模塊6，或者將查詢應答消息中攜帯的查詢失敗信息以文本格式的形式提供給朗讀模塊6。在回復消息為包含有重定位的服務器地址信息的重定位消息的情況下，查詢模塊5根據該重定位消息中攜帯的服務器地址信息再次通過程序接ロ模塊4發送包含有關鍵詞的查詢請求消息。上述查詢模塊5可以具體包括地址單元、查詢單元、以及解析単元。地址單元主要用于在本地未存儲有與所述關鍵詞匹配的應答文本的情況下，判斷關鍵詞模塊3提取出的關鍵詞所屬的類型，并確定該關鍵詞所屬的類型對應的服務器地址。具體的，地址單元中可以預先設置有程序接ロ服務器地址與類型信息(如天氣服務、路線問訊服務、以及電話號碼查詢服務等類型)的對應關系信息，地址單元在判斷出關鍵詞所屬的類型后，從預先存儲的上述對應關系信息中查找該類型匹配的服務器地址信息。查詢單元主要用于根據地址單元輸出的程序接ロ服務器地址執行關鍵詞的封裝處理操作，并通過程序接ロ模塊4向程序接ロ服務器發送封裝處理后的包含有該關鍵詞的查詢請求消息。該查詢請求消息的目的地址為地址單元提供的程序接ロ服務器地址。解析単元主要用于對程序接ロ模塊4接收到的程序接ロ服務器發送來的針對查詢請求消息的回復消息進行解析，將解析出的成功查詢結果信息、或者解析出的查詢失敗信息、或者預先存儲的查詢失敗信息以文本格式的方式提供給朗讀模塊6。朗讀模塊6主要用于在本地存儲有與上述提取的關鍵詞匹配的應答文本的情況下，朗讀本地存儲的與關鍵詞匹配的應答文本格式的信息，在本地未存儲有與上述提取的關鍵詞匹配的應答文本的情況下，朗讀模塊6朗讀查詢應答消息中攜帯的成功查詢結果信息。例如，朗讀模塊6朗讀程序接ロ模塊4接收到的程序接ロ服務器發送來的查詢應答消息中的成功查詢結果信息等。朗讀模塊6包含有揚聲器。朗讀模塊6可以采用現有的朗讀技術來實現文本格式信息的朗讀。實施例ニ、語音對話系統。圖2示出了本發明具體實施例的ー種語音對話系統。該系統包括至少ー個程序接ロ服務器200和至少ー個語音對話設備210。圖2中僅示意性的示出了一個程序接ロ服務器200和兩個語音對話設備210，在實際應用中，程序接ロ服務器200的數量和語音對話設備210的數量都可以更多。程序接ロ服務器200主要用于接收語音對話設備210傳輸來的查詢請求消息，并根據查詢請求消息中攜帯的關鍵詞進行檢索，之后，將檢索結果攜帯在查詢應答消息中返回給語音對話設備210。該檢索結果可以包括成功查詢結果信息，也可以包括查詢失敗信息。在程序接ロ服務器200查詢失敗的情況下，程序接ロ服務器200還可以向語音對話設備210返回包含有其它服務器地址信息的重定位消息，以盡可能的使對話方可以獲得滿意的查詢結果。語音對話設備210的具體結構如上述實施例一中的描述，在此不再重復說明。實施例三、語音對話實現方法。圖3示出了語音對話實現方法的流程圖。圖3中，S300、語音對話設備拾取聲音的音頻信號。語音對話設備可以通過其聲音擷取模塊拾取對話方發出的聲音。S310、語音對話設備對拾取的音頻信號進行去噪處理、以及格式轉換等處理，并對處理后的音頻信號進行語音識別處理，從而將音頻信號轉換為文本格式信息。本發明的語音對話設備可以采用現有的多種語音識別技術來進行語音識別，本發明不限制語音對話設備進行語音識別的具體實現過程。S320、語音對話設備從文本格式信息中提取關鍵詞。具體的，語音對話設備提取出的關鍵詞可以為地名、街道名稱、景點名稱、時間、交通工具、以及建筑物名稱等等。語音對話設備可以采用預定的提取策略進行關鍵詞的提取，ー個具體的例子，語音對話設備在提取關鍵詞過程中可以忽略“的”、“了”、以及“你、我、他”等語氣助詞和代詞等。語音對話設備可以采用現有的提取策略進行關鍵詞的提取，本發明不限制語音對話設備提取關鍵詞的具體實現過程。S330、語音對話設備在本地未存儲有與所述關鍵詞匹配的應答文本的情況下，通過其網絡接ロ向預定的程序接ロ服務器發送包含有上述提取出的關鍵詞的查詢請求消息，并接收程序接ロ服務器發送來的查詢應答消息。具體的，上述預定程序接ロ服務器是指語音對話設備中預先存儲的程序接ロ服務器地址對應的程序接ロ服務器。語音對話設備中預先存儲的程序接ロ服務器地址可以為一個或者多個。在語音對話設備中存儲的程序接ロ服務器地址為多個情況下，語音對話設備可以從中選取一個地址，井根據該地址通過其網絡接ロ發送包含有關鍵詞的查詢請求消息。語音對話設備選取地址的方式可以為選取缺省地址，也可以為根據關鍵詞所屬的類型、以及程序接ロ服務器地址所屬的類型選取類型匹配的服務器地址。本發明不限制語音對話設備選取程序接ロ服務器地址的具體實現方式、以及查詢請求消息所采用的具體協議。語音對話設備還可以對其網絡接ロ接收到的程序接ロ服務器發送來的針對查詢請求消息的回復消息進行解析，該回復消息如查詢應答消息、以及重定位消息等。在回復消息為包含有重定位的服務器地址信息的重定位消息的情況下，語音對話設備根據該重定位消息中攜帯的服務器地址信息再次通過其網絡接ロ發送包含有關鍵詞的查詢請求消息。S340、在本地存儲有與上述提取的關鍵詞匹配的應答文本的情況下，語音對話設備朗讀本地存儲的與關鍵詞匹配的應答文本格式的信息，在本地未存儲有與上述提取的關鍵詞匹配的應答文本的情況下，語音對話設備朗讀查詢應答消息中攜帯的成功查詢結果信知、O在語音對話設備解析出的回復消息為包含有成功查詢結果信息的查詢應答消息的情況下，語音對話設備會提取查詢應答消息中攜帯的查詢結果信息，并對該查詢結果信息的文本格式的信息進行朗讀。在語音對話設備解析出的回復消息為包含有查詢失敗信息的查詢應答消息的情況下，語音對話設備會朗讀預先設定的查詢失敗的文本格式信息，或者朗讀查詢應答消息中攜帯的查詢失敗信息的文本格式信息。
以上所述僅是本發明的較佳實施例而已，并非對本發明作任何形式上的限制，雖然本發明已以較佳實施例揭露如上，然而并非用以限定本發明，任何熟悉本專業的技術人員在不脫離本發明技術方案范圍內，當可利用上述掲示的技術內容作出些許更動或修飾為等同變化的等效實施例，但凡是未脫離本發明技術方案的內容，依據本發明的技術實質對以上實施例所作的任何簡單修改、等同變化與修飾，均仍屬于本發明技術方案的范圍內。
權利要求
1.ー種語音對話設備，其特征在于，包括聲音擷取模塊，用于拾取聲音，并輸出音頻信號；語音識別模塊，用于將所述音頻擷取模塊輸出的音頻信號轉換為文本格式信息；關鍵詞模塊，用于從所述語音識別模塊轉換后的文本格式信息中提取關鍵詞，并輸出；程序接ロ模塊；查詢模塊，用于在本地未存儲有與所述關鍵詞匹配的應答文本的情況下，通過所述程序接ロ模塊向預定程序接ロ服務器發送包含有所述關鍵詞作為查詢參數的查詢請求消息；朗讀模塊，用于朗讀所述程序接ロ模塊接收到的所述程序接ロ服務器發送來的查詢應答消息中的成功查詢結果信息或者朗讀本地存儲的與所述關鍵詞匹配的應答文本。
2.如權利要求I所述的語音對話設備，其特征在于，所述語音對話設備包括移動電話、臺式計算機、筆記本型計算機、或者平板計算機。
3.如權利要求I所述的語音對話設備，其特征在于，所述語音對話設備還包括去噪模塊，用于對所述聲音擷取模塊輸出的音頻信號進行去噪處理，并將去噪后的音頻信號傳輸給語音識別模塊。
4.如權利要求I或2或3所述的語音對話設備，其特征在于，所述查詢模塊包括地址單元，用于在本地未存儲有與所述關鍵詞匹配的應答文本的情況下，判斷所述關鍵詞所屬的類型，并確定所述關鍵詞所屬的類型對應的程序接ロ服務器地址；查詢單元，用于通過所述程序接ロ模塊根據所述對應的程序接ロ服務器地址發送包含有所述關鍵詞的查詢請求消息；解析単元，對所述程序接ロ模塊接收到的所述程序接ロ服務器發送來的針對所述查詢請求消息的回復消息進行解析，并將解析出的成功查詢結果信息以文本格式提供給朗讀模塊。
5.如權利要求I或2或3所述的語音對話設備，其特征在于，所述查詢模塊還用于，在所述程序接ロ模塊接收到程序接ロ服務器發送來的重定位消息后，根據所述重定位消息中攜帯的服務器地址信息通過所述程序接ロ模塊發送包含有所述關鍵詞的查詢請求消息。
6.ー種語音對話系統，其特征在于，包括至少ー個程序接ロ服務器和至少ー個所述權利要求I至5中任ー權利要求所述的語音對話設備。
7.ー種語音對話實現方法，其特征在于，所述方法包括語音對話設備拾取聲音的音頻信號；對所述音頻信號進行語音識別，以轉換為文本格式信息；從所述文本格式信息中提取關鍵詞；在本地未存儲有與所述關鍵詞匹配的應答文本的情況下，向預定程序接ロ服務器發送包含有所述關鍵詞的查詢請求消息，并接收所述程序接ロ服務器發送來的查詢應答消息；朗讀所述查詢應答消息中攜帯的成功查詢結果信息。
8.如權利要求7所述的語音對話實現方法，其特征在干，所述對所述音頻信號進行語音識別包括將所述拾取的聲音的音頻信號進行去噪和/或格式轉換處理，并對處理后的音頻信號進行語音識別處理。
9.如權利要求7所述的語音對話實現方法，其特征在于，所述向預定程序接ロ服務器發送包含有所述關鍵詞的查詢請求消息包括在本地未存儲有與所述關鍵詞匹配的應答文本的情況下，判斷所述關鍵詞所屬的類型，并確定所述關鍵詞所屬的類型對應的程序接ロ服務器地址；根據所述程序接ロ服務器地址發送包含有所述關鍵詞的查詢請求消息。
10.如權利要求7或8或9所述的語音對話實現方法，其特征在于，所述方法還包括在接收到所述程序接ロ服務器發送來的重定位消息后，根據所述重定位消息中攜帯的服務器地址信息發送包含有所述關鍵詞的查詢請求消息。
全文摘要
本發明是有關于一種語音對話設備、系統、及語音對話實現方法。其中的設備包括聲音擷取模塊、語音識別模塊、關鍵詞模塊、程序接口模塊、查詢模塊、以及朗讀模塊。聲音擷取模塊用于拾取聲音并輸出音頻信號；語音識別模塊用于將音頻擷取模塊輸出的音頻信號轉換為文本格式信息；關鍵詞模塊從語音識別模塊轉換后的文本格式信息中提取關鍵詞，并輸出；查詢模塊通過程序接口模塊向預定程序接口服務器發送包含有關鍵詞的查詢請求消息；朗讀模塊朗讀程序接口模塊接收到的程序接口服務器發送來的查詢應答消息中的成功查詢結果信息。本發明提供的技術方案能夠充分利用網絡資源，消除語音對話設備自身存在的限制條件，提高語音對話設備的可維護性，非常適于實用。
文檔編號G06F17/30GK102708863SQ201110075380
公開日2012年10月3日申請日期2011年3月28日優先權日2011年3月28日
發明者吳冠廷申請人:德信互動科技(北京)有限公司

完整全部詳細技術資料下載