專利名稱:提高語音處理系統的本底噪聲的方法以及語音處理系統的制作方法
技術領域:
本發明涉及語音處理領域,并且更特別地,涉及通過使用人工生成的
白噪聲來改善與啟用語音的系統(speech-enabled system )的交互式體驗。
背景技術:
在嘈雜的環境中使用自動啟用語音的系統常常出問題。由于背景噪聲, 試圖收聽自動生成的語音輸出的用戶可能難以聽到或難以專心于該語音輸 出。也就是說,啟用語音的系統用戶易于被附近的對話和聲音干擾,這導 致與啟用語音的系統的交互式體驗相對地不令人滿意。
諸如聲學上用墻隔開區域的環境解決方案可能費用高昂或者可能由于 配置細節而不可能實現。例如,聲學屏蔽啟用語音的ATM機器可能費用 高昂,與此同時,試圖隔離接近于啟用語音的移動電話的環境也可能由于 設備移動性而不可能實現。
另一種可能的解決方案是增加語音輸出的音量,但其有很多缺點。首 先,其會增加環境的噪聲級(noise level),這可能使得附近的個體隨著該 音量增加而成比例地增加其自己的對話音量,而導致在增加的噪聲級上的 原有問題。其次,筒單地提高啟用語音的系統的音量可能導致干涉 (barge-in)檢測問題和/或多變的有效音量控制。另外,當進行動態音量 調整時,語音識別過程可能由于環境變得嘈雜和安靜而受到多變的音量級 的牽制。
發明內容
本發明提供了一種解決方案,該解決方案為在其中發生語音處理的聲學環境人工生成白噪聲,從而有目的地提高聲學環境的本底噪聲(noise floor)。所逸人工生成的白噪聲可以通過壓過背景噪聲來改善用戶的體驗。 可以去除對應于白噪聲信號的成分的輸入語音信號的成分,這導致了僅含 有由語音處理系統處理的語音輸入的干凈信號(clean signal)。值得注意 的是,去除與所生成的白噪聲關聯的輸入成分可以確保在所述聲學環境中 呈現的白噪聲不對語音識別操作產生不利的影響。
可以依照與文中所呈現的資料一致的許多方面來實現本發明。例如, 本發明的一方面可以包括一種用于使用人工生成的白噪聲來改善交互式體 驗的語音處理系統。所述系統可以包括音響環境(audible environment), 所述音響環境包括至少一個擴音器和至少一個揚聲器、白噪聲發生器、白 噪聲去除引擎,以及語音處理系統。所述白噪聲發生器可以被設置以生成 將要在所述音響環境中可聽地呈現的白噪聲。可以在語音輸入中捕獲該白 噪聲,并且所述白噪聲去除引擎可以對所述輸入進行數字預處理以去除白 噪聲成分。預處理的輸入可以由所述語音處理系統進行處理,并且所述語 音處理系統可以基于所接收到的輸入創建語音輸出。
本發明的另 一方面可以包括一種用于使用人工生成的白噪聲來提高與 語音處理系統相關聯的聲學環境的本底噪聲的方法。可以在所述聲學環境 中于可配置的音量級上呈現人工生成的白噪聲以建立本底噪聲。所述系統 可以從所述聲學環境接收可聽語音輸入。可以數字處理該輸入以去除所述 人工生成的白噪聲。所述語音處理系統可以接收經處理的輸入,并且可以 基于所接收到的輸入生成人工生成的語音輸出。可以在所述聲學環境中可 聽地呈現所iiA工生成的語音輸出。
本發明的又一方面可以包括一種用于使用人工生成的白噪聲來改善與 語音處理系統的用戶體驗的方法。所述方法可以開始于在所建立的音量級 上將白噪聲引入聲學環境中。可以在聲學輸出中可聽地呈現自動生成的語 音輸出。可以從所述聲學環境捕獲語音輸入。可以從所捕獲的輸入中去除 所述白噪聲,從而產生干凈的語音輸入(clean speech input)。可以將所 述千凈的語音輸入轉換成文本。應當注意,可以將本發明的各方面實現為用于控制計算設備實現文中 所描述的功能的程序,或者用于使計算設備能夠進行對應于文中所公開的 步驟的過程的程序。可以通過在磁盤、光盤、半導體存儲器或者任何其它 的記錄介質中存儲程序來提供該程序。還可以將所述程序提供為通過載波 傳送的數字編碼信號。所描述的程序可以是單個程序,或者可以實現為多 個子程序,其每一個在單個計算設備內交互或者跨網絡空間以分布式方式 交互。
還應當注意,文中所詳述的方法還可以是響應于服務請求至少部分地 通過服務代理和/或服務代理所操縱的機器所實現的方法。
附圖中示出了當前優選的實施例,然而可以理解,本發明并不限于所
示出的精確裝配和手段,附圖中
圖l是依照文中所公開的發明裝配的實施例,人工生成白噪聲以改善 與啟用語音的自動系統的用戶體驗的系統的示意圖2是依照文中所公開的發明裝配的實施例,使用人工生成的白噪聲 為語音處理環境建立本底噪聲的方法的流程圖;以及
圖3是依照文中所公開的發明裝配的實施例的方法的流程圖,在該方 法中,服務代理可以配置語音處理系統來生成白噪聲。
具體實施例方式
圖1是系統100的示意圖,依照文中所公開的發明裝配的實施例,系 統100人工生成白噪聲以改善與啟用語音的自動系統的用戶體驗。在系統 100中,用戶110可以嘗試在含有一定量的環境噪聲的聲學環境105中使 用語音處理系統120。例如,用戶110可以在播放廣播的汽車內部使用啟 用話音的移動電話。
聲學環境105可以含有用戶110、擴音器115以及揚聲器117和119。 擴音器115可以視情況檢測聲學環境105的環境噪聲級140,并且將這些
級別傳送給語音處理系統120。收到該信息可以使得語音處理系統120設 置白噪聲發生器130的噪聲級142。
在可選的實施例中,語音處理系統120可以不能配置白噪聲發生器130 的噪聲級;可以獨立于語音處理系統將所生成的白噪聲設置成固定級別并 且對其進行維護。例如,白噪聲發生器130可以是在商店中4番放背景音樂 的音響系統,其中,商店人員會控制音樂音量而不是顧客的移動電話的語 音處理系統。在另一例子中,白噪聲發生器130可以在近乎不變的音量上 產生相對一致的聲音。
白噪聲發生器130然后可以生成噪聲信號144并且將該噪聲144傳輸 至產生噪聲輸出145的揚聲器117。用戶110可以提供可以由擴音器115 作為"嘈雜的"輸入150而捕獲的話語147。應當注意,擴音器115所捕 獲的"嘈雜的"輸入150含有用戶110所說的話語147以及噪聲輸出145。
擴音器115可以將所捕獲的"嘈雜的"輸入150傳遞至白噪聲去除引 擎135。白噪聲去除引擎135可以是用于從所接收到的輸入信號中去除白 噪聲的機制。另外,白噪聲去除引擎135可以接收由白噪聲發生器130所 生成的噪聲144。白噪聲去除引擎135可以從"嘈雜的"輸入150中去除 噪聲144成分,以便產生要發送至語音處理系統120的"干凈的"輸入152 信號。
在收到"干凈的"輸入152時,語音處理系統120可以進行與該輸入 關聯的一組程序性動作。這樣的處理可以產生語音154信號,其可以通過 揚聲器119作為語音輸出156傳送至用戶110。
應當理解,系統100的各種組件可以出現在各種配置中。在一種這樣 的配置中,可以將項目115、 117、 119、 120、 130和135集成到諸如啟用 語音的多媒體計算機這樣的單個設備中。在可選的配置中,語音處理系統 120可以是諸如Web門戶應用這樣的網絡元素,而項目115、 117、 119、 130和135可以駐留于諸如個人計算機這樣的客戶設備。此外,單個揚聲 器117可以代替分離元件用于傳送噪聲輸出145和語音輸出156這二者。 在又一配置中,白噪聲發生器130和/或白噪聲去除引擎135可以是語音處理系統120的集成組件。
圖2是方法200的流程圖,依照文中所公開的發明裝配的實施例,方 法200使用人工生成的白噪聲為語音處理環境建立本底噪聲。方法200可 在系統100的上下文中實現。
方法200可以開始于步驟205,其中,可以視情況為聲學環境配置白 噪聲級。在步驟210中,可以生成白噪聲信號。在步驟215中,換能器 (transducer)可以將白噪聲信號轉換成聲學環境中發出的聲音。在步驟 220中,可以從聲學環境接收假設含有用于啟用語音的系統的命令的語音 輸入。
在步驟225中,通過換能器可以將語音輸入轉換成輸入信號。在步驟 230中,可以去除所接收到的輸入信號的白噪聲成分,從而產生"干凈的" 輸入信號。去除白噪聲成分可能需要進行一個或多個數字信號處理(DSP) 動作。例如,可以從"嘈雜的"語音輸入中減去與白噪聲信號關聯的波形。 另外,可以進行一個或多個變換以便解決擴音器所接收到的白噪聲成分與 白噪聲發生器所生成的"純"白噪聲信號之間在聽覺上的變化。在步驟235 中,可以將"干凈的"輸入信號發送至語音處理系統。在步驟240中,可 以將"干凈的"語音輸入轉換成文本。
基于經轉換的輸入,步驟245可以啟動程序性動作。在步驟250中, 系統然后可以生成輸出,必要時,將文本轉換成語音。在步驟255中,通 過換能器可以將經轉換的語音輸出傳送至聲學環境。在步驟260中,換能 器可以在聲學環境中可聽地呈現語音輸出。
圖3是方法300的流程圖,其中依照文中所公開的發明裝配的實施例, 服務代理可以配置語音處理系統以生成白噪聲。方法300可以在系統100 和/或方法200的上下文中實現。
方法300可以開始于步驟305,此時顧客JC^服務請求。服務請求可 以是請求服務代理向顧客提供使用人工生成的白噪聲的新的語音處理系 統。服務請求還可以是請求代理增強具有人工生成的白噪聲的現有語音處 理系統。服務請求還可以是請求技術人員檢修現有系統的問題。
在步驟310中,可以選擇人工代理來響應服務請求。在步驟315中, 人工代理可以分析顧客的當前系統和/或問題,并且可以響應地提出解決方 案。在步驟320中,人工代理可以使用一個或多個計算設備來配置語音處 理系統,以l更使用人工生成的白噪聲來改善與自動啟用語音的系統的用戶 體驗。該步驟可以包括白噪聲發生器和白噪聲去除引擎的安裝和配置。
在步驟325中,人工代理可以視情況維護或檢修使用人工生成的白噪 聲的語音處理系統。在步驟330中,人工代理可以完成服務活動。
可以以硬件、軟件,或者硬件和軟件的組合實現本發明。本發明可以 在一個計算機系統中以集中方式實現或者以不同元件跨若干互連的計算機
系統分布的分布方式實現。適于實現文中所描述的方法的任何種類的計算 機系統或其它裝置都是適合的。硬件和軟件的典型組合可以是具有這樣的 計算才;i4呈序的通用計算機系統,即當加載和執行將該計算機程序時,其控 制計算機系統以便使該計算機系統實現文中所描述的方法。
還可以將本發明嵌入計算積4呈序產品,該計算積4呈序產品包括使得能 夠實現文中所描述的方法的所有部件,并且當載入計算機系統時能夠實現 這些方法。當前上下文中的計算機程序意味著這樣一組指令以任何語言、 代碼或符號的任何表達,即該組指令旨在使得具有信息處理能力的系統或 是直接地或是在以下其一或二者之后實現特定的功能a )轉換成另一種語 言、代碼或符號;b)以不同材質的形式再現。
可以在不背離本發明的精神或本質屬性的情況下,以其它形式體現本 發明。因此,當指示本發明的范圍時,應該參照下面的權利要求,而不是 前述說明書。
權利要求
1.一種語音處理系統,其包括音響環境,所述音響環境包括用于接收語音輸入的至少一個擴音器以及用于可聽地呈現語音輸出的至少一個揚聲器;白噪聲發生器,所述白噪聲發生器被配置以生成在所述音響環境中可聽地呈現的白噪聲;白噪聲去除引擎,所述白噪聲去除引擎被配置以便對所述擴音器所捕獲的語音輸入進行數字預處理以及去除包括在所捕獲的輸入中的白噪聲成分;以及語音處理系統,所述語音處理系統用于處理由所述白噪聲去除引擎預處理后的語音輸入,以及用于創建語音輸出。
2. 根據權利要求l的語音處理系統,其中所述白噪聲去除引擎接收由 所述白噪聲發生器所生成的信號的輸入,其中,從所述語音輸入中減去所 接收到的信號以便去除所述白噪聲成分。
3. 根據權利要求2的語音處理系統,其中所述白噪聲去除引擎被配置 以進行至少一個變換,以便解決所述擴音器所接收到的白噪聲成分與所接 收到的信號的白噪聲之間在聽覺上的變化。
4. 根據權利要求l的語音處理系統,其中在所述音響環境中呈現的白 噪聲的音量級是可配置的。
5. 根據權利要求4的語音處理系統,其中在近乎不變的音量上可聽地 呈現所述白噪聲。
6. 根據權利要求5的語音處理系統,其中所述白噪聲的可配置的音量 級為所述語音處理系統建立了本底音量。
7. 根據權利要求4的語音處理系統,其中所述白噪聲的音量級可由所 述語音處理系統控制。
8. 根據權利要求4的語音處理系統,其中與用于可聽地呈現所述白噪 聲的揚聲器不同的揚聲器用于可聽地呈現所述語音輸出,并且其中所述語音輸出的音量級在程序上鏈接于所述白噪聲的音量級。
9. 根據權利要求l的語音處理系統,其中所述白噪聲發生器、所述白 噪聲去除引擎,以及所述語音處理系統駐留于相同的計算設備內,其中所 述揚聲器和所述擴音器在通信上鏈接至所述計算設備。
10. —種用于使用人工生成的白噪聲來提高語音處理系統的本底噪 聲的方法,其包括在可配置的音量級上可聽地呈現人工生成的噪聲,以便為聲學環境建 立本底噪音;接收含有從所述聲學環境獲得的語音的可聽輸入;數字處理含有語音的輸入,以便從所述輸入中去除所i!A工生成的噪 聲;以及向所述聲學環境可聽地呈現含有人工生成的語音的輸出,其中所iiA 工生成的語音是由語音處理系統生成的,并且其中所述語音處理系統接收 經處理的輸入。
11. 根據權利要求10的方法,其中所呈現的人工生成的噪聲是在近 乎不變的音量級上呈現的。
12. 根據權利要求10的方法,其進一步包括 對來自所述聲學環境的輸入進行采樣,以便確定環境噪聲級; 基于所述采樣步驟的結果自動計算期望的本底噪聲;以及自動調整所述可配置的音量級以獲得所述期望的本底噪聲。
13. 根據權利要求10的方法,其進一步包括 噪聲去除引擎從生成所述人工生成的噪聲的噪聲發生器接收信號,所述信號包括所^A工生成的噪聲的波形;以及從所接收到的可聽輸入中數字減去所i^A工生成的噪聲的波形。
14. 根據權利要求10的方法,其中權利要求1的所述步驟由至少一 個機器依照至少一個計算機程序進行,所述至少一個計算機程序具有可由 所述至少一個機器執行的多個代碼部分。
15. 根據權利要求10的方法,其中權利要求10的所述步驟由服務代理和所述服務代理所操縱的計算設備中的至少一個進行,所述步驟是響應 于服務請求而進行的。
16. —種用于使用人工生成的白噪聲來改善與啟用語音的系統的用 戶體驗的方法,其包括在聲學環境中于所建立的音量級上產生白噪聲; 在聲學輸出中可聽地呈現自動生成的語音輸出; 從所述聲學環境捕獲語音輸入;從所捕獲的輸入中去除所述白噪聲以生成干凈的語音輸入;以及 對所述干凈的語音輸入進行語音到文本的轉換。
17. 根據權利要求16的方法,其進一步包括 改變所建立的音量級,其中所述白噪聲是在所述所建立的音量級上產生的;以及依照所述白噪聲的經改變的音量級自動調整所述自動生成的語音輸出 的音量級。
18. 根據權利要求16的方法,其中所建立的音量級是可配置的值, 并且其是近乎不變的音量級。
19. 根據權利要求16的方法,其中所述語音到文本的轉換步驟由還 生成所述語音輸出的語音處理系統進行,所述語音處理系統被配置以建立 所產生的白噪聲的音量級。
20. 根據權利要求16的方法,其中權利要求16的所述步驟由至少一 個機器依照至少一個計算機程序進行,所述至少一個計算枳一呈序具有可由 所述至少一個機器執行的多個代碼部分。
全文摘要
本發明提供了一種語音處理系統,其用于使用人工生成的白噪聲來改善與啟用語音的系統的用戶體驗。所述系統可以包括音響環境,所述音響環境包括至少一個擴音器和至少一個揚聲器、白噪聲發生器、白噪聲去除引擎和語音處理系統。所述白噪聲發生器可以被配置以生成將要在所述音響環境中可聽地呈現的白噪聲。可以在語音輸入中捕獲該白噪聲,并且所述白噪聲去除引擎可以對所述輸入進行數字預處理以去除白噪聲成分。預處理的輸入可以由所述語音處理系統進行處理,并且所述語音處理系統可以基于所接收到的輸入創建語音輸出。
文檔編號G10L21/00GK101206863SQ20071019996
公開日2008年6月25日 申請日期2007年11月22日 優先權日2006年12月18日
發明者B·D·麥茨, D·達梅斯 申請人:國際商業機器公司