阻塞音語音能量到較低頻率的映射的制作方法

文檔序號：2832949閱讀：440來源：國知局

專利名稱：阻塞音語音能量到較低頻率的映射的制作方法
技術領域：
本發明總體涉及語音信號處理。
背景技術：
通常，語音信號處理涉及在表達語音的電氣或電子信號上的執行操作。在一個例子中，自動語音識別(ASR)技術使得配備有麥克風的計算設備能夠解碼語音，從而提供對傳統人-機輸入設備(諸如鍵盤和小鍵盤)的替代方式。在另一個例子中，免提呼叫技術使得配備有麥克風的遠程通信設備能夠從呼叫器接收語音，過濾語音，并傳送過濾的語音到接收者。語音信號處理中遇到的一個長期存在的問題是，某些類型的語音難以處理。這種語音包括阻塞音，其可包括摩擦音，爆破音，或破擦音。摩擦音是輔音聲音，像/f/，/s/，或其他，其通過迫使空氣通過將兩個發音器官放置成緊密在一起(例如下唇抵靠上齒)而產生的狹窄通道而產生。摩擦音問題會尤其嚴重，往往導致某些詞(比如“list”與“lift”，或者“six”與“fix”)之間的混淆。爆破音是輔音聲音，像/p/，/t/，或其他，其通過在聲道中阻塞氣流而產生。破擦音是輔音聲音，像/ch/，/j/，或其他，其以爆破音開始，但以摩擦音釋放，而不是直接到后面的元音聲音。阻塞音涉及高頻(常常超過8kHz)空氣的突然釋放。但高于8kHz的語音信號不能被很多傳統麥克風通過，因為3dB信號在7kHz上頻率響應下降。而且，雖然較新的麥克風通過高達IlkHz的語音信號，人耳在高頻時分辨率很低，并且語音識別器典型地以16kHz的采樣率工作，因此在其上采樣的尼奎斯特定理的限制下以最大8kHz處理信號。

發明內容
根據本發明的一個實施例，提供了一種處理語音信號的方法，包括以下步驟(a)經由麥克風從使用者接收話語，所述麥克風將話語轉換成語音信號；以及(b)使用處理器預處理語音信號。預處理步驟包括從接收到的語音信號中提取聲學數據；由所述聲學數據確定話語是否包括一個或多個阻塞音；從與確認的阻塞音相關聯的較高頻率估計語音能量；以及映射估計的語音能量到較低頻率。根據本發明的一個方面，通過解碼映射的語音能量來改善自動語音識別，以為接收到的話語產生多個假設，從而嘗試識別話語。在另一個方面，通過傳送映射的語音能量到其他使用者來改善語音可理解性。

下面將結合附圖描述本發明的一個或多個優選的示例性實施例，其中，相同的標號表不相同的兀件，其中
圖I是描繪能夠利用在此公開的方法的通信系統的示例性實施例的框圖2是示出能夠與圖I的系統一起使用且用于實施語音識別的示例性方法的自動語音識別(ASR)系統的示例性實施例的框圖；以及圖3是示出產生在能夠在圖2的ASR系統中被執行的在自動語音識別中使用的聲學模型的方法的示例性實施例的流程圖。
具體實施例方式下面的描述描述了示例通信系統、可以與所述通信系統一起使用示例ASR系統以及可以與上述系統的一者或全部兩者一起使用的一個或多個示例方法。車輛遠程信息處理單元(VTU)可以使用下面描述的方法，VTU是識別VTU的使用者說出的語音的部件。盡管下面描述的方法是可被執行以用于VTU，但是將理解，該方法在任何類型車輛語音識別系統和其他類型語音識別系統中是可用的。例如，所述方法可以實施在啟用ASR的移動計算設備或系統，個人計算機等中。
通信系統
參照圖1，示出包括移動車輛通信系統10且可以用于實現在此公開的方法的示例性操作環境。通信系統10通常包括車輛12、一個或多個無線載波系統14、地面通信網絡16、計算機18和呼叫中心20。應該理解，公開的方法可以與任何數量的不同系統一起使用，并且不被具體地限制到在此示出的操作環境。另外，系統10的架構、結構、設置和操作以及其各個部件是本領域公知的。因此，下面的段落僅提供對一個這種示例性系統10的簡要概述，然而，在此沒有示出的其他系統也可以采用公開的方法。在示出的實施例中將車輛12描述為小客車，但是應該理解，也可以使用任何其他車輛，包括摩托車、卡車、運動型多功能車(SUV)、休閑車(RV)、船只、航空器等。圖I中總體示出部分車輛電子設備28，包括遠程信息處理單元30、麥克風32、一個或多個按鈕或其他控制輸入34、音頻系統36、可視顯示器38和GPS模塊40以及多個車輛系統模塊(VSM)42。這些設備的一部分可以直接連接到遠程信息處理單元，例如，麥克風32和按鈕34，而其他的是使用一個或多個網絡連接(諸如通信總線44或娛樂總線46)間接連接的。適當網絡連接的示例包括控制器局域網絡(CAN)、面向媒體的系統傳輸(MOST)、本地互連網絡(LIN)、局域網(LAN)和其他適當連接，諸如符合已知IS0、SAE和IEEE標準和規范的以太網或其他，僅列出一些。遠程信息處理單元30可以OEM是安裝的(嵌入的)或后市場設備，其能夠通過無線載波系統14和通過無線聯網進行無線話音和/或數據通信，從而車輛能夠與呼叫中心20、其他啟用遠程信息處理的車輛、或一些其他實體或設備進行通信。遠程信息處理單元優選地使用無線電傳輸來建立與無線載波系統14的通信信道(話音信道和/或數據信道)，從而能夠通過信道發送和接收話音和/或數據傳輸。通過提供話音和數據通信，遠程信息處理單元30使車輛能夠提供多種不同服務，包括與導航、電話、緊急援助、診斷、娛樂信息等相關的服務。可以使用現有技術中已知的技術通過數據連接(諸如通過數據信道的包數據傳輸)或者通過話音信道發送數據。對于包括話音通信(例如，與在呼叫中心20處的在線顧問或話音響應單元)和數據通信(例如，向呼叫中心20提供GPS位置數據或車輛診斷數據)的組合服務，系統可以使用通過話音信道的單獨呼叫以及按照需要在話音信道上進行話音和數據傳輸之間的切換，并且這可以使用本領域技術人員公知的技術來實現。根據一個實施例，遠程信息處理單元30使用根據GSM或CDMA標準的蜂窩通信，并因此包括用于話音通信(例如，免提呼叫)的標準移動電話芯片組50、用于數據傳輸的無線調制解調器、電子處理設備52、一個或多個數字存儲設備54和雙天線56。應該理解，可以通過存儲在遠程信息處理單元中且通過處理器52執行的軟件實現調制解調器，并且調制解調器可以是位于遠程信息處理單元30內部或外部的單獨硬件部件。調制解調器可以使用任何不同標準或協議來操作，諸如EVDO、CDMA, GPRS和EDGE。也可以使用遠程信息處理單元30實現車輛與其他聯網的設備之間的無線聯網。為此，遠程信息處理單元30可以被配置為根據一個或多個無線協議進行無線通信，諸如IEEE 802. 11協議、WiMAX或藍牙中的任一個。當用于諸如TCP/IP的分組交換數據通信時，遠程信息處理單元可以配置有靜態IP地址或者能夠設置為自動從網絡上的另一設備(諸如路由器)或者從網絡地址服務器接收所分配的IP地址。處理器52可以是能夠處理電子指令的任何類型的設備，包括微處理器、微控制器、主處理器、控制器、車輛通信處理器和專用集成電路(ASIC)。其可以是僅用于遠程信息處理單元30的專用處理器，或者可以與其他車輛系統共享。處理器52執行各種類型的數字化存儲指令，諸如存儲器54中存儲的軟件或固件程序，這些指令使遠程信息處理單元30能夠提供多種類型的服務。例如，處理器52能夠執行程序或處理數據，以實現在此討論的方法的至少一部分。遠程信息處理單元30可以用于提供多樣化范圍的車輛服務，包括來自車輛的無線通信和/或到車輛的無線通信。這些服務包括結合基于GPS的車輛導航模塊40提供的建議路線指向和其他導航相關服務；結合一個或多個碰撞傳感器接口模塊(諸如車身控制模塊)(未示出)提供的安全氣囊部署通知和其他緊急或路邊援助相關的服務；使用一個或多個診斷模塊的診斷報告；以及娛樂信息相關服務，其中，音樂、網頁、電影、電視節目、視頻游戲和/或其他信息通過娛樂信息模塊(未示出)下載且被存儲以用于當前或以后播放。上述列出的服務不是遠程信息處理單元30的所有功能的詳盡列表，而是僅是遠程信息處理單元30能夠提供的一些服務的列舉。此外，應該理解，可以以遠程信息處理單元30內部或外部存儲的軟件指令的形式實現上述模塊的至少一部分，上述模塊的至少一部分可以是位于遠程信息處理單元30內部或外部的硬件部件，或者上述模塊的至少一部分可以彼此之間或者與車輛內的其他系統集成和/或共享，僅闡述了幾種可能性。在將模塊實現為遠程信息處理單元30外部的VSM 42的情況下，模塊可以使用車輛總線44與遠程信息處理單元30交換數據和命令。GPS模塊40從GPS衛星的星座60接收無線電信號。根據這些無線電信號，模塊40可以確定車輛位置，用于向車輛駕駛員提供導航和其他位置相關服務。可以在顯示器38(或者車輛內的其他顯示器)上呈現導航信息，或者可以用言辭地表示導航信息，諸如當提供建議路線導航時用言辭進行。可以使用車輛中專用導航模塊(可以是GPS模塊40的一部分)提供導航服務，或者可以通過遠程信息處理單元30完成部分或全部導航服務，其中，為了向車輛提供導航地圖、地圖標注(感興趣的點、餐館等)、路線計算等，向遠程位置發送位置信息。為了其他目的，諸如車隊管理，位置信息可以提供給呼叫中心20或其他遠程計算機系統，諸如計算機18。另外，可以通過遠程信息處理單元30將新的或更新的地圖數據從呼叫中心20下載到GPS模塊40。除了音頻系統36和GPS模塊40之外，車輛12可以包括電子硬件部件形式的其他車輛系統模塊(VSM)42，其遍布車輛定位且通常從一個或多個傳感器接收輸入，且使用感測的輸入執行診斷、監測、控制、報告和/或其他功能。優選地，每個VSM 42通過通信總線44連接到其他VSM以及連接到遠程信息處理單元30，并且可以被編程以運行車輛系統和子系統診斷測試。作為示例，一個VSM 42可以是發動機控制模塊(ECM)，其控制發動機操作的各個方面，諸如燃料點火和點火正時，另一 VSM 42可以是動力系控制模塊，其調整車輛動力系的一個或多個部件的操作，另一 VSM 42可以是車身控制模塊，其管理遍布車輛定位的各個電部件，例如，車輛的電動門鎖和前燈。根據一個實施例，發動機控制模塊配備有車載診斷(OBD)特征，其提供諸如從包括車輛排放物傳感器的各種傳感器接收的各種實時數據，并且提供標準化的一系列診斷故障碼(DTC)，這些碼允許技術人員快速識別和消除車輛內的故障。如本領域的技術人員所知，上述VSM僅是可以在車輛12中使用的部分模塊的示例，許多其他情況也是可行的。車輛電子設備28還包括多個車輛使用者接口，該接口向車輛占用者提供用于提供和/或接收信息的手段，包括麥克風32、按鈕34、音頻系統36和可視顯示器38。如在此使用，術語“車輛使用者接口 ”廣泛地包括任何適當形式的電子設備，包括硬件和軟件部件，該電子設備位于車輛上且使車輛使用者能夠與車輛的部件通信或者通過車輛的部件進行通信。麥克風32向遠程信息處理單元提供音頻輸入，以使駕駛員或其他占用者能夠通過無線載波系統14提供話音命令和實現免提呼叫。為此，可以利用現有技術中已知的人機接口(HMI)技術將麥克風連接到車載自動話音處理單元。按鈕34允許到遠程信息處理單元30的手動使用者輸入，以啟動無線電話呼叫和提供其他數據、響應或控制輸入。相對于一般服務援助呼叫，可以使用單獨的按鈕向呼叫中心20發起緊急呼叫。音頻系統36向車輛占用者提供音頻輸出，并且可以是專用獨立系統或者是主車輛音頻系統的一部分。根據在此示出的具體實施例，音頻系統36可操作地連接到車輛總線44和娛樂總線46，并且能夠提供AM、FM、衛星無線電、⑶、DVD和其他多媒體功能。可以結合或者獨立于上述娛樂信息模塊提供此功能。可視顯示器38優選地是圖形顯示器，諸如儀表板上的觸摸屏或者擋風玻璃反射出來的抬頭顯示器，并且可以用于提供多種輸入和輸出功能。由于圖I的接口僅是一個具體實施例的示例，因此也可以使用各種其他車輛使用者接口。無線載波系統14優選地是無線電話系統，包括多個手機信號塔70 (僅示出一個)，一個或多個移動交換中心(MSC) 72以及將無線載波系統14與地面網絡16連接所需的任何其他聯網部件。每個手機信號塔70包括發送和接收天線以及基站，其中，來自不同手機信號塔的基站直接連接到MSC 72或者通過諸如基站控制器的中間設備連接。無線系統14可以實現任何適當的通信技術，例如，包括諸如AMPS的模擬技術，或者諸如CDMA (例如，CDMA2000)或GSM/GPRS的更新的數字技術。如本領域的技術人員所理解，各種手機信號塔/基站/MSC布置都是可行的，并且可以與無線系統14 一起使用。例如，基站和手機信號塔可以共同位于相同地點，或者他們可以彼此遠離地定位，每個基站可以負責單個手機信號塔或者單個基站可以服務于各個手機信號塔，以及不同的基站可以連接到單個MSC，僅列出一些可行布置。除了使用無線載波系統14之外，可以使用衛星通信形式的不同無線載波系統，來提供與車輛的單向或雙向通信。可以使用一個或多個通信衛星62和上行鏈路發射站64來實現此功能。例如，單向通信可以是衛星無線電服務，其中，發射站64接收節目內容(新聞、音樂等)，節目內容被打包用于上載，然后發送到衛星62，衛星62向訂購者廣播節目內容。例如，雙向通信可以是使用衛星62在車輛12與站64之間中繼電話通信的衛星電話服務。如果被使用，則該衛星電話可以在無線載波系統14的基礎上或者代替無線載波系統14地被使用地面網絡16可以是傳統基于地面的遠程通信網絡，其連接到一個或多個陸上通信線電話并且將無線載波系統14連接到呼叫中心20。例如，地面網絡16可以包括公共交換電話網(PSTN)，諸如用于提供硬線電話、分組交換數據通信和互聯網基礎設施的那些。可以通過使用標準有線網絡、光纖或其他光網絡、電纜網絡、電源線、諸如無線局域網(WLAN)的其他無線網絡或者提供寬帶無線接入的網絡或者其組合實現地面網絡16的一段或多段。此外，呼叫中心20不必通過地面網絡16被連接，而是可以包括無線電話設備，從而其可以直接與無線網絡進行通信，諸如無線載波系統14。計算機18可以是通過諸如互聯網的私有或公共網絡可訪問的多個計算機之一。每個這種計算機18可以用于一種或多種目的，諸如可由車輛通過遠程信息處理單元30和無線載波14訪問的網絡服務器。例如，其他這種可訪問的計算機18可以是服務中心計算機，用該計算機可以通過遠程信息處理單元30從車輛上載診斷信息和其他車輛數據；車輛擁有者或其他訂購者使用的用于訪問或接收車輛數據或者設置或配置訂購者優選項或控制車輛功能目的的客戶計算機；或者第三方存儲器，通過與車輛12或呼叫中心20或與這兩者通信來提供車輛數據或其他信息到該第三方存儲器或從其接收所述車輛數據或其他信息。計算機18還可以用于提供互聯網連接性，諸如DNS服務或者作為網絡地址服務器，其使用DHCP或其他適當協議向車輛12分配IP地址。呼叫中心20被設計為向車輛電子設備28提供多個不同系統后端功能，并且根據在此示出的示例性實施例，呼叫中心20通常包括一個或多個交換機80、服務器82、數據庫84、在線顧問86以及自動話音應答系統(VRS)88，所有這些都是本領域已知的。這些不同的呼叫中心部件優先地通過有線或無線局域網90彼此連接。交換機80可以是專用交換分機(PBX)交換機，路由進入信號，從而通常通過普通電話將話音傳輸發送到在線顧問86或者使用VoIP將話音傳輸發送到自動話音應答系統88。在線顧問電話也可以使用VoIP，如圖I的虛線所指示。可以通過交換機80與網絡90之間連接的調制解調器(未示出)實現通過交換機80的VoIP和其他數據通信。數據傳輸經由調制解調器被傳送到服務器82和/或數據庫84。數據庫84可以存儲賬戶信息，諸如訂購者認證信息、車輛標識、個人資料記錄、行為模式和其他相關訂購者信息。還可以通過無線系統，諸如802. Ilx, GPRS等進行數據傳輸。盡管所示出的實施例已被描述為它將被與使用在線顧問86的人工呼叫中心20聯合使用，但是可以理解，呼叫中心可以替代地使用VRS 88作為自動顧問，或者可以使用VRS88與在線顧問86的組合。自動語音識別系統
現轉到圖2，示出可以用于實施當前公開的方法的ASR系統210的示例性架構。通常，車輛占用者為了下面的一個或多個基本目的用言辭與自動語音識別系統(ASR)進行交互訓練系統以理解車輛占用者的特定話音；存儲離散語音，諸如說出的使用者標簽或說出的控制詞，如數字或關鍵字；或者為了諸如話音撥號、菜單導航、轉錄、服務請求、車輛設備或設備功能控制等的任何適當目的而識別車輛占用者語音。通常，ASR從人類語音提取聲學數據，將該聲學數據與存儲的子詞數據進行對照和對比，選擇能夠與其他選擇的子詞連結的適當子詞，并且輸出連結后的各子詞或詞以用于后處理，諸如口述或轉錄、地址簿撥號、存儲到存儲器、訓練ASR模型或適應參數等。ASR系統通常是本領域技術人員已知的，且圖2僅示出一個特定示例性ASR系統210。系統210包括接收語音的設備，諸如遠程信息處理麥克風32，以及聲學接口 33，諸如遠程信息處理單元30的具有模數轉換器以將語音轉換為聲學數據的聲卡。系統210還包括存儲器，諸如遠程信息處理存儲器54，用于存儲聲學數據以及存儲語音識別軟件和數據庫，以及處理器52，諸如遠程信息處理處理器52，以處理聲學數據。處理器與存儲器一起并且聯合下面的模塊來正常運行一個或多個前端處理器、預處理器或者預處理器軟件模塊212，用于將語音的聲學數據流解析成參數表示，諸如聲學特征；一個或多個解碼器或解碼器軟件模塊214，用于將聲學特征解碼以產生與輸入語音話語相對應的數字子詞或詞輸出數據；以及一個或多個后端處理器、后處理器或后處理器軟件模塊216，以用于將來自解碼器模塊214的輸出數據用于任何適當目的。
系統210還可以從任何其他適當的音頻源31接收語音，該音頻源能夠如實線所示地直接與預處理器軟件模塊212通信或者經由聲學接口 33與預處理器軟件模塊212間接通信。例如，音頻源31可以包括音頻的遠程信息處理源，諸如話音郵件系統，或者任何類型的其他遠程信息處理服務。一個或多個模塊或模型可以用作解碼器模塊214的輸入。首先，語法和/或詞素模型218可以提供管理哪個詞邏輯上可以在其他詞之后以形成正確句子的規則。從廣義上講，詞素或語法可以定義系統210在任意給定時間在任意給定ASR模式中期望的詞匯總體。例如，如果系統210處于用于訓練命令的訓練模式，則詞素或語法模型218可以包括系統210已知和使用的所有命令。在另一示例中，如果系統210處于主菜單模式，則有效詞素或語法模型218可以包括系統210期望的所有主菜單命令，諸如呼叫、撥號、退出、刪除、目錄等。第二，聲學模型220幫助選擇與來自預處理器模塊212的輸入相對應的最可能的子詞或詞。第三，詞模型222和句子/語言模型224在將選擇的子詞或詞排列成詞或句子上下文時提供規則、語法和/或語義。另外，句子/語言模型224可以定義系統210在任意給定時間在任意給定ASR模式中期望的句子總體，和/或可以提供管理哪些句子邏輯上可以在其他句子之后以形成正確擴展語音的規則等。根據替換性示例性實施例，ASR系統210的部分或全部可以駐留在處于車輛12的遠程位置的諸如呼叫中心20的計算設備上，以及使用該計算設備進行處理ASR系統210的部分或全部。例如，語法模型、聲學模型等可以存儲在呼叫中心20的服務器82和/或數據庫84之一的存儲器中且通信到車輛遠程信息處理單元30用于車內語音處理。類似地，可以使用呼叫中心20中的服務器82之一的處理器處理語音識別軟件。換句話說，ASR系統210可以駐留在遠程信息處理單元30中，或者以任何期望方式分布在呼叫中心20和車輛12。首先，從人類語音提取聲學數據，其中，車輛占用者向麥克風32說話，麥克風32將話語轉換成電信號且將此信號通信到聲學接口 33。麥克風32中的聲音響應元件捕獲占用者的語音話語作為空氣壓力的變化，并且將話語轉換為模擬電信號的相應變化，諸如直流或電壓。聲學接口 33接收模擬電信號，首先對該模擬電信號進行采樣，從而在離散時刻捕獲模擬信號的值，然后對其量化從而在每個采樣時刻將模擬信號的幅值轉換為連續數字語音數據流。換句話說，聲學接口 33將模擬電信號轉換為數字電信號。數字數據是二進制比特，其可以在遠程信息處理存儲器54中進行緩沖，然后由遠程信息處理處理器52進行處理，或者可以在由處理器52最初接收時被實時處理。

第二，預處理器模塊212連續數字語音數據流變換為聲學參數的離散序列。更具體地，處理器52執行預處理器模塊212，以將數字語音數據分段為例如10-30 ms持續時間的交疊的語音或聲學幀。所述幀與聲學子詞相對應，諸如音節、半音節、單音、雙連音、音素等。預處理器模塊212還執行語音分析，以從每一幀內從占用者語音提取聲學參數，諸如隨時間變化的特征向量。占用者語音內的話語可以被表示為這些特征向量的序列。例如，如本領域技術人員所知，可以提取特征向量，并且特征向量可以包括，例如，音高、能線圖、光譜屬性和/或倒頻譜系數，這些可以通過執行幀的傅里葉變換以及使用余弦變換對聲譜進行解相關來獲得。覆蓋特定語音持續時間的聲學幀和相應參數被連結成將被解碼的未知語音測試模式。第三，處理器執行解碼器模塊214，以處理每個測試模式的進入特征向量。解碼器模塊214也被稱為識別發動機或分類器，并且使用存儲的已知語音參考模式。如測試模式，參考模式也被定義為相關聲學幀和相應參數的連結。解碼器模塊214將待被識別的子詞測試模式與存儲的子詞參考模式的聲學特征向量進行對照和對比，評估它們之間的差異或相似度的大小，并且最終使用判決邏輯選擇最佳匹配子詞作為識別后的子詞。通常，最佳匹配子詞是這樣的子詞其和通過本領域技術人員已知的各種分析和識別子詞的技術中的任一種確定的與該測試模式具有最小不相似度的或最有可能是該測試模式的存儲的已知參考模式相對應。這些技術可以包括動態時間規整分類器、人工智能技術、神經網絡、自由音素識別器和/或概率模式匹配器，諸如隱馬爾可夫模型(HMM)發動機。HMM發動機是本領域的技術人員公知的用于產生聲學輸入的多個語言識別模型假設。這些假設在最終通過語音的特征分析識別和選擇代表聲學輸入的最可能的正確解碼的識別輸出中被考慮。更具體地，HMM發動機產生子詞模型假設的“N-最佳”列表形式的統計模型，這些子詞模型假設根據HMM計算的信賴值或者例如通過應用貝氏定理賦予一個或另一個子詞的聲學數據的觀察序列的可能性排列。貝葉斯HMM過程確定與給定的聲學特征向量的觀察序列的最可能話語或子詞序列相對應的最佳假設，并且其信賴值可以取決于多種因素，包括與進入聲學數據相關聯的聲學信號噪聲比。HMM還可以包括稱為混合對角高斯的統計分布，其產生每個子詞的每個觀察的特征向量的可能性分數，該分數可以用于將假設的N-最佳列表重新排序。HMM發動機還可以識別和選擇其模型可能性分數最高的子詞。以類似的方式，可以連結子詞序列的各個HMM，以建立單個或多個詞HMM。其后，可以產生和進一步評估單個或多個詞參考模式的N最佳列表和相關參數值。在一個示例中，語音識別解碼器214使用適當的聲學模型、語法和算法處理特征向量以產生參考模式的N最佳列表。如在此使用，術語參考模式可與模型、波形、模板、富信號模型、示例、假設或其它類型參考互相替換。參考模式可以包括代表一個或多個詞和子詞的一系列特征向量，并且可以基于特定說話者、說話風格和聽得見的環境狀況。本領域的技術人員將認識到，可以通過ASR系統的適當參考模式訓練產生參考模式且將其存儲在存儲器中。本領域的技術人員還將認識到，可以操縱存儲的參考模式，其中基于參考模式訓練和ASR系統的實際使用之間的語音輸入信號中的差異調整參考模式的參數值。例如，基于來自不同車輛占用者或不同聲學狀況的有限量的訓練數據，針對一個車輛占用者或某些聲學狀況訓練的一組參考模式可以被調整且存儲為針對不同車輛占用者或不同聲學狀況的另一組參考模式。換句話說，參考模式沒有必要固定，且可以在語音識別期間被調整。使用詞匯內語法以及任何適當解碼器算法和聲學模型，處理器從存儲器訪問了解釋該測試模式的若干參考模式。例如，處理器可以產生且在存儲器中存儲N-最佳詞匯結果或參考模式的列表以及相應的參數值。示例性參數值可以包括詞匯的N-最佳列表中的每個參考模式的信賴分數以及相關段持續時間、可能性分數、和/或信號噪聲比(SNR)值等。可以按照參數值大小的下降排列詞匯的N-最佳列表。例如，具有最高信賴分數的詞匯參考模式是第一最佳參考模式等。一旦建立了被識別的子詞串，這些子詞就可以被用于使用來自詞模型222的輸入構建詞并且使用來自語言模型224的輸入構建句子。最終，后處理器軟件模塊216從解碼器模塊214接收輸出數據以用于任何適當目的。在一個示例中，后處理器軟件模塊216可以從單個或多個詞參考模式的N-最佳列表識別或選擇參考模式之一作為被識別的語音。在另一示例中，后處理器軟件模塊216可以用于將聲學數據轉換為文本或數字，以用于ASR系統的其他方面或其它車輛系統。在另一示例中，后處理器模塊216可以用于向解碼器214或預處理器212提供訓練反饋。更具體地，后處理器軟件模塊216可以用于訓練解碼器模塊214的聲學模型，或者訓練預處理器模塊212的適應參數。方法
現轉到圖3，示出語音信號處理方法300，可以使用車輛遠程處理單元30的操作環境內的圖2的ASR系統210的適當編程以及使用圖I所示的適當硬件和其它部件的編程來實施方法300。基于上述系統描述以及下面結合剩余附圖描述的方法的討論，上述編程和上述硬件的使用對本領域技術人員將是明顯的。本領域的技術人員還將認識到，可以使用其它操作環境內的其它ASR系統實施所述方法。通常，語音信號處理方法300通過將語音能量從與語音中識別的阻塞音相關聯的較高頻率映射到較低頻率而改善自動語音識別或語音遠程通信。語音識別效果被改善，因為更多的語音能量能夠被估計和解釋。類似地，該方法改善了在多個使用者之間的遠程通信期間語音的可理解性，因為語音數據的接收者相比于較高頻率能更好地聽到較低頻率的語音。同樣地，因為該方法產生了更大量的可理解性的語音數據，該方法能夠有助于補償在基于VOIP應用中任何時候存在的數據包損失。參照圖3，方法300以任何適當方式在步驟305開始。在步驟310，從使用者接收語音。例如，可經由麥克風(其將話語轉換成語音信號)從使用者接收話語。更具體地，遠程信息處理麥克風32可用于將使用者語音話語轉換成電信號以傳送至聲學接口 33，其將語音數字化成聲學數據。麥克風32可包括傳統的0-8kHz，較新的寬帶O-IlkHz麥克風，或適當頻率響應帶寬的任何其他麥克風。在步驟320，預處理語音信號。例如，可使用ASR預處理器212，免提呼叫預處理器，或任何其他適當的遠程通信預處理器或任何類型的處理設備來預處理語音信號。步驟322到328代表更具體的語音信號預處理步驟。在步驟322，聲學數據從接收到的語音信號中提取。例如，語音信號可被預處理器解析成例如聲學特征等的參數表征流。在步驟324，由聲學數據確定話語是否包括一個或多個阻塞音。例如，子詞分類器可用于估計聲學數據，以確定是否一個或多個阻塞音存在于從使用者接收的語音中。子詞分類器可為音節模式分類器，音素模式分類器，或任何其他適當的分類器。子詞分類器能夠從元音，輔音，雙元音，和/或阻塞音(像摩擦音，破擦音，爆破音和/或其他)中分類。子詞分類器對于本領域的技術人員來說是公知的，并且可使任何適當的子詞分類器和/或分類方法。
在一個實施例中，確定可包括首先在接收到的語音中估計獨特共振峰的頻率并且得出結論如果前三個或四個共振峰的頻率將話語音素確認為元音，則不存在阻塞音。然而，如果得出結論共振峰頻率的至少一個不表示元音，那么模式分類器可進一步確定是否存在阻塞音。如果在步驟324檢測到沒有阻塞音，則方法進行到步驟330，在其中語音解碼和/或語音傳輸可以任何適當的方式發生，在其之后該方法在步驟360結束。然而，如果在步驟324檢測到一個或多個阻塞音，則該方法進行到步驟326。在步驟326，來自與確認的阻塞音相關聯的較高頻率的語音能量可被估計。語音能量可以任何適當的方式被估計。例如，自適應數字過濾器可用于估計語音能量。示例自適應數字過濾器可包括使用LI和L2規范的最小均方差過濾器，最小二乘算法過濾器，線性預測編碼過濾器，和/或其他。在步驟328，步驟326中估計的語音能量可從與確認的阻塞音相關聯的較高頻率被映射到較低頻率。例如，自適應數字過濾器可用于將語音能量從較高頻率映射到較低頻率。在一個實施例中，較高頻率范圍可包括7至9kHz頻率，較低頻率范圍可包括3至6kHz頻率。在一個例子中，自適應數字過濾器可包括最小均方差過濾器，最小二乘算法過濾器，線性預測編碼過濾器，和/或其他。在另一個例子中，像Adobe Audition的音頻編輯軟件可用于通過低通，高通，和帶通過濾器供給音頻，從而平衡音頻，并允許語音能量從較高的頻段或頻率區被移調或重新定位到較低的頻段或頻率區。適當的數字過濾器設計可以使用任何適當的工具(例如MATLAB)設計，以將光譜(能量)內容與信號的高頻區域隔離開，將內容與信號再結合，并且使該內容重新定位到信號的低頻區域，由此更大可能地避免了阻塞音聲音之間的混淆。在步驟340，在一個實施例中，映射的語音能量可被解碼，以為接收到的話語產生多個假設，從而嘗試識別話語。在步驟350，在另一個實施例中，映射的語音能量可被傳輸給其他使用者。例如，在免提呼叫的實施例中，遠程通信處理器可將映射的語音能量傳送至發送器，該發送器用于發生給與步驟310的使用者通信的其他使用者。在步驟360，方法300可以任何適當的方式結束。可在計算機程序產品中實施該方法或其一部分，所述程序產品包括在計算機可讀介質上承載供一個或多個計算機的一個或多個處理器使用來實施一個或多個方法步驟的指令。計算機程序產品可以包括一個或多個軟件程序，其包括源代碼、目標代碼、可執行代碼或其他格式的程序指令；一個或多個固件程序；或者硬件描述語言(HDL)文件；以及任何程序相關數據。所述數據可以包括數據結構、查找表、或任何其他適當格式的數據。所述程序指令可以包括程序模塊、例程、程序、對象、和/或組成部分等。可以在一個計算機上或者在彼此通信的多個計算機上執行計算機程序。程序可以體現在計算機可讀介質上，所述計算機可讀介質可以包括一個或多個存儲設備、制品等。示例性計算機可讀介質包括計算機系統內存，例如，RAM (隨機訪問存儲器)、R0M (只讀存儲器)；半導體存儲器，例如，EPROM (可擦除可編程ROM)、EEPROM (電可擦除可編程ROM)、閃存；磁盤或光盤或帶；和/或其他。計算機可讀介質還可以包括計算機到計算機連接，例如，當通過網絡或另一通信連接(有線、無線或其組合)傳遞或提供數據時。上述示例的任何組合也包括在計算機可讀介質的范圍內。因此，可以理解，可以通過能夠執行與公開的方法的一個或多個步驟相對應的指令的任何電子產品和/或設備至少部分地執行方法。可以理解，上面是本發明的一個或多個優選示例性實施例的描述。本發明不限于在此公開的具體實施例，而是僅由所附權利要求限定。此外，上述描述中包含的陳述與具體實施例相關，并且不被解釋為限制本發明的范圍或者限定權利要求中使用的術語的定義的限定，除非上文中對術語或短語有明確定義。各種其他實施例以及對公開的實施例的各種改變和修改對于本領域的技術人員將是明顯的。例如，本發明可應用于其他領域的語音信號處理，諸如移動通信、互聯網協議話音技術應用等。所有這些其他實施例、改變和修改意在落入所附權利要求的范圍內。如在此說明書和權利要求中所使用，當結合一個或多個部件或其他項的列表使用時，術語“例如”，“比如”，“諸如”和“像”以及動詞“包括”，“具有”，“包含”以及它們的其他動詞形式，每一個都被解釋為開放式，意味著所述列出不被認為是排除其他附加部件或項。其他術語被解釋為使用它們的最廣泛的合理含義，除非它們被應用于要求不同解釋的上下文中。
權利要求
1.一種處理語音信號的方法，包括以下步驟 (a)經由麥克風從使用者接收話語，所述麥克風將話語轉換成語音信號；以及 (b)使用處理器預處理所述語音信號，所述預處理步驟包括從接收到的語音信號中提取聲學數據；由所述聲學數據確定話語是否包括一個或多個阻塞音；由與確認的阻塞音相關聯的較高頻率估計語音能量；以及映射估計的語音能量到較低頻率。
2.如權利要求I所述的方法，其特征在于，所述確定步驟包括使用模式分類器。
3.如權利要求I所述的方法，其特征在于，所述映射步驟包括使用自適應數字過濾器。
4.如權利要求I所述的方法，其特征在于，進一步包括步驟(c):解碼映射的語音能量來為接收到的話語產生多個假設，從而嘗試識別話語。
5.如權利要求I所述的方法，其特征在于，進一步包括步驟(c):傳送映射的語音能量到其他使用者。
6.一種處理語音信號的方法，包括以下步驟 (a)經由麥克風從使用者接收話語，所述麥克風將話語轉換成語音信號；以及 (b)使用處理器預處理所述語音信號，所述預處理步驟包括從接收到的語音信號中提取聲學數據；使用子詞模式分類器來由所述由所述聲學數據確定話語是否包括一個或多個阻塞曰；由與確認的阻塞音相關聯的較高頻率估計語音能量；以及使用自適應數字過濾器來映射估計的語音能量到較低頻率。
7.如權利要求6所述的方法，其特征在于，進一步包括步驟(c):解碼映射的語音能量來為接收到的話語產生多個假設，從而嘗試識別話語。
8.如權利要求6所述的方法，其特征在于，進一步包括步驟(c):傳送映射的語音能量到其他使用者。
9.一種計算機程序產品，其包括指令，所述指令在計算機可讀介質上并且可由語音識別系統的計算機處理器執行，從而使所述系統執行以下步驟 Ca)經由麥克風從使用者接收話語，所述麥克風將話語轉換成語音信號；以及 (b)使用處理器預處理所述語音信號，所述預處理步驟包括從接收到的語音信號中提取聲學數據；由所述聲學數據確定話語是否包括一個或多個阻塞音；由與確認的阻塞音相關聯的較高頻率估計語音能量；以及映射估計的語音能量到較低頻率。
全文摘要
本發明涉及阻塞音語音能量到較低頻率的映射。具體地，語音信號處理系統和方法使用以下步驟(a)經由麥克風從使用者接收話語，所述麥克風將話語轉換成語音信號；以及(b)使用處理器預處理語音信號。預處理步驟包括從接收到的語音信號中提取聲學數據；由所述聲學數據確定話語是否包括一個或多個阻塞音；從與確認的阻塞音相關聯的較高頻率估計語音能量；以及映射估計的語音能量到較低頻率。
文檔編號G10L19/00GK102623006SQ20121001862
公開日2012年8月1日申請日期2012年1月20日優先權日2011年1月27日
發明者G.塔爾瓦, R.欽加爾瓦拉延申請人:通用汽車有限責任公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：G.塔爾瓦;R.欽加爾瓦拉延
技術所有人：通用汽車有限責任公司
我是此專利的發明人

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！