專利名稱:改進噪聲環境和頻率失諧條件下話音識別性能的系統和方法
背景1、領域本發明涉及通信領域,尤其涉及噪聲環境和頻率失諧條件下改善語音識別性能的系統和方法。
2、背景語音識別(VR)是一種非常重要的技術,它通過賦予機器具有模擬智能來識別使用者或者使用者的語音命令,而且促進了人和機器的交流。語音識別也是一種理解人類語言的非常重要的技術。采用某些技術將聲學語音信號恢復成語言信息的系統稱為話音識別器。這里使用的術語“話音識別器”通常是指任意的使用者語音接口使能裝置。
由于安全的原因,話音識別的使用(通常也叫語言識別)變得越來越重要。例如,可以使用語音識別來代替無線電話鍵盤上手動操作按鍵。當使用者在駕駛車輛的同時使用電話時,這一點變得尤為重要。當使用沒有語音識別的電話機時,駕駛員必須把一只手從方向盤上拿開打電話,而且要在按鍵撥打電話的時候看著電話鍵盤。這些動作增加了發生車禍的可能性。語音使能電話(即,為語音識別而設計的電話)使得駕駛員能夠在持續看著路面的情況下撥打電話。另外,手持車載系統使得駕駛員能夠在電話呼叫的時候將雙手保持在方向盤上。
語音識別裝置可以分為依賴于說話者的設備(SD)和不依賴于的說話者的設備(SI)。依賴于說話者的設備(SD)較為常用,其設計用于識別來自特定使用者的命令。相反,不依賴于說話者的設備(SI)能夠接受來自任何使用值的話音命令。為了提高給定語音識別系統(無論是依賴于說話者的設備(SD)還是不依賴于說話者的設備(SI))的性能,都要進行訓練,使系統具有有效的參數。換句話講,在系統能夠很好的工作之前,需要進行學習。
典型的手持車載系統可以包括鍵盤上的數字鍵;關鍵詞“呼叫”、“發送”、“撥號”、“取消”、“清除”、“添加”、“刪除”、“歷史”、“程序”、“是”和“否”;以及預定個同事、朋友和家人的名字。一旦訓練結束,使用者可以通過講出訓練過的關鍵詞來撥打電話,其中,訓練過的語音識別裝置通過將發出的語音與以往存儲在模板中的訓練時發出的語音進行比較并采用采用最佳匹配來進行識別。例如,假設“約翰”是一個訓練過的名字,使用者可以通過講出“呼叫約翰”這個短語來進行呼叫。語音識別系統可以識別“呼叫”和“約翰”這兩個詞語,而且可以撥打使用者事先存儲的約翰的電話號碼。無用模板(garbage template)用來表示詞匯表中不存在的詞語。
將多個引擎組合起來提供了更高的準確度,并在輸入語音信號中利用更大量的信息。組合多個語音識別引擎的系統和方法見美國專利申請09/618,177(在下文中稱為′177號申請),其標題是“Combined Engine System and Method forVoice Recognition”,其申請日為2000年7月18日;以及美國專利申請號為09/657,760(在下文中稱為′760號申請),其標題是“System and Method forAutomatic Voice Recognition Using Mapping”,其申請日為2000年9月8日,此二專利已轉讓給本發明的受讓人,在此引述供參考。
雖然具有組合語音識別引擎的語音識別系統比采用單獨語音識別引擎的系統更準確,但是由于嘈雜環境的影響,組合語音識別系統中的每個語音識別引擎可能引入不準確度。由于背景噪聲,可能無法識別輸入語音信號。背景噪聲可能導致輸入語音信號與語音識別系統詞匯表模板之間的不匹配,或者引起兩者的錯誤匹配。當輸入語音信號和模板之間不匹配時,輸入語音信號將被拒絕。而當發生錯誤匹配時,語音識別系統選定了一個不對應于輸入語音信號的模板。這個錯誤匹配的情況也被認為是一種替換——錯誤模板替換了正確模板。
人們希望得到一種在存在背景噪聲的情況下,可以提高語音識別準確度的具體方法。一個背景噪聲引起拒絕或錯誤匹配的例子是,當在駕駛的過程中使用移動電話進行語音撥號時,麥克風接收的輸入語音信號會受到附加公路噪聲的嚴重干擾。附加公路噪聲可能會劣化話音識別率和準確率,并引起拒絕或錯誤匹配。
另一個噪聲引起拒絕或錯誤匹配的例子是,當麥克風放在護目鏡或者耳機上時,接收的語音信號會受到環繞失真。環繞失真引起的噪聲稱為環繞噪聲和頻率錯誤匹配。環繞失真取決于很多因素,例如嘴和麥克風間的距離、麥克風的頻率響應、汽車內部的聲學特性等等。這些情況都可能降低語音識別準確度。
傳統上,現有技術的語音識別系統包含RASTA濾波器來過濾環繞噪聲。但是,背景噪聲是不能被RASTA濾波器過濾掉的。因此,需要一種技術可以同時過濾環繞噪聲和背景噪聲。這種技術可以提高語音識別系統的準確度。
3、發明概述本文所描述的實施例提供了一種改善語音識別系統的前端的系統和方法。一方面,語音識別的系統和方法包含吠聲振幅的μ律壓縮。另一方面,話音識別的系統和方法包含吠聲振幅的A-律壓縮。吠聲振幅的μ律和A律壓縮都減小了嘈雜環境的影響,因此,提高了整個話音識別系統的準確度。
另一方面,話音識別的系統和方法包含吠聲振幅的μ律壓縮和RelAtiveSpecTrAl(RASTA)濾波器輸出的μ律擴展。在另一個方面,話音識別的系統和方法包含吠聲振幅的A律壓縮和RASTA濾波器輸出的A律擴展。當使用μ律壓縮和μ律擴展,或者A律壓縮和A律擴展時,匹配引擎如“動態時間扭曲(Dynamic Time Warping,DTW)”引擎更適合于處理信道錯誤匹配的情況。
4、附圖簡述通過接下來的詳細描述和對應的附圖,可以使這個發明的特點、目標和優點變得更加清楚。圖中,相同的標記所表示的意義相同。
圖1是語音識別系統中的典型語音識別前端;圖2是語音識別系統中隱藏Markov模型(HMM)模塊的前端;圖3是用μ律壓擴方案代替對數(log)壓縮的前端;圖4是用A律壓擴方案代替對數壓縮的前端;圖5是Log10()函數和μ-log函數固定點執行圖,其中C=50;
圖6是按照采用μ律壓縮和μ律擴展的實施例的前端;圖7是按照采用A律壓縮和A律擴展的實施例的前端。
5、特定實施例的描述為了給出一個語言段的特性,語音識別系統包含一個進行前端處理的前端。圖1是語音識別系統中的典型語音識別前端10。在每隔T毫秒,吠聲振幅產生模塊12把數字化的語音信號s(n)轉換成k個吠聲振幅一次。在一個實施例中,T是10毫秒,k是16個吠聲振幅。因此,每10毫秒就有16個吠聲振幅。本領域中的普通技術人員能夠理解,k可以是任何的正整數。本領域中的普通技術人員也能夠理解,T可以是任意的時間段。
吠聲范圍是和人類聽力感覺相對應的臨界帶的頻率偏差范圍。LawrenceRabiner和Biiing-Hwang Juang的“Fundamentals of Speech Recognition”(1993)所描述的吠聲振幅計算是本領域中的普通技術人員能夠理解的。該文獻在此引述供參考。
吠聲振幅產生模塊12和對數(Log)壓縮模塊14相連接。通過對每一個吠聲振幅取對數,對數(Log)壓縮模塊14把吠聲振幅變換成log10的標度。對數(Log)壓縮模塊14和對數倒頻譜轉換模塊16相連接。對數倒頻譜轉換模塊16計算j靜態對數倒頻譜系數和j動態對數倒頻譜系數。對數倒頻譜轉換是一個大家都了解的余弦轉換。參考前面的參考文獻引用的Lawrence Rabiner和Biiing-Hwang Juang的例子。在一個實施例中,j是8。本領域中的普通技術人員能夠理解,j可以是任何的正整數。因此,每隔T毫秒時間,前端模塊10產生2*j個系數。這些特征由后端模塊處理(未示出),例如進行語音識別的HMM系統。一個HMM模塊模擬識別輸入語音信號的可能的框架結構。HMM模型的時間和頻譜的約束,都被用來量化整個發音特征。
圖2示出了一種語音識別系統中的HMM模塊的前端。吠聲振幅模塊12和對數(Log)壓縮模塊14相連接。對數(Log)壓縮模塊14和RASTA濾波模塊18相連接。RASTA濾波模塊18和對數倒頻譜轉換模塊16相連接。使用帶通濾波器h(i)對來自每個k信道的對數吠聲振幅進行濾波。在一個實施例中,RASTA濾波器是一個帶通濾波器h(i),中心頻率大約在4kHz的范圍被。在語音中大概是每吉秒(Gsecond)四個音節。因此,帶通濾波器的中心頻率大約在4Hz范圍,能夠保持象語音的信號,并削弱不象語音的信號。因此,帶通濾波器可以在嘈雜環境和頻率失配的情況下,提高語音識別的準確度。本領域中的普通技術人員能夠理解,中心頻率可能不是4Hz,這取決于任務的要求。
然后,每隔T毫秒時間,對數倒頻譜轉換模塊處理已經被濾波的對數吠聲振幅,來產生2*j系數。一個可以用在語音識別前端里的帶通濾波器的例子是RASTA濾波器,見本文引用的美國專利5,450,522,題目“Auditory Model forParametrization of Speech”,其申請日為1995年9月12日。圖2所示的前端減少了信道間的失配效應,并且提高了語音識別的準確度。
圖2描述的前端在背景失配的情況下是不穩固的。其中的一個原因是,對數壓縮處理對吠聲信道有非線性放大效應。對數壓縮使得在吠聲信道內,低振幅區的放大效應高于高振幅區。由于背景噪聲的特性是處于吠聲信道的低振幅區,語音識別性能隨著信噪比的降低開始劣化。因此,人們希望有一種模塊可以在吠聲信道內的低振幅區呈線性,而在高振幅區具有對數特性。
可以通過使用對數壓擴方案來有效的實現這一點,例如G.711對數壓擴(壓縮和擴展),見世界電信聯盟(ITU-T)建議G.711(11/88)“Pulse Code Modulation(PCM)of Voice Freqhencies”,以及G.711C、G.711“Encoding/DecodingFunctions”。世界電信聯盟(ITU-T)(世界電信聯盟的電信標準部門)是建立電信設備和系統合作標準的主要國際機構。
這里有兩個G.711對數壓擴方案一個是μ律壓擴方案,一個是A律壓擴方案。μ律壓擴方案和A律壓擴方案都是脈沖編碼調制(PCM)的方法。也就是說,對模擬信號進行采樣,然后對采樣信號的幅度進行量化,也就是指定一個數字化的值。μ律壓擴方案和A律壓擴方案都是通過線性近似采樣信號的對數曲線來量化采樣信號的。
μ律壓擴方案和A律壓擴方案都是對一個對數曲線進行的,因此,對數曲線分為幾段,每一后續段的長度是前一段長度的兩倍。因為μ律壓擴方案和A律壓擴方案計算線性近似的方法不同,所以A律壓擴方案和μ律壓擴方案具有不同段長。
G.711標準包含一個μ律查找表,如下面表格1所示,它接近μ律的線性近似。在采用μ律壓擴方案的時候,模擬信號用總共8,159個間隔來近似。
表1G.711標準包含一個A律查找表,它接近如下面表格2所示的A律線性近似。在采用A律壓擴方案的時候,一個模擬信號用總共4,096個間隔來近似。
表2G.711標準指定μ律壓擴方案代表在8比特/樣本里進行的14比特/樣本的語音量化。G.711標準也指定A律壓擴方案代表在8比特/樣本里進行的13比特/樣本的語音量化。典型的8比特數據是語音電話。對于信號(例如語音)帶有拉普拉斯概率密度函數(PDF),最好采用G.711規范。
本領域中的普通技術人員能夠理解,還可以采用其它的壓擴方案。另外,本領域中的普通技術人員能夠理解,也可以采用其它的量化速率。
在一個實施例中,前端里使用了μ律壓擴方案20來代替對數壓縮方案,如圖3所示。圖3示出用μ律壓擴方案的前端,也就是μ-log壓縮模塊20。吠聲振幅產生模塊12和μ-log壓縮模塊20相連接。μ-log壓縮模塊20和RASTA濾波模塊18相連接。RASTA濾波模塊18和對數倒頻譜轉換模塊16相連接。
數字語音信號s(n),包含了進入吠聲振幅產生模塊12的環繞失真。在吠聲振幅產生模塊12把數字脈沖編碼語音信號s(n)轉換成k個吠聲振幅后,環繞失真變成了乘法失真。μ-log壓縮模塊20對k個吠聲振幅進行μ-log壓縮。μ-log壓縮使得乘法失真變成附加的。由于環繞失真分量是固定的,RASTA濾波模塊18可以過濾任何固定的分量,因此,去掉了環繞失真。對數倒頻譜轉換模塊16計算RASTA濾波輸出的j靜態對數倒頻譜系數和j動態對數倒頻譜系數。
在另一個實施例中,前端里使用了一個A律壓擴方案21來代替對數壓縮方案,如圖4所示。圖4是用A律壓擴方案的前端,也就是A-log壓縮模塊21。吠聲振幅產生模塊12和A-log對數壓縮模塊21相連接。A-LOG壓縮模塊21和RASTA濾波模塊18相連接。RASTA濾波模塊18和對數倒頻譜轉換模塊16相連接。
一個采用G.711μ律壓擴的實施例有兩個產生吠聲振幅的功能,分別叫做壓縮吠聲振幅的μ律壓縮,和擴展濾波器輸出的μ律擴展。在一個實施例中,μ-log壓縮模塊20利用如下的公式進行壓縮Log_Bark(i)=(255-μ_law_compress[Bark(i)])*C,C是一個常數。
可以調節C的值,以利用固定點的語音識別中已有分辨率的優點。
圖5是Log10()函數和μ-log函數固定點實施方式時的圖(C=50)。圖5示出對于低振幅信號,μ-log函數比Log10()函數更加線性。
在一些識別方案中,后端對吠聲信道的振幅進行操作,而不是對靜態和動態對數倒頻譜參數進行計算。在’177申請和’760申請里描述的組合引擎的方案中,DTW引擎在時間聚類(time-clustering)和振幅量化以后,對吠聲信道幅度進行操作。DTW引擎是基于模板匹配的。存儲的模板要和輸入語音信號的特征相匹配。
’177號申請和’760號申請里描述的DTW引擎在背景失配條件下比信道失配條件下穩固。圖6描述了實施例的前端,它改善了信道失配條件下的DTW引擎。圖6是一個按照使用μ律壓縮模塊和μ律擴展模塊22的實施例的前端,也就是μ-log壓縮模塊20和μ律擴展模塊22。吠聲振幅模塊12和μ-log壓縮模塊20相連接。μ-log壓縮模塊20和RASTA濾波模塊18相連接。RASTA濾波模塊18和μ律擴展模塊22相連接。
在一個實施例中,μ-log擴展使用如下的公式Bark’(i)=μ_law_expand(255-[R(i)*D]),D是一個常數。
R(i)是RASTA模塊的輸出,D=0.02(或1/C)。在一個實施例中,[R(i)*D]的取值范圍是0到127。μ-log擴展把Bark’(i)放入了吠聲振幅的范圍內,而且RASTA的處理去掉了信道失配條件下的不利效應。
圖7描述了在信道失配條件下改善DTW引擎的實施例。圖7示出一個按照使用A律壓縮和A律擴展的實施例的前端,也就是,A-LOG壓縮模塊24和A律擴展模塊26。吠聲振幅模塊12和A-LOG壓縮模塊24相連接。A-LOG壓縮模塊24和RASTA濾波模塊18相連接。RASTA濾波模塊18和A律擴展模塊26相連接。A-LOG壓縮模塊24對RASTA過濾的吠聲振幅進行A-LOG壓縮。
因此,這里描述了一個新穎的和改進的語音識別方法和設備。本領域中的普通技術人員能夠理解,這些不同的講明性的邏輯塊、模塊和圖表,它們與這里講明的實施例是相關聯的,它們也是能夠被電子設備、計算機軟件、或這兩者的結合體執行的。這些不同的元件、塊、模塊、電路和步驟已經根據它們的功能性進行了一般性的描述。這些功能是否可以作為軟件或硬件執行,取決于整個系統的設計約束條件和特殊的應用要求。本領域中的普通技術人員能夠理解在這些環境下的軟件和硬件具有可交換性,而且對每個獨特的應用可以很好的執行已描述的功能。例如,與這里描述的實施例相關聯的不同的邏輯塊、模塊和圖表可以被執行或者采用,通過采用固件指令集的處理器、明確應用的集成電路(ASIC)、可編程域門陣列(FPGA)、或其它可編程邏輯器件、分離門或晶體管邏輯器件、分離硬件元件(例如寄存器)、任何常規的可編程軟件模塊和處理器、或者任何這里設計的聯合器件,可以實現本文描述的功能。吠聲振幅產生12、RASTA濾波模塊18、μ-log壓縮模塊20、A-LOG壓縮模塊21和對數倒頻譜轉換模塊16可以在微處理器中被方便地執行,而且吠聲振幅產生、RASTA濾波模塊、μ-log壓縮模塊、A-LOG壓縮模塊和對數倒頻譜轉換模塊也能夠在任何常規的處理器、控制器、微控制器或正式機器上執行。這些模板能夠放在RAM存儲器、flash存儲器、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬盤、可移動盤、CD-ROM或者任何其它已知的存儲介質中。這些存儲器(未示出)可以和任何上述的處理器(未示出)集成。處理器(未示出)和存儲器(未示出)可以放在ASIC(未示出)中。ASIC可以放在電話機中。
為了能夠使熟悉該技術的普通技術人員能夠制造和使用這個發明,上文中描述了這個發明的實施例。這些實施例的不同修正對于熟悉該技術的普通技術人員來說是十分明顯的。這里所描述的一般原理也可以應用于其它的實施例,而無需借助于發明人。因此,這個發明并不局限于這里所示的實施例,應當從最寬的意義上來理解本發明。
權利要求
1.一種分布式語音識別系統的語音識別器,其特征在于,它包括配置用于將數字化語音信號轉變為吠聲(bark)振幅的吠聲振幅生成模塊;與吠聲振幅生成模塊相連接的μ-log壓縮模塊,所述μ-log壓縮模塊用以對吠聲振幅執行μ-log壓縮;與所述μ-log壓縮模塊相連的RASTA濾波模塊,所述RASTA濾波模塊用以對μ-log吠聲振幅進行RASTA濾波;以及與所述RASTA濾波模塊相連的對數倒頻譜轉換模塊,所述對數倒頻譜轉換模塊用于生成J靜態對數倒頻譜系數以及J動態對數倒頻譜系數。
2.如權利要求書1所述的語音識別器,其特征在于,它還包含處理J靜態對數倒頻譜系數以及J動態對數倒頻譜系數以及產生識別假說的末端。
3.如權利要求書1所述的語音識別器,其特征在于,所述μ-log壓縮是G.711μ-log壓縮。
4.如權利要求書1所述的語音識別器,其特征在于,所述吠聲振幅生成模塊每隔T毫秒的時間,將數字語音信號轉換成K吠聲振幅。
5.如權利要求書4所述的語音識別器,其特征在于,所述對數倒頻譜轉換模塊用來每隔T毫秒的時間,生成J靜態對數倒頻譜系數以及J動態對數倒頻譜系數。
6.如權利要求書4所述的語音識別器,其特征在于,K等于16。
7.如權利要求書4所述的語音識別器,其特征在于,T等于10。
8.一種分布式語音識別系統的語音識別器,其特征在于,它包括配置用于將數字化語音信號轉變為吠聲振幅的吠聲振幅生成模塊;與吠聲振幅生成模塊相連接的A-log壓縮模塊,所述A-log壓縮模塊用以對吠聲振幅執行A-log壓縮;與所述A-log壓縮模塊相連的RASTA濾波模塊,所述RASTA濾波模塊用以對A-log吠聲振幅進行RASTA濾波;以及與所述RASTA濾波模塊相連的對數倒頻譜轉換模塊,所述對數倒頻譜轉換模塊用于生成J靜態對數倒頻譜系數以及J動態對數倒頻譜系數。
9.如權利要求書8所述的語音識別器,其特征在于,它還包含處理J靜態對數倒頻譜系數以及J動態對數倒頻譜系數以及產生識別假說的末端。
10.如權利要求書8所述的語音識別器,其特征在于,所述μ-log壓縮是G.711μ-log壓縮。
11.如權利要求書8所述的語音識別器,其特征在于,所述吠聲振幅生成模塊每隔T毫秒的時間,將數字語音信號轉換成K吠聲振幅。
12.如權利要求書11所述的語音識別器,其特征在于,所述對數倒頻譜轉換模塊用來每隔T毫秒的時間,生成J靜態對數倒頻譜系數以及J動態對數倒頻譜系數。
13.如權利要求書11所述的語音識別器,其特征在于,K等于16。
14.如權利要求書12所述的語音識別器,其特征在于,T等于10。
15.一種分布式語音識別系統的語音識別器,其特征在于,它包括配置用于將數字化語音信號轉變為吠聲振幅的吠聲振幅生成模塊;與所述吠聲振幅生成模塊相連接的μ-log壓縮模塊,所述μ-log壓縮模塊用以對所述吠聲振幅執行μ-log壓縮;與所述μ-log壓縮模塊相連的RASTA濾波模塊,所述RASTA濾波模塊用以對μ-log吠聲振幅進行RASTA濾波;以及與所述RASTA濾波模塊相連的μ-log擴展模塊,所述μ-log擴展模塊用于對經濾波的μ-log吠聲振幅進行μ-log擴展。
16.如權利要求書15所述的語音識別器,其特征在于,它還包括用于處理經擴展的吠聲振幅和產生識別假設的末端。
17.如權利要求書15所述的語音識別器,其特征在于,所述μ-log壓縮和擴展是G.711μ-log壓縮和擴展。
18.如權利要求書15所述的語音識別器,其特征在于,所述吠聲振幅生成模塊每隔T毫秒的時間,將數字語音信號轉變為K吠聲振幅。
19.如權利要求書18所述的語音識別器,其特征在于,所述μ-log擴展模塊用來將經濾波的μ-log吠聲振幅擴展成K擴展的吠聲振幅。
20.如權利要求書18所述的語音識別器,其特征在于,K等于16。
21.如權利要求書19所述的語音識別器,其特征在于,所述T等于10。
22.一種分布式語音識別系統的語音識別器,其特征在于,它包括配置用于將數字化語音信號轉變為吠聲振幅的吠聲振幅生成模塊;與所述吠聲振幅生成模塊相連接的A-log壓縮模塊,所述A-log壓縮模塊用以對所述吠聲振幅執行A-log壓縮;與所述A-log壓縮模塊相連的RASTA濾波模塊,所述RASTA濾波模塊用以對A-log吠聲振幅進行RASTA濾波;以及與所述RASTA濾波模塊相連的A-log擴展模塊,所述μ-log擴展模塊用于對經濾波的μ-log吠聲振幅進行A-log擴展。
23.如權利要求書22所述的語音識別器,其特征在于,它還包括處理經擴展的吠聲振幅和產生識別假設的末端。
24.如權利要求書22所述的語音識別器,其特征在于,所述A-log壓縮和擴展是G.711A-log壓縮和擴展。
25.如權利要求書22所述的語音識別器,其特征在于,所述吠聲振幅生成模塊每隔T毫秒時間,將數字語音信號轉變成K吠聲振幅。
26.如權利要求書25所述的語音識別器,其特征在于,所述A-log擴展模塊是用來將經濾波的吠聲振幅擴展成經K擴展的吠聲振幅。
27.如權利要求書25所述的語音識別器,其特征在于,K等于16。
28.如權利要求書27所述的語音識別器,T等于10。
29.一種進行話音識別器處理用以話音識別的方法,其特征在于,它包括將數字語音信號轉變成吠聲振幅;對所述吠聲振幅進行μ-log壓縮;對μ-log吠聲振幅進行RASTA濾波;以及把所述μ-log吠聲振幅對數倒頻譜轉換為J靜態對數倒頻譜系數和J動態對數倒頻譜系數。
30.如權利要求書29所述的方法,其特征在于,所述μ-log壓縮是G.711μ-log壓縮。
31.如權利要求書29所述的方法,其特征在于,所述轉化包括每隔T毫秒時間,將數字語音信號轉化成K吠聲振幅。
32.如權利要求書31所述的方法,其特征在于,所述轉換包括每隔T毫秒,將μ-log吠聲振幅對數倒頻譜轉換為J靜止對數倒頻譜系數和J動態對數倒頻譜系數。
33.如權利要求書31所述的方法,其特征在于,K等于16。
34.如權利要求書32所述的方法,其特征在于,T等于10。
35.一種話音識別的方法,其特征在于,它包括將數字語音信號轉換為吠聲振幅;對吠聲振幅進行μ-log壓縮;對所述μ-log吠聲振幅進行RASTA濾波;將所述μ-log吠聲振幅對數倒頻譜轉化為J靜止對數倒頻譜系數和J動態對數倒頻譜系數;根據所述J靜態對數倒頻譜系數和J動態對數倒頻譜系數,產生一個識別假設。
36.一種話音識別方法,其特征在于,它包括將數字語音信號轉化為吠聲振幅;對所述吠聲振幅進行A-log壓縮;對所述A-log吠聲振幅進行RASTA濾波;將A-log吠聲振幅對數倒頻譜轉化為J靜態對數倒頻譜系數和J動態對數倒頻譜系數。
37.如權利要求書36所述的方法,其特征在于,A-log壓縮是G.711A-log壓縮。
38.如權利要求書36所述的方法,其特征在于,所述轉換包括每隔T毫秒的時間,將數字語音信號轉化成K吠聲振幅。
39.如權利要求書31所述的方法,其特征在于,所述轉化包括每隔T毫秒的時間,將A-log吠聲振幅轉變為J靜態對數倒頻譜系數和J動態對數倒頻譜系數。
40.如權利要求書31所述的方法,其特征在于,K等于16。
41.如權利要求書32所述的方法,其特征在于,T等于10。
42.一種話音識別的方法,其特征在于,它包括將數字語音信號轉變為吠聲振幅;對所述吠聲振幅進行A-log壓縮;將A-log吠聲振幅對數倒頻譜轉變為J靜態對數倒頻譜系數和J動態對數倒頻譜系數;以及根據J靜態對數倒頻譜系數和J動態對數倒頻譜系數產生一個識別假設。
43.一種話音識別的方法,其特征在于,它包括將數字語音信號轉變為吠聲振幅;對所述吠聲振幅進行μ-log壓縮;將μ-log吠聲振幅進行RASTA濾波;以及對經濾波的μ-log吠聲振幅進行μ-log擴展。
44.如權利要求書43所述的方法,其特征在于,所述μ-log壓縮是G.711μ-log壓縮。
45.如權利要求書43所述的方法,其特征在于,所述轉變包括每隔T毫秒的時間,將數字語音信號轉化為K吠聲振幅。
46.如權利要求書45所述的方法,其特征在于,K等于16。
47.如權利要求書46所述的方法,其特征在于,T等于10。
48.一種話音識別的方法,其特征在于,它包括將數字語音信號轉變為吠聲振幅;對所述吠聲振幅進行μ-log壓縮;對μ-log吠聲振幅進行RASTA濾波;對經濾波的μ-log吠聲振幅進行μ-log擴展;以及根據經擴展的μ-log吠聲振幅,產生一個識別假設。
49.一種話音識別方法,其特征在于,它包括將數字語音信號轉變為吠聲振幅;對所述吠聲振幅進行A-log壓縮;對A-log吠聲振幅進行RASTA濾波;對經濾波的A-log吠聲振幅進行A-log擴展。
50.如權利要求書49所述的方法,其特征在于,所述A-log壓縮是G.711Alog壓縮。
51.如權利要求書49所述的方法,其特征在于,所述轉換包括每隔T毫秒的時間,將數字語音信號轉化為K吠聲振幅。
52.如權利要求書51所述的方法,其特征在于,K等于16。
53.如權利要求書52所述的方法,其特征在于,T等于10。
54.一種話音識別的方法,其特征在于,它包括將數字語音信號轉變為吠聲振幅;對吠聲振幅進行A-log壓縮;對A-log吠聲振幅進行RASTA濾波;對經過濾的A-log吠聲振幅進行A-log擴展;以及根據經擴展的A-log吠聲振幅,產生一個識別假設。
全文摘要
通過改善語音識別系統10的語音識別器,實現了一種可以改善語音識別性能的方法和系統。為了減少附加噪聲效應提高語音識別系統的準確度,采用了吠聲振幅的μ律壓縮20。采用吠聲振幅的A律壓縮,來提高語音識別器的準確度。在語音識別器中,可以同時采用μ律壓縮20和μ律擴展22,來提高語音識別器的準確度。在語音識別器中,可以同時采用A律壓縮21和A律擴展,來提高語音識別器的準確度。
文檔編號G10L15/20GK1473323SQ01818337
公開日2004年2月4日 申請日期2001年10月25日 優先權日2000年10月31日
發明者H·加魯達德里, H 加魯達德里 申請人:高通股份有限公司