用于內部mmse計算的基于外部估計的snr的修改器的制造方法
【專利說明】用于內部MMSE計算的基于外部估計的SNR的修改器
[0001] 對相關申請的交叉引用 本申請涉及下面的申請:由Guillaume Lamy和Bijal Joshi發明的、與本申請相 同日期提交的、并且由代理人案卷號2013P03103US標識的"Accurate Forward SNR Estimation Based On MMSE Speech Probability Presence,';以及由 Guillaume Lamy 和Jianming Song發明的、與本申請相同日期提交的、并且由代理人案卷號2013P03107US 標識的"Speech Probability Presence Modifier Improving Log-MMSE Based Noise Suppression Performance,'。
【背景技術】
[0002] 許多方法和設備已被開發用來從信息承載信號抑制或移除噪聲。公知的噪聲抑制 方法使用噪聲估計值,該噪聲估計值使用對最小均方差或"麗SE"的計算來獲得。麗SE在 著作中被描述。例如參見 Alan V. Oppenheim 和 George C. Verghese,"Estimation With Minimum Mean Square Error,,' MIT Open Courseware, http://ocw. mit. edu, 2010 年春天 最后修改,其內容通過引用以其整體被合并于此。
[0003] 雖然Log-MMSE是已建立的噪聲抑制方法,但是隨著時間已對其做出了改進。一個 改進是使用語音概率存在或"SPP"作為Iog-MMSE估計器的指數象其也稱為基于最優對數 譜幅度的估計器或"0LSA"方法,其使得MMSE算法有效地達到其最大允許的衰減量。
[0004] Log-MMSE噪聲估計的OLSA修改遭受兩個已知的問題。一個問題是在低信噪比情 形中它增加所謂的音樂噪聲。另一個且更顯著的問題是在有噪聲狀況中它還過度抑制弱語 音。基于麗SE的噪聲估計減小或避免存在于現有技術中的已知問題,對基于麗SE的噪聲 估計值確定的OLSE修改將是對現有技術的改進。
【附圖說明】
[0005] 圖1是表示清潔語音信號的單個波形的繪圖; 圖2是背景聲學噪聲信號的繪圖; 圖3是表示有噪聲語音信號(即,諸如圖1中所示的那個的清潔語音信號和諸如圖2中 所示的那個的背景聲學噪聲信號)的繪圖; 圖4描繪了圖3中所示的有噪聲語音信號的樣本; 圖5A描繪了數據樣本的第一幀,其在優選實施例中包括有噪聲語音信號的十個相繼 樣本; 圖5B描繪了數據樣本的第二幀,其包括圖5A中示出的第一十個之后發生的十個樣 本; 圖6A和6B描繪了多個頻率分量帶或范圍的相對幅度,其分別表示頻域中的第一和第 二幀; 圖7是被配置為具有增強MMSE確定器的無線通信裝置的框圖; 圖8A是增強麗SE確定器的框圖; 圖8B是麗SE確定器的優選實施方式的框圖; 圖9是增強麗SE確定器的操作的流程圖/框圖描繪; 圖IOA和圖IOB分別示出了流程圖的第一和第二部分,該流程圖描繪用于扭曲或修改 語音存在概率(SPP)并且使扭曲的SPP去噪的方法的步驟; 圖11描繪四條S形曲線;以及 圖12描繪用于確定信噪比的方法的步驟。
【具體實施方式】
[0006] 在這里,噪聲被認為是通信系統中不需要的、非信息承載信號。白噪聲或隨機噪聲 是隨機能量,其具有一致的能量分布。其最通常由電子運動生成,諸如通過半導體、電阻器 或導體的電流。散粒噪聲是非隨機噪聲的一種類型,其可以在電流突然流動穿過結或連接 時生成。聲學噪聲是不需要的或不希望的聲音。在機動車輛中,聲學噪聲包括但不限于風 噪聲、輪胎噪聲、引擎噪聲和道路噪聲。
[0007] 聲學噪聲容易由必須與通信裝備一起使用的麥克風檢測到。聲學噪聲因此被"添 加"到由麥克風檢測到的信息承載語音信號。
[0008] 因此,抑制聲學噪聲要求選擇性地衰減被確定為或被認為是不需要或不希望的、 非信息承載信號的音頻信號。不幸的是,許多聲學噪聲是不連續的并且可能難以抑制。
[0009] 如這里使用的,術語"頻帶受限"指代如下信號:其功率譜密度在特定的、預先確定 的頻率上為零或被"切斷"。對于包括蜂窩和有線兩者的大多數電信系統,該預先確定的頻 率是8千赫茲(8KHz )。
[0010] 圖1是單個、清潔、頻帶受限音頻信號100 (諸如話音或語音)的短時段的描繪,該 信號100隨時間t變化。為了清晰和簡化的目的,僅示出了對應于一個信號的一個波形。如 本領域普通技術人員知道的,音頻信號100在以毫秒度量的短時間段上是稍微"突發"的。 信號100因此固有地包括短時間段102,在其期間音頻信號消失。
[0011] 圖1中描繪的信號100在幅度上隨時間變化。因此,包括沉默或安靜時段102的 信號100被本領域普通技術人員稱為是時域中的信號。
[0012] 圖2描繪了幾百毫秒的聲學噪聲信號200。不同于圖1中所示的音頻信號100,噪 聲信號200被描繪成在圖2中描繪的至少幾百毫秒上基本上恒定。然而,噪聲信號200可 以在長時間段上是恒定的,如在噪聲信號來自風噪聲、道路噪聲等的情況中將發生的那樣。
[0013] 如公知的那樣,在機動車輛中,語音和噪聲通常是共存的,也即是說,當語音信號 100和聲學噪聲信號200同時由相同麥克風檢測到時,如在人們正在使用車輛中的麥克風 同時車輛正在駕駛員的窗戶打開情況下以相對較高的速度向前移動的情況中發生的噪聲 200和語音100,麥克風將把語音和噪聲添加到一起。
[0014] 圖3是當圖2中所示的噪聲信號200被添加到語音時圖1的語音信號100的簡化 描繪,如在麥克風轉化語音信號100和聲學背景噪聲200兩者時發生的。如圖3中所示的, 產生的信號300是"有噪聲的"、頻帶受限的音頻信號300,其是清潔的、頻帶受限的音頻信 號102 (諸如圖1中所示的那個)和聲學噪聲信號104 (諸如圖2中所示的那個)的組合。 噪聲信號200可以被看出已被"添加"到清潔語音信號100。還要注意,在圖3中,相對安靜 時間段102或語音沉默時間段102被"填充"有背景噪聲200。在圖3中,由參考數字302 標識的時間段示出圖2中所示的背景噪聲信號占據圖1中所示信號的另外安靜時段102的 地點。
[0015] 由包括蜂窩系統的大多數電信系統提供的話音或音頻通信實際上通過傳輸和接 收表示時變或模擬信號(諸如圖1和2中所示的那些)的數字數據來提供。把模擬信號轉換 為數字形式的過程是公知的,并且要求以如下速率采樣頻帶受限信號:該速率是頻帶受限 信號中存在的最高頻率的至少兩倍或雙倍。一旦取得了模擬信號的樣本,該樣本就被轉換 為表示樣本的數字值或"字"。表示模擬信號的樣本的數字值被傳輸到一目的地,在該目的 地數字值被用于重新創建原始樣本從其取得的模擬信號的樣本。重新創建的樣本然后被用 于在目的地重新創建原始模擬信號。
[0016] 圖4描繪圖3中所示的有噪聲的、頻帶受限的音頻信號300的樣本400。有噪聲信 號300的一些樣本404將僅是被麥克風"添加"的聲學噪聲200的樣本。其它樣本403將 表示信息承載音頻信號100和噪聲200。
[0017] 不管樣本400表示清潔信號100和噪聲200還是僅表示噪聲200,所有樣本400都 被轉換為二進制值以用于傳輸到目的地。然而,如下面闡述的,如果歸因于噪聲200的有噪 聲信號300的各分量被抑制,則包括有噪聲信號300的至少一些噪聲200可以被抑制或移 除。因此,希望識別或確定有噪聲信號的樣本實際上表示或至少可能表示信號100還是噪 聲 200。
[0018] 術語"快速傅里葉變換(FFT)"指代數字信號處理領域中普通技術人員公知的過 程,通過該過程,時域信號(包括數字信號)可以被轉換到頻域。換句話說,FFT提供如下方 法:通過該方法,時域信號被使用