專利名稱:聲音信號糾正方法、聲音信號糾正設備以及計算機程序的制作方法
技術領域:
本發明涉及一種聲音信號糾正方法、應用所述聲音信號糾正方法的聲音 信號糾正設備以及用于實施所述聲音信號糾正設備的計算機程序,其中所述聲音信號糾正方法用于根據與噪聲圖(noisepattern)相關的噪聲模型糾正基 于獲取的聲音的聲音信號。特別地,本發明涉及一種為獲取的聲音提高語音 識別率的聲音信號糾正方法、聲音信號糾正設備以及計算機程序。
背景技術:
噪聲抑制技術能夠抑制在有噪聲的環境下獲取的聲音中的噪聲成分,其 目的用于提高諸如汽車導航器等語音識別設備中的語音識別率,并用于提高 與語音相關的設備的質量,例如提高電話機中發送語音的質量。圖1為在概念上示出傳統噪聲抑制技術的示意圖。根據傳統噪聲抑制技 術,獲取包括噪聲和語音的聲音,并通過FFT (快速傅立葉變換)處理,將 按幀劃分且基于獲取的聲音的聲音信號、即輸入信號in(n)轉換為相位頻譜 tan—'IN(f)和振幅頻譜IIN(f)1。然后,根據與聲音信號的振幅頻譜IIN(f)l具有很 高相似度的噪聲模型,估算穩態噪聲的振幅頻譜IN(f)l,并從聲音信號的振幅 頻譜IIN(f)l中減去估算的穩態噪聲的振幅頻譜IN(f)l。接著,通過逆FFT處理 轉換己減去穩態噪聲的振幅頻譜IN(f)l的振幅頻譜IIN(f)l和相位頻譜 tan"IN(f),從而導出每個幀的輸出信號out(n)。作為其中噪聲被抑制的聲音 信號,導出的輸出信號用于例如語音識別處理。圖2A和圖2B為示出與傳統噪聲抑制技術相關的振幅頻譜的坐標圖。圖 2A示出聲音信號的振幅頻譜IIN(f)l中頻率值與振幅值之間的關系,而圖2B 示出已減去穩態噪聲的振幅頻譜IN(f)l的振幅頻譜IIN(f)l中頻率值與振幅值之 間的關系。在比較圖2A和圖2B時清楚可知,在圖2B所示的波形中已從輸 入信號的振幅頻譜IIN(f)l中減去估算的穩態噪聲的振幅頻譜IN(f)l,從而抑制 了噪聲。這種噪聲抑制技術稱為譜減法,并且例如在日本專利申請特開平 No.07-193548 (1995)中公開了使用譜減法的噪聲抑制技術。然而,噪聲包括隨時間而改變的非穩態成分,從而在日本專利申請特開 平No.07-193548 (1995)所述的使用譜減法的噪聲抑制技術中,留下非穩態 成分。例如,圖2A和圖2B所示的波形涉及僅由噪聲構成的輸入信號,如圖 2B所示,在抑制穩態噪聲時,留下高度非穩態噪聲。以這種方式留下的噪 聲是非自然噪聲,因此與用于語音識別的聲音模型中包含的噪聲模型的匹配 度低,從而導致噪聲識別的精度低之類的問題。具體來說,引起誤差,從而 使留下的噪聲被識別為譜功率較低的音位,例如"s"和"n"。因此,對噪 聲的抑制與語音識別率的提高不相關;相反地,出現引起語音識別率降低的 問題。此外,出現產生音樂噪聲之類的非自然噪聲的問題。發明內容為了解決上述問題提出了本發明,并且本發明的目的是提供聲音信號糾 正方法、應用所述聲音信號糾正方法的聲音信號糾正設備以及用于實施所述 聲音信號糾正設備的計算機程序,其中所述聲音信號糾正方法通過比較聲音 信號與噪聲模型并基于比較結果平滑化聲音信號的波形而能夠防止留下非自然噪聲,從而使噪聲識別精度提高、提高語音識別率以及防止產生音樂噪 聲。根據本發明第一方案提供一種聲音信號糾正方法,根據與噪聲圖相關的 噪聲模型來糾正基于獲取的聲音的聲音信號,其包括以下步驟將所述聲音 信號與所述噪聲模型進行比較;以及基于比較結果平滑化所述聲音信號的波形。根據本發明第二方案提供一種聲音信號糾正設備,根據與噪聲圖相關的噪聲模型來糾正基于獲取的聲音的聲音信號,其包括用于將所述聲音信號 與所述噪聲模型進行比較的裝置;以及用于基于比較結果平滑化所述聲音信號的波形的裝置。根據本發明第三方案提供一種聲音信號糾正設備,根據與噪聲圖的頻譜相關的噪聲模型來糾正基于獲取的聲音的聲音信號的頻譜,其包括導出裝 置,通過將所述聲音信號的頻譜與所述噪聲模型進行比較來導出用于糾正所 述聲音信號的糾正系數;以及平滑化裝置,使用導出的糾正系數平滑化所述 聲音信號的波形。根據本發明第四方案提供一種聲音信號糾正設備,在根據第三方案的聲 音信號糾正設備中所述導出裝置根據所述聲音信號的頻譜強度與基于所述 噪聲模型確定的閾值之差,導出所述糾正系數。根據本發明第五方案提供一種聲音信號糾正設備,在根據第三或第四方 案的聲音信號糾正設備中所述平滑化裝置平滑化所述聲音信號的頻譜在頻 率軸方向的變化。根據本發明第六方案提供一種聲音信號糾正設備,在根據第五方案的聲 音信號糾正設備中所述平滑化裝置基于下面的公式(A)進行平滑化|IN(f),|=a|IN(f-l)'|+(l-a)|IN(f)| ....................................公式(A)其中,IIN(f)'l為平滑化后在頻率f處的頻譜, IIN(f)l為平滑化前在頻率f處的頻譜,IIN(f-l)'l為平滑化后在頻率f-1處的頻譜,其中頻率f-1與頻率f相差預 定頻率間距,以及a為糾正系數,其中0^xSl。根據本發明第七方案提供一種聲音信號糾正設備,在根據第三或第四方 案的聲音信號糾正設備中所述平滑化裝置平滑化所述聲音信號的頻譜在時 間軸方向的變化。根據本發明第八方案提供一種聲音信號糾正設備,在根據第七方案的聲音信號糾正設備中所述平滑化裝置基于下面的公式(B)進行平滑化|IN(f),|t=a|IN(f),|t-l+(l-a)|IN(f)|t ....................................公式(B)其中,|IN(f)'|t為平滑化后在時刻t于頻率f處的頻譜, |IN(f)|t為平滑化前在時刻t于頻率f處的頻譜,|IN(f)'|t-l為平滑化后在時刻t-l于頻率f處的頻譜,其中時刻t-l在時刻 t之前并與時刻t相隔預定時間,以及 a為糾正系數,其中0^c^1。根據本發明第九方案提供一種聲音信號糾正設備,在根據第二至第八方 案中的任一個方案的聲音信號糾正設備中還包括用于基于平滑化后的聲音信號執行語音識別處理的裝置。根據本發明第十方案提供一種計算機程序,使計算機執行處理以根據與
噪聲圖相關的噪聲模型糾正基于獲取的聲音的聲音信號,所述計算機程序包 括使計算機將所述聲音信號與所述噪聲模型進行比較的步驟;以及使計算 機基于比較結果平滑化所述聲音信號的波形的步驟。根據本發明,將聲音信號與噪聲模型進行比較,并基于比較結果平滑化 聲音信號的波形,從而防止了高度非穩態噪聲的出現;以及將聲音信號的波 形糾正為具有穩態噪聲的波形,其與噪聲模型的匹配度高,由此可以提高噪 聲識別的精度,從而在將本發明應用于例如語音識別設備時可以提高語音的 識別率。此外,在將本發明用于與電話通信相關的設備中時,可以防止諸如 音樂噪聲之類的非自然噪聲的產生。另外,根據本發明,糾正系數隨著與噪聲模型的比較結果而改變,由此 在包括語音等頻譜(其強度不同于噪聲)的情況下平滑化的程度降低,從而 通過防止語音中的峰被平滑化,可以提高語音的識別率。在根據本發明的聲音信號糾正方法、聲音信號糾正設備和計算機程序 中,將基于獲取的聲音的聲音信號和與噪聲圖相關的噪聲模型進行比較,并 根據比較結果平滑化聲音信號的波形在頻率軸方向的變化和/或在時間軸方 向的變化。根據本發明,防止了高度非穩態噪聲的出現,從而將波形糾正為與噪聲 模型具有高匹配度的穩態噪聲的波形,由此獲得優異的效果,從而可以提高 噪聲識別的精度。由于本發明在應用于例如語音識別設備的情況下可以提高 語音的識別率;以及在將本發明用于與電話通信相關的設備中的情況下,可 以防止諸如音樂噪聲之類的非自然噪聲的產生,因此本發明提供優異的技術 效果。此外,本發明的聲音信號糾正設備等將聲音信號與噪聲模型進行比較; 根據聲音信號的頻譜強度與基于噪聲模型確定的閾值之差,導出用于糾正聲 音信號的糾正系數;以及使用導出的糾正系數平滑化聲音信號的波形。根據本發明,在包括語音等頻譜(其強度不同于噪聲)的情況下,平滑 化的程度降低,由此可以防止語音中的峰被平滑化,并獲得優異的效果,從 而可以提高語音的識別率。根據以下詳細說明和附圖,可更全面地了解本發明的以上和其它目的及 特征。
圖1為在概念上示出傳統噪聲抑制技術的示意圖;圖2A和圖2B為示出根據傳統噪聲抑制技術的振幅頻譜的坐標圖; 圖3為示出根據本發明的聲音信號糾正設備的結構框圖; 圖4為示出根據本發明的聲音信號糾正設備中的處理的流程圖; 圖5為在概念上示出根據本發明的聲音信號糾正設備中的糾正處理的示 意圖;圖6A和圖6B為示出與根據本發明的聲音信號糾正設備相關的聲音信號 的振幅頻譜的坐標圖;圖7為示意性示出根據本發明的聲音信號糾正設備中的平滑化處理的控 制流程圖;圖8為示意性示出根據本發明的聲音信號糾正設備中的平滑化處理的控 制流程圖;以及圖9為示出根據本發明的聲音信號糾正設備中的糾正系數導出處理的坐 標圖。
具體實施方式
下面,參照附圖詳細描述本發明,在附圖中示出了本發明的實施例。圖 3為示出根據本發明的聲音信號糾正設備的結構框圖。例如,在圖3中以1 表示使用計算機的聲音信號糾正設備,例如安裝在車輛中的導航器,并且聲 音信號糾正設備l包括控制裝置IO (控制器),例如CPU (中央處理器) 或者DSP (數字信號處理器),用于控制整個設備;記錄裝置ll,例如硬盤 或者ROM,用于記錄諸如程序和數據等多種信息;存儲裝置12,例如RAM, 用于臨時存儲產生的數據;聲音獲取裝置13,例如麥克風,用于從外部獲取 聲音;聲音輸出裝置14,例如揚聲器,用于輸出聲音;顯示裝置15,例如 液晶監視器;以及導航裝置16,用于執行與導航相關的處理,例如指示到達 目的地的路線。記錄裝置11記錄本發明的計算機程序lla,在記錄的計算機程序lla中 包含的多種處理步驟被存儲在存儲裝置12中并在控制裝置10的控制下而被
執行,從而使計算機可用作本發明的聲音信號糾正設備1。此外,記錄裝置11中的部分記錄區用作多個數據庫,例如用于語音 識別的聲音模型數據庫(用于語音識別的聲音模型DB) lib以及識別語法llc,聲音模型數據庫llb記錄與語音識別所需的用于匹配的信號圖(signal pattern)相關的聲音模型和噪聲模型,識別語法llc記錄用于識別的詞匯表, 根據與聲音模型相對應的音位或音節定義以及語法來表示所述詞匯表。存儲裝置12的部分存儲區用作聲音信號緩沖器12a以及幀緩沖器12b, 聲音信號緩沖器12a存儲通過以預定周期對聲音進行采樣而獲得的數字化聲 音信號,其中所述聲音是由聲音獲取裝置13獲取的模擬信號,幀緩沖器12b 用于存儲通過將聲音信號劃分為具有預定時間長度的多段而獲得的多個幀。導航裝置16具有諸如GPS (全球定位系統)的位置檢測機構以及諸如 DVD (數字多功能光盤)或硬盤之類的記錄地圖信息的記錄介質。導航裝置 16執行導航處理,例如搜索從當前位置到達目的地的路線并指示所述路線, 導航裝置16還在顯示裝置15上顯示地圖和路線并從聲音輸出裝置14輸出 語音指導。這里,圖3所示的結構僅為實例,可以通過多種形式來發展本發明。可 以通過一個或多個VLSI芯片的形式來構建與語音識別相關的功能部件 (function),并將其與導航器集成在一起,并且例如也可以將用于語音識別 的專用器件在外部附著在導航器上。此外,控制裝置10既可以用于語音識 別處理,也可以用于導航處理,或者可分別設置專用電路。另外,在控制裝 置10中可包括協處理器,所述協處理器用于執行包括與語音識別相關的特 定計算的處理,例如FFT (快速傅立葉變換)。而且,可以將聲音信號緩沖 器12a設置為屬于聲音獲取裝置13的電路,并且可以在設置在控制裝置10 中的存儲器中形成幀緩沖器12b。此外,除了安裝在車輛中的器件、例如導 航器之外,本發明的聲音信號糾正設備l還可以應用于多種器件中,例如用 于電話通信的語音發送器(在發送語音時抑制噪聲)、中繼器和語音接收器。接下來,描述本發明的聲音信號糾正設備l中的處理。圖4為示出本發 明的聲音信號糾正設備1中的處理的流程圖。在步驟S1,在用于執行計算機 程序11a的控制裝置10的控制下,聲音信號糾正設備1通過聲音獲取裝置 13獲取外部聲音;并在步驟S2,在預定期間對己經獲取的、作為模擬信號
的聲音進行采樣,然后將由此數字化的聲音信號存儲在聲音信號緩沖器12a 中。在步驟Sl中獲取的外部聲音為諸如人的語音、穩態噪聲和非穩態噪聲 等多種聲音交疊的聲音。人的語音是通過與聲音模型進行匹配來識別的語 音。穩態噪聲為交通噪聲和發動機噪聲之類的噪聲,在本發明中可通過與噪 聲模型進行匹配來糾正穩態噪聲。非穩態噪聲為以非穩態方式產生的噪聲, 并且已經提出和建立了去除非穩態噪聲的多種方法。此外,在步驟S3,在控制裝置10的控制下,聲音信號糾正設備l從存 儲在聲音信號緩沖器12a中的聲音信號產生具有預定長度的多個幀。在步驟 S3中,例如,以20ms至30ms的預定長度將聲音信號劃分為多個幀。這里, 各個幀彼此交疊10ms至15ms。對于每個幀,進行語音識別領域通用的幀處 理,包括漢明(Hamming)窗和漢寧(Hanning)窗之類的窗口函數以及使 用高通濾波器進行濾波。對由此產生的每個幀進行下面的處理。在步驟S4,在控制裝置10的控制下,聲音信號糾正設備1通過進行FFT 處理將每個幀中的聲音信號轉換為相位頻譜和振幅頻譜;并在步驟S5,將獲 取的聲音信號的振幅頻譜與基于穩態噪聲等的振幅頻譜的噪聲模型進行比 較,從而導出用于糾正聲音信號的振幅頻譜的糾正系數。在步驟S5中,例 如,將穩態噪聲的振幅譜的平均值用作將要比較的噪聲模型。此外,在步驟 S5中,通過將聲音信號的振幅頻譜強度(例如峰值、峰的積分值以及峰的平 方值)與基于噪聲模型確定的閾值進行比較,來執行聲音信號的振幅頻譜與 噪聲模型的比較,從而根據聲音信號的振幅頻譜強度與閾值之差導出糾正系 數。此外,在步驟S6,聲音信號糾正設備l利用導出的糾正系數平滑化聲音 信號的振幅頻譜的波形;并在步驟S7,對相位頻譜和平滑化后的振幅頻譜進 行逆FFT處理,從而將所述聲音信號轉換為振幅頻譜被糾正的每個幀中的聲 音信號。在步驟S6中,平滑化振幅頻譜在頻率軸方向的變化和/或在時間軸 方向的變化。然后,在步驟S8,在控制裝置10的控制下,聲音信號糾正設備l對在 步驟S7中己經轉換的聲音信號的輸出執行語音識別處理。此外,在使用語 聲音譜進行語音識別處理的情況下,可從步驟S6的結果實現識別,而不需 執行步驟S7。
下面,進一步詳細描述參照圖4描述的本發明的聲音信號糾正設備1中步驟S4至S7的處理。圖5為概念上示出本發明的聲音信號糾正設備1中的 糾正處理的示意圖。這里,在圖5中,n表示己進行FFT處理的聲音信號的 幀數,f表示頻率。在本發明的聲音信號糾正設備1中,將每個幀中的聲音 信號(包括諸如獲取的噪聲和語音等聲音)用作輸入信號in(n),并通過FFT 處理將其轉換為相位頻譜tan"IN(f)和振幅頻譜IIN(f)l。然后,根據與聲音信 號的振幅頻譜IIN(f)l具有高相似度的噪聲模型,估算穩態噪聲的振幅頻譜 |N(f)|;并根據估算的穩態噪聲的振幅頻譜IN(f)l與聲音信號的振幅頻譜IIN(f)l 的比較結果導出糾正系數cx。然后,利用導出的糾正系數(x,平滑化聲音信 號的振幅頻譜IIN(f)l的波形。接著,對利用糾正系數a己經平滑化的振幅頻 譜IIN(f),l和相位頻譜tan"IN(f)進行逆FFT (IFFT)處理,從而將其轉換為每 個幀中的輸出信號out(n)。圖6A和圖6B為示出與本發明的聲音信號糾正設備1相關的聲音信號的 振幅頻譜的坐標圖。圖6A示出振幅頻譜IIN(f)l的頻率值與振幅值之間的關系, 圖6B示出波形已被平滑化的振幅頻譜IIN(f)l的頻率值與振幅值之間的關系。 圖6A和圖6B示出僅由噪聲構成的聲音信號的波形,并且通過將圖6A所示 的振幅頻譜平滑化為圖6B所示的振幅頻譜,而將振幅頻譜的波形糾正為高 度非穩態噪聲成分被抑制的穩態噪聲的典型波形,也就是說,與噪聲模型具 有高相似度的波形。因此,在語音識別等之后的處理中易于去除穩態噪聲, 從而能夠提高語音的識別率。圖7為示意性示出本發明的聲音信號糾正設備1中的平滑化處理的控制 流程圖。圖7示出用于在頻率軸方向平滑化聲音信號的振幅頻譜IIN(f)l的處 理,其等效于遞歸濾波器,可表示為下面的公式l。|IN(f),|n=aiIN(f-l),|n+(l-a)|IN(f)|n ....................................(公式l)這里,|IN(f),|n為平滑化后在第n個幀中于頻率f處的振幅頻譜, |IN(f)|n為平滑化前在第n個幀中于頻率f處的振幅頻譜, |IN(f-l)'|n為平滑化后在第n個幀中于頻率f-1處的振幅頻譜,其中頻率 f-l與頻率f相差預定頻率間距,以及a為糾正系數,其中0^xSl。在公式1中,f-l為與頻率f相差預定頻率間距的頻率,也就是說,在頻
率轉換為離散值頻率的振幅頻譜中與頻率f相鄰的頻率,并且預定頻率間距、即頻率f與頻率f-l之差表示離散值頻率間距。如圖7和公式1所示,在本發明的聲音信號糾正設備l中,在頻率軸方向的平滑化通過重復如下處理而執行在加法器ld中將頻譜(l-a) |IN(f)|n與頻譜a|IN(f-l)'|n相加,其中頻譜 (1-a) |IN(f)|n是通過在放大器la中將聲音信號的振幅頻譜IIN(f)ln與l-a相乘 而獲得的,而頻譜(x|IN(f-l)'|n是通過在移位單元lb中將平滑化后于相鄰頻 率f-l處的振幅頻譜IIN(f-l)ln移動預定頻率間距,然后在放大器lc中將獲得 的結果與a相乘而獲得的。如從圖7和公式1清楚可知,當糾正系數a接近0時,平滑化后的振幅 頻譜IIN(f)'ln的波形接近平滑化前的振幅頻譜IIN(f)ln的波形,并且在糾正系 數a為0的情況下,平滑化后的振幅頻譜IIN(f)'ln與平滑化前的振幅頻譜 IIN(f)ln—致。此外,當糾正系數a接近l時,平滑化后的振幅頻譜IIN(f)'ln 較平穩,并且在糾正系數a為1的情況下,平滑化后的振幅頻譜IIN(f),ln為 恒定值,在頻率軸方向沒有變化。圖8為示意性示出本發明的聲音信號糾正設備1中的平滑化處理的控制 流程圖。圖8示出用于在時間軸方向平滑化聲音信號的振幅譜IIN(f)l的處理, 其等效于遞歸濾波器,可表示為下面的公式2。|IN(f),|n=a|IN(f),|n-l+(l-a)|IN(f)|n ....................................(公式2)這里,ilN①'ln為平滑化后在第n個幀中于頻率f處的振幅頻譜, IIN(f)in為平滑化前在第n個幀中于頻率f處的振幅頻譜, |IN(f)'|n-l為平滑化后在第(n-l)個幀中于頻率f處的振幅頻率,以及 a為糾正系數,其中OSo^1。如圖8和公式2所示,本發明的聲音信號糾正設備1通過重復如下處理 來執行在時間軸方向的平滑化在加法器ld中將頻譜(l-a)IIN(f)ln與頻譜 a|IN(f)'|n-l相加,其中頻譜(l-a) |IN(f)|n是通過在放大器la中將聲音信號的 第n個幀中的振幅頻譜IIN(f)ln與l-a相乘而獲得的,而頻譜a|IN(f)'|n-l是通 過在延遲單元le中將平滑化后的第(n-l)個幀(即緊接在第n個幀之前的幀) 中的振幅頻譜IIN(f)'ln-l保持與幀間距相對應的預定時間,然后在放大器lc 中將獲得的結果與ex相乘而獲得的。如從圖8和公式2清楚可知,當糾正系數a接近0時,平滑化后的振幅
頻譜lIN(f),ln的波形接近平滑化前的振幅頻譜IIN(f)ln的波形,并且在糾正系 數a為0的情況下,平滑化后的振幅頻譜IIN(f)'ln與平滑化前的振幅頻譜 IIN(f)ln—致。此外,當糾正系數a接近l時,平滑化后的振幅頻譜IIN(f)'ln 較平穩,并且在糾正系數a為1的情況下,平滑化后的振幅頻譜IIN(f)'ln為 恒定值,在時間軸方向沒有變化。這里,所述幀是基于已經被劃分為具有預定時間間距的多個段的聲音信 號而產生的,因此公式2等效于遞歸濾波器,可表示為下面的公式3。|IN(f),|t=a|IN(f),|t-l+(l-a)|IN(f)|t ....................................(公式3)這里,|IN(f),|t為平滑化后在時刻t于頻率f處的振幅頻譜,|IN(f)|t為平滑化前在時刻t于頻率f處的振幅頻譜,|IN(f)'|t-l為平滑化后在時刻t-l于頻率f處的振幅頻率,其中時刻t-l在 時刻t之前并與時刻t相隔預定時間,以及a為糾正系數,其中0^x^L。圖9為示出本發明的聲音信號糾正設備1中的糾正系數導出過程的坐標 圖。圖9示出頻率f處的振幅頻譜IIN(f)l的值(沿水平軸)與糾正系數a (沿 垂直軸)之間的關系。此外,使用通過將常數x[dB]與頻率f處的穩態噪聲IN(f)1 的值相加而獲得的值作為用于導出糾正系數a的閾值。如圖9所示,根據振 幅頻譜IIN(f)l與閾值IN(f)l+x[dB]之差來導出糾正系數a,其中所述閾值 IN(f)l+x[dB]是基于與噪聲模型相關的穩態噪聲而確定的。具體來說,在振幅 頻譜IIN(f)l的值不小于閾值IN(f)l+x[dB]的情況下,糾正系數a為0;而在振幅 頻譜IIN(f)l的值小于閾值IN(f)l+x[dB]的情況下,隨著振幅頻譜IIN(f)l的值與閾 值IN(f)l+x[dB]之差變大,糾正系數a也變大,也就是說,隨著振幅頻譜IIN(f)l 的值變小,糾正系數a逼進l、即最大值。這里,圖9示出糾正系數a的最 大值為a。的設置實例。由于使用通過將常數x[dB]與穩態噪聲IN(f)l的值相加而獲得的值作為閾 值,而不使用穩態噪聲N(f)l的值作為閾值,如圖9所示,因此可以處理穩態 噪聲的頻譜中的波動。如上所述,在包括語音的振幅頻譜(其強度不同于穩態噪聲)的情況下, 通過將糾正系數a減小可降低平滑化的程度,從而可以防止基于語音的峰被 平滑化。此外,在包括基于穩態噪聲的振幅頻譜的許多成分的情況下,通過 將糾正系數(X增大可提高平滑化的程度,從而增加穩態噪聲與噪聲模型的相 似度,因此可以容易地去除穩態噪聲。盡管示出了上述實施例作為通過FFT處理將聲音信號轉換為相位頻譜 和振幅頻譜并平滑化獲得的聲音信號的振幅頻譜的實施例,然而本發明不限 于此,可以將本發明應用于多種處理,例如將從FFT處理產生的復數劃分為 實部和虛部,從而分別平滑化實部和虛部。此外,盡管作為應用于語音識別設備中的實施例示出了上述實施例,然 而本發明不限于此,并且可以通過多種形式發展本發明,例如將本發明應用 于用于電話通信的語音發送器,從而抑制發送的聲音信號中包含的穩態噪 聲。這里,在應用于電話通信的情況下,僅在語音發送器中執行平滑化,而 可以在語音接收器一側執行抑制穩態噪聲的處理。
權利要求
1.一種聲音信號糾正方法,用于根據與噪聲圖相關的噪聲模型來糾正基于獲取的聲音的聲音信號,其包括以下步驟將所述聲音信號與所述噪聲模型進行比較;以及基于比較結果平滑化所述聲音信號的波形。
2. —種聲音信號糾正設備,用于根據與噪聲圖相關的噪聲模型糾正基 于獲取的聲音的聲音信號,其包括用于將所述聲音信號與所述噪聲模型進行比較的裝置;以及 用于基于比較結果平滑化所述聲音信號的波形的裝置。
3. —種聲音信號糾正設備,用于根據與噪聲圖的頻譜相關的噪聲模型 來糾正基于獲取的聲音的聲音信號的頻譜,其包括-導出裝置,通過將所述聲音信號的頻譜與所述噪聲模型進行比較,導出 用于糾正所述聲音信號的糾正系數;以及平滑化裝置,使用導出的該糾正系數,平滑化所述聲音信號的波形。
4. 如權利要求3所述的聲音信號糾正設備,其中, 所述導出裝置根據所述聲音信號的頻譜強度與基于所述噪聲模型確定的閾值之差導出所述糾正系數。
5. 如權利要求3或4所述的聲音信號糾正設備,其中,所述平滑化裝置平滑化所述聲音信號的頻譜在頻率軸方向的變化。
6. 如權利要求5所述的聲音信號糾正設備,其中, 所述平滑化裝置基于下面的公式(A)進行平滑化|IN(f),|=a|IN(f-l),|+(l-a)|IN(f)| ....................................公式(A)其中,IIN(f)'l為平滑化后在頻率f處的頻譜, IIN(f)l為平滑化前在頻率f處的頻譜,IIN(f-l)'l為平滑化后在頻率f-l處的頻譜,其中頻率f-l與頻率f相差預 定頻率間距,以及a為糾正系數,其中0^xSl。
7. 如權利要求3或4所述的聲音信號糾正設備,其中, 所述平滑化裝置平滑化所述聲音信號的頻譜在時間軸方向的變化。
8. 如權利要求7所述的聲音信號糾正設備,其中, 所述平滑化裝置基于下面的公式(B)進行平滑化|IN(f),|t=a|IN(f),|t-l+(l-a)|IN(f)|t ....................................公式(B)其中,|IN(f)'|t為平滑化后在時刻t于頻率f處的頻譜,|IN(f)|t為平滑化前在時刻t于頻率f處的頻譜,|IN(f)'|t-l為平滑化后在時刻t-l于頻率f處的頻譜,其中時刻t-l在時刻 t之前并與時刻t相隔預定時間,以及 a為糾正系數,其中0S^1。
9. 如權利要求2至4中任一項所述的聲音信號糾正設備,還包括 基于平滑化后的聲音信號執行語音識別處理的裝置。
10. —種計算機程序,用于使計算機執行根據與噪聲圖相關的噪聲模型 來糾正基于獲取的聲音的聲音信號的處理,所述計算機程序包括使計算機將所述聲音信號與所述噪聲模型進行比較的步驟;以及 使計算機基于比較結果平滑化所述聲音信號的波形的步驟。
全文摘要
本發明提供一種聲音信號糾正方法、聲音信號糾正設備以及計算機程序,聲音信號糾正設備(1)通過如下步驟糾正基于獲取的聲音的聲音信號進行FFT處理將獲取的聲音信號轉換為相位頻譜和振幅頻譜(步驟S4);將獲取的聲音信號的振幅頻譜與噪聲模型進行比較,從而導出用于糾正聲音信號的振幅頻譜的糾正系數(步驟S5);利用導出的糾正系數,平滑化聲音信號的振幅頻譜的波形(步驟S6);以及通過對相位頻譜和平滑化后的振幅頻譜進行逆FFT處理,將所述聲音信號轉換為振幅頻譜被糾正的聲音信號(步驟S7)。
文檔編號G10L21/00GK101154384SQ200710008338
公開日2008年4月2日 申請日期2007年1月29日 優先權日2006年9月25日
發明者松尾直司 申請人:富士通株式會社