語音分離方法和裝置的制造方法
【技術領域】
[0001 ] 本發(fā)明實施例涉及信號處理技術領域,尤其涉及一種語音分離方法和裝置。
【背景技術】
[0002] 語音信號處理作為一個近年來引人注目的研究領域,至今已經(jīng)在大詞匯量連續(xù)語 音識別、語音合成、語音通信等方面取得了一系列令人矚目的成果。然而,現(xiàn)有的語音信號 處理技術不少都是在純凈語音或帶弱噪聲的語音環(huán)境下研發(fā)的,在比較嘈雜的環(huán)境中并不 總是能獲得令人滿意的效果,這在一定程度上限制了部分語音相關產品在實際生活中的應 用。因此,如何抑制或者消除背景噪音,從而分離出目標語音信號已經(jīng)成為語音信號處理領 域中一個重要的研究方向。
[0003] 計算聽覺場景分析主要是基于聽覺生理學和心理學領域的研究,采用聲學掩蔽策 略進行語音分離,使得分離語音更符合人耳的感知特性?,F(xiàn)有技術中,通常采用基于閾值的 理想二值掩蔽(Ideal Binary Mask,簡稱IBM)矩陣進行計算聽覺場景分析,IBM矩陣是一 個維度與時頻譜圖相同的0-1矩陣,其中1對應語音主導時頻單元,〇對應噪音主導時頻單 元。在目標語音合成階段,語音主導的時頻單元能量全部被保留,噪音主導時頻單元能量會 全部被拒絕。然而由于基于閾值的IBM矩陣的錯誤估計會造成部分語音主導的時頻單元被 錯誤地拒絕,部分噪聲主導的時頻單元被錯誤地保留,從而導致在分離后的語音信號中產 生許多語音能量的空洞,從而在很大程度上扭曲了原語音信號。
【發(fā)明內容】
[0004] 本發(fā)明實施例提供一種語音分離方法和裝置,采用計算聽覺場景分析和理想浮值 掩蔽策略獲得分離語音信號,從而減少分離語音信號中能量空洞的產生,抑制了分離語音 信號的扭曲。
[0005] 第一方面,本發(fā)明實施例提供一種語音分離方法,包括:
[0006] 獲得第一信號,所述第一信號包括語音信號和噪音信號;
[0007] 根據(jù)所述第一信號確定初始理想二值掩蔽矩陣,所述初始理想二值掩蔽矩陣用于 區(qū)分所述第一信號包括的語音信號和噪音信號;
[0008] 根據(jù)所述初始理想二值掩蔽矩陣,對所述第一信號進行諧波補償,得到諧波補償 后的分離語音信號;
[0009] 根據(jù)所述諧波補償后的分離語音信號,對所述第一信號和第二信號進行濾波,得 到目標分離語音信號。
[0010] 在第一方面的第一種可能的實現(xiàn)方式中,所述根據(jù)所述第一信號確定初始理想二 值掩蔽矩陣,包括:
[0011] 計算所述噪音信號的功率譜的平均值;
[0012] 根據(jù)所述噪音信號的功率譜的平均值,確定構成所述初始理想二值掩蔽矩陣的所 有時頻單元的值;
[0013] 根據(jù)構成所述初始理想二值掩蔽矩陣的所有時頻單元的值,確定所述初始理想二 值掩蔽矩陣。
[0014] 根據(jù)第一方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述計算 所述噪音信號的功率譜的平均值,包括:
[0015] 根據(jù)所述第一信號中用于估計噪音的幀數(shù)目和對所述第一信號進行傅里葉變換 之后第t幀、第k頻段的頻域信號的功率譜密度,計算所述噪音信號的功率譜的平均值,t是 大于或等于1的整數(shù),k是大于或等于1的整數(shù)。
[0016] 根據(jù)第一方面、第一方面的第一種至第二種可能的實現(xiàn)方式中的任意一種,在第 三種可能的實現(xiàn)方式中,所述根據(jù)所述初始理想二值掩蔽矩陣,對所述第一信號進行諧波 補償,得到諧波補償后的分離語音信號,包括 :
[0017] 對所述初始理想二值掩蔽矩陣進行更新,得到更新后的二值掩蔽矩陣,所述更新 后的二值掩蔽矩陣用于凈化所述目標分離語音信號;
[0018] 根據(jù)所述更新后的二值掩蔽矩陣,對所述第一信號進行諧波補償,得到諧波補償 后的分離語音信號。
[0019] 根據(jù)第一方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,對所述初 始理想二值掩蔽矩陣進行更新,得到更新后的二值掩蔽矩陣,包括 :
[0020] 根據(jù)當前迭代次數(shù)和最大迭代次數(shù),對所述初始理想二值掩蔽矩陣中的語音主導 的時頻單元的值進行更新;
[0021] 根據(jù)對所述初始理想二值掩蔽矩陣中的語音主導的時頻單元的值進行更新的結 果,得到更新后的二值掩蔽矩陣。
[0022] 根據(jù)第一方面的第三種或第四種可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中, 所述根據(jù)所述更新后的二值掩蔽矩陣,對所述第一信號進行諧波補償,得到諧波補償后的 分離語音信號,包括:
[0023] 根據(jù)所述更新后的二值掩蔽矩陣,得到所述第一信號的初始分離語音信號;
[0024] 對所述初始分離語音信號進行處理,得到理想浮值掩蔽矩陣;
[0025] 根據(jù)所述理想浮值掩蔽矩陣,對所述第一信號進行諧波補償,得到諧波補償后的 分離語音信號。
[0026] 根據(jù)第一方面的第五種可能的實現(xiàn)方式,在第六種可能的實現(xiàn)方式中,
[0027] 所述對所述初始分離語音信號進行處理,得到理想浮值掩蔽矩陣,包括:
[0028] 對所述初始分離語音信號進行逆傅里葉變換,獲得與所述初始分離語音信號相應 的時域信號;
[0029] 對所述初始分離語音信號相應的時域信號進行半波整流處理,獲得半波整流后的 時域信號;
[0030] 對所述半波整流后的時域信號進行短時傅里葉變換,并計算經(jīng)過所述短時傅里葉 變換后得到的功率譜密度;
[0031] 根據(jù)所述短時傅里葉變換后得到的功率譜密度,對所述初始分離語音信號進行平 滑處理,以獲得平滑處理后的結果;
[0032] 根據(jù)所述噪音信號的功率譜的平均值和所述平滑處理后的結果,得到所述理想浮 值掩蔽矩陣。
[0033] 根據(jù)第一方面的第六種可能的實現(xiàn)方式,在第七種可能的實現(xiàn)方式中,所述根據(jù) 所述諧波補償后的分離語音信號,對所述第一信號和第二信號進行濾波,得到所述目標分 離語音信號,包括:
[0034] 根據(jù)所述諧波補償后的分離語音信號,確定對所述第一信號和第二信號進行濾波 時采用的主通道的濾波器和副通道的濾波器;
[0035] 根據(jù)對所述第一信號和第二信號進行濾波時采用的主通道的濾波器和副通道的 濾波器,對所述第一信號和第二信號進行濾波,得到所述目標分離語音信號。
[0036] 第二方面,本發(fā)明實施例提供一種語音分離裝置,包括:
[0037] 獲得模塊,用于獲得第一信號,所述第一信號包括語音信號和噪音信號;
[0038] 確定模塊,用于根據(jù)所述第一信號確定初始理想二值掩蔽矩陣,所述初始理想二 值掩蔽矩陣用于區(qū)分所述第一信號包括的語音信號和噪音信號;
[0039] 諧波補償模塊,用于根據(jù)所述初始理想二值掩蔽矩陣,對所述第一信號進行諧波 補償,得到諧波補償后的分離語音信號;
[0040] 濾波模塊,用于根據(jù)所述諧波補償后的分離語音信號,對所述第一信號和第二信 號進行濾波,得到目標分離語音信號。
[0041] 在第二方面的第一種可能的實現(xiàn)方式中,所述確定模塊,具體用于計算所述噪音 信號的功率譜的平均值;根據(jù)所述噪音信號的功率譜的平均值,確定構成所述初始理想二 值掩蔽矩陣的所有時頻單元的值;根據(jù)構成所述初始理想二值掩蔽矩陣的所有時頻單元的 值,確定所述初始理想二值掩蔽矩陣。
[0042] 根據(jù)第二方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述確定 模塊,具體用于根據(jù)所述第一信號中用于估計噪音的幀數(shù)目和對所述第一信號進行傅里葉 變換之后第t幀、第k頻段的頻域信號的功率譜密度,計算所述噪音信號的功率譜的平均 值,t是大于或等于1的整數(shù),k是大于或等于1的整數(shù)。
[0043] 根據(jù)第二方面、第二方面的第一種至第二種可能的實現(xiàn)方式中的任意一種,在第 三種可能的實現(xiàn)方式中,所述諧波補償模塊,具體用于對所述初始理想二值掩蔽矩陣進行 更新,得到更新后的二值掩蔽矩陣,所述更新后的二值掩蔽矩陣用于凈化所述目標分離語 音信號;根據(jù)所述更新后的二值掩蔽矩陣,對所述第一信號進行諧波補償,得到諧波補償后 的分離語音信號。
[0044] 根據(jù)第二方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述諧波 補償模塊,具體用于根據(jù)當前迭代次數(shù)和最大迭代次數(shù),對所述初始理想二值掩蔽矩