一種基于mmse的歌曲去伴奏方法和裝置制造方法
【專利摘要】本發明披露了一種基于MMSE(最小均方誤差估計)的歌曲去伴奏方法,包括步驟:輸入歌曲音頻信號和與其對應的伴奏音頻信號;將歌曲音頻信號和伴奏音頻信號進行分幀、加窗、FFT變換處理;對伴奏音頻信號的幅度譜進行增強;根據增強后的伴奏音頻信號的幅度譜對歌曲音頻信號的頻譜進行MMSE估計得到譜增益系數,進一步得到去伴奏音頻信號的頻譜,并進行FFT逆變換即可得到去除伴奏后的音頻信號。本發明還提供了實現上述方法的裝置。本發明的技術效果為從歌曲中有效地提取出人聲信號,并且可以保持較好的音質,從而為下一步音頻數據的分析、檢索等奠定良好的基礎,具有較強的實用價值以及應用前景。
【專利說明】一種基于MMSE的歌曲去伴奏方法和裝置
【技術領域】
[0001]本發明涉及音頻信號處理領域
【背景技術】
[0002]歌聲分離系統在某些領域有廣泛的應用,例如歌詞的自動識別和校正,就需要以先期的人聲分離作為基礎來進行。歌詞自動識別通常要求輸入處理系統的是單獨的人聲,有伴奏干擾的情況下很難完成,但因為大多數歌曲都同時包含歌聲與樂器伴奏,直接進行是不實際的。
[0003]在從不同聲源分離聲音問題上,這樣的任務對于人來說是容易的,但對于機器而言卻很困難。語音分離已經得到廣泛的研究,但由于音樂是一種極其復雜的信號,包含歌聲以及不同樂器的多路信號混合在一起,并且樂器聲音與歌聲還是相關的,采用語音信號盲分尚技術很難分尚出純凈的歌聲。
[0004]最小均方誤差(Minimum Mean-Square Error, MMSE)估計是一種語音增強算法,其能夠有效地抑制背景噪聲,從而提高輸入信號的信噪比(Signal-to-Noise Rat1, SNR)。對于最小均方誤差估計,在Y.Ephraim和D.Malah的文獻《Speech enhancement using aminimum mean—square error short-time spectral amplitude estimator, IEEE Trans.Acoustic, Speech, and Signal Processing)) (Vol.ASSP-32, pp.1109-1121,1984)中進行了詳細的描述。
【發明內容】
[0005]為此,需要提供一種有效地從一歌曲音頻信號中分離或提取出人聲的方法。
[0006]為此,發明人提供了一種基于麗SE的歌曲去伴奏的方法,包括步驟:
[0007]輸入歌曲音頻信號和與其對應的伴奏音頻信號,所述伴奏音頻信號與歌曲音頻信號存在時間同步關系;
[0008]分別將歌曲音頻信號和伴奏音頻信號由時域信號變換為頻域信號;
[0009]對伴奏音頻信號的幅度譜進行增強處理;
[0010]根據增強處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進行最小均方誤差估計獲得譜增益系數;
[0011]根據所述譜增益系數以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜;
[0012]將去伴奏音頻信號的頻譜逆變換為時域信號。
[0013]在步驟“分別將歌曲音頻信號和伴奏音頻信號由時域信號變換為頻域信號”之前還包括步驟:對歌曲音頻信號和伴奏音頻信號進行歸一化處理,再將歌曲音頻信號和伴奏音頻信號分別劃分為若干幀,每幀包括預設數量的聲音采樣點,并且相鄰幀之間有預設數量的重合采樣點。
[0014]步驟“將經歸一化處理的歌曲音頻信號和伴奏音頻信號分別劃分為若干幀”后還包括步驟:
[0015]對每幀進行加漢寧窗濾波處理。
[0016]步驟“對伴奏音頻信號的幅度譜進行增強處理”具體包括:
[0017]遍歷伴奏音頻信號的幅度譜的所有幀以及幀內的所有頻點,找出當前幀、當前幀的前m個幀、當前幀的后m幀共2m+l幀中對應頻點的最大幅度值,將該最大值作為當前幀對應頻點的新值,其中m為預設的正整數。
[0018]步驟“根據增強處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進行最小均方誤差估計獲得譜增益系數”具體包括步驟:
[0019]遍歷歌曲音頻信號的頻譜與經增強處理的伴奏音頻信號的幅度譜的所有幀;
[0020]計算歌曲音頻信號當前巾貞的能量譜power (i), i = O, I, 2...FN/2,其中FN表示FFT變換的點數,公式為:
[0021]power(i) = Sn(i)~2,其中sn(i)表示歌曲音頻信號的幅度譜;
[0022]計算經增強處理的伴奏音頻幅度譜的對應幀的估計能量譜noiSe(i),i =O, 1,2...FN/2,公式為:
[0023]noise (i) = b*Mn(i) ~2,其中Mn(i)表示伴奏音頻信號的幅度譜;
[0024]計算去伴奏音頻信號對應幀的估計能量譜,公式為:
[0025]signal (i) = (1-beta) *sigl (i)+beta*sig2 (i),i = 0,1,2...FN/2 ;
[0026]其中,sigl(i)= max (0, power (i) -noise (i)), sig2 (i)表示上一巾貞去伴奏音頻信號的能量譜,beta為常數,且0〈beta〈l。
[0027]根據signal⑴、noise⑴和power⑴計算先驗信噪比epsi⑴和后驗信噪比g(i),公式分別為:
[0028]epsi (i) = signal (i)/noise (i);以及
[0029]g (i) = power (i)/noise (i);
[0030]根據印si⑴和g(i)計算譜增益系數F (i),公式為:
[0031]F (i) = gamma (1.5) *sqrt (v (i)) /g (i) *exp (~v (i) /2) * ((1+v (i)) *besseli (0, v (i)/2)+v(i)*besseli (I, v(i)/2));其中,v(i) = epsi (i)/(1+epsi (i))*g(i), i = 0, 1,2...FN/2 ;
[0032]Ga_a表示伽馬函數;besseli表示貝葉斯函數;
[0033]對譜增益系數F⑴作修正處理,公式為:F⑴=min (F⑴,I)。
[0034]步驟“根據所述譜增益系數以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜”具體為:
[0035]根據歌曲音頻信號當前幀的頻譜Y(i)和經修正處理的譜增益系數F(i)確定去伴奏音頻信號的頻譜;公式為:
[0036]X⑴=F⑴*Y⑴,i = 0,1,2...FN/2,其中Y表示歌曲音頻信號的當前幀的頻
-1'TfeP曰。
[0037]發明人還提供了一種基于MMSE的歌曲去伴奏裝置,包括變換單元、增強單元和計算單元;
[0038]所述變換單元用于分別將歌曲音頻信號和伴奏音頻信號由時域信號變換為頻域信號;
[0039]所述增強單元用于對伴奏音頻信號的幅度譜進行增強處理;
[0040]所述計算單元用于根據增強處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進行最小均方誤差估計獲得譜增益系數;
[0041]所述計算單元還用于根據所述譜增益系數以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜;
[0042]所述變換單元還用于將去伴奏音頻信號的頻譜逆變換為時域信號。
[0043]所述的基于MMSE的歌曲去伴奏裝置還包括歸一化單元、分幀單元、和濾波單元;
[0044]所述歸一化單元用于對輸入的歌曲音頻信號和伴奏音頻信號進行歸一化處理;
[0045]所述分幀單元用于將歌曲音頻信號和伴奏音頻信號分別劃分為若干幀,每幀包括預設數量的聲音采樣點,并且相鄰幀之間有預設數量的重合采樣點;
[0046]所述濾波單元用于對每幀進行加漢寧窗濾波處理。
[0047]在基于麗SE的歌曲去伴奏裝置中,增強單元對伴奏音頻信號的幅度譜進行增強處理具體包括:
[0048]遍歷伴奏音頻信號的幅度譜的所有幀以及幀內的所有頻點,找出當前幀、當前幀的前m個幀、當前幀的后m幀共2m+l幀中對應頻點的最大幅度值,將該最大值作為當前幀對應頻點的新值,其中m為預設的正整數。
[0049]在基于MMSE的歌曲去伴奏裝置中,計算單元獲得譜增益系數具體包括:遍歷歌曲音頻信號的頻譜與經增強處理的伴奏音頻信號的幅度譜的所有幀;
[0050]計算歌曲音頻信號當前巾貞的能量譜power (i), i = O, I, 2...FN/2,其中FN表示FFT變換的點數,公式為:
[0051]power(i) = Sn(i)~2,其中sn(i)表示歌曲音頻信號的幅度譜;
[0052]計算經增強處理的伴奏音頻信號幅度譜的對應巾貞的估計能量譜noise (i), i =
O,1,2...FN/2,公式為:
[0053]noise (i) = b*Mn(i) ~2,其中Mn(i)表示伴奏音頻信號的幅度譜;
[0054]計算去伴奏音頻信號的對應幀的估計能量譜,公式為:
[0055]signal (i) = (1-beta) *sigl (i)+beta*sig2 (i),i = 0,1,2...FN/2 ;;
[0056]其中,sigl(i)= max (0, power (i) -noise (i)), sig2 (i)表示上一巾貞去伴奏音頻信號的能量譜,beta為常數,且0〈beta〈l。
[0057]根據signal⑴、noise⑴和power⑴計算先驗信噪比epsi⑴和后驗信噪比g(i),公式分別為:
[0058]epsi (i) = signal (i)/noise (i);以及
[0059]g(i) = power (i)/noise (i);
[0060]根據印Si⑴和g(i)計算譜增益系數F (i),公式為:
[0061]F (i) = gamma (1.5) *sqrt (v (i)) /g (i) *exp (~v (i) /2) * ((1+v (i)) *besseli (0, v (i)/2)+v(i)*besseli (I, v(i)/2));其中,v(i) = epsi (i)/(1+epsi (i))*g(i), i = 0, 1,2...FN/2 ;
[0062]Ga_a表示伽馬函數;besseli表示貝葉斯函數;
[0063]對譜增益系數F (i)作修正處理;公式為:
[0064]F (i) = min (F (i), I);
[0065]計算單元根據歌曲音頻信號的頻譜Y(i)和經修正處理的譜增益系數F(i)確定去伴奏音頻信號的頻譜;公式為:
[0066]X⑴=F⑴*Y⑴,i = 0,1,2...FN/2,其中Y表示歌曲音頻信號的當前幀的頻
-1'TfeP曰。
[0067]區別于現有技術,上述技術方案能從歌曲中有效地提取出人聲,并且可以保持較好的音質,從而為下一步音頻數據的分析、檢索等奠定良好的基礎,具有較強的實用價值以及應用前景。
【專利附圖】
【附圖說明】
[0068]圖1為本發明一實施方式所述基于MMSE的歌曲去伴奏的流程圖;
[0069]圖2為本發明另一實施方式所述基于MMSE的歌曲去伴奏裝置的結構示意圖;
[0070]圖3為歌曲《遇見》的歌曲音頻時域波形;
[0071]圖4為歌曲《遇見》的伴奏音頻時域波形;
[0072]圖5為歌曲《遇見》經本發明實施方式所得去伴奏音頻的時域波形。
[0073]附圖標記說明:
[0074]1-歸一化單元
[0075]2-分幀單元
[0076]3-變換單元
[0077]4-增強單元
[0078]5-計算單元
[0079]6-連接單元
[0080]7-濾波單元
【具體實施方式】
[0081]為詳細說明技術方案的技術內容、構造特征、所實現目的及效果,以下結合具體實施例并配合附圖詳予說明。
[0082]請參閱圖1,為本發明一實施方式所述基于MMSE的歌曲去伴奏的流程圖;所述方法包括步驟:
[0083]S1、輸入歌曲音頻和與其對應的伴奏音頻的信號,所述伴奏音頻信號與歌曲音頻信號存在時間同步對應關系。
[0084]并且,所述伴奏音頻信號與歌曲音頻信號中的伴奏成分具有較大的相關性,比如KTV系統中所提供的原唱音頻和與原唱音頻相對應的伴奏音頻就滿足上述特點。
[0085]S2、對歌曲音頻信號和伴奏音頻信號進行歸一化處理。
[0086]本步驟所述歸一化處理的方式是找出信號絕對值的最大值,將原信號除以該最大值,處理結果是使信號的正負幅值位于-1與+1之間。
[0087]S3、將經歸一化處理的歌曲音頻信號和伴奏音頻信號分別劃分為若干幀,每幀包括預設數量的聲音采樣點,并且相鄰幀之間有預設數量的重合采樣點。例如本實施方式中,將音頻時域信號劃分為N個幀,每幀包括512個聲音采樣點(音頻采樣率為16khz),并且相鄰幀之間有256個采樣點的重合。這種處理的目的是使幀與幀之間具有平滑過渡的效果。
[0088]S4、對每幀進行加漢寧窗濾波處理。本步驟的處理效果是降低后續時域到頻域變換所可能造成的頻譜泄露程度。
[0089]S5、分別將歌曲音頻信號和伴奏音頻信號經劃分后的各幀由時域信號變換為頻域信號。所采用的變換算法為快速傅里葉變換(Fast Fourier Transform,FFT)。并計算歌曲音頻信號的幅度譜sn(i),i = O, 1,2...256,η = O, 1,2…N-1和伴奏音頻的幅度譜Mn(i),i=O, I, 2—256, η = O, I, 2…N_l。
[0090]S6、對伴奏音頻的幅度譜進行增強處理。本實施方式中,本步驟的具體做法包括:遍歷伴奏音頻信號的幅度譜的所有幀以及幀內的所有頻點,找出當前幀、當前幀的前m個幀、當前幀的后m幀共2m+l幀中對應頻點的最大幅度值,將該最大值作為當前幀對應頻點的新值,其中m為預設的正整數。本實施方式中m取2。
[0091]具體的計算公式為:
[0092]Mn(i) = max (MMn_2 (i), MMn^1 (i), MMn(i), MMn+1 (i), MMn+2 (i)), i = 0,1,2...256,η =2,3,七"^3其中,MMn (i) = Mn (i), i = O, 1,2…256,n = O, 1,2…N-1,表示拷貝的伴奏音頻信號幅度譜緩存。
[0093]S7、根據增強處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進行最小均方誤差估計獲得譜增益系數。具體包括:
[0094]遍歷歌曲音頻信號的頻譜與經增強處理的伴奏音頻信號的幅度譜的所有幀,即η=O, I, 2…Ν-1。
[0095]S71、計算歌曲音頻信號當前巾貞的能量譜power (i),公式為:
[0096]power (i) = Sn(i) ~2,i = 0,1,2...256。
[0097]S72、計算經增強處理的伴奏音頻信號的幅度譜的對應幀的估計能量譜noise (i);公式為:
[0098]noise (i) = b*Mn(i) '2, i = O, I, 2…256。
[0099]其中b為調整因子,可以調整從歌曲音頻信號中去除伴奏成分的程度,本實施方式中b的取值為1.5。
[0100]S73、計算去伴奏音頻信號的對應幀的估計能量譜;公式為:
[0101]signal (i) = (1-beta) *sigl (i)+beta*sig2 (i),i = 0,1,2…256。
[0102]其中,sigl(i)= max (0,power (i)-noise (i)),i = 0,1,2...256 ;
[0103]sig2(i)表示上一巾貞去伴奏音頻信號的能量譜;
[0104]beta 為常數,且 0〈beta〈l,這里取 0.95。
[0105]S74、根據signal (i)、noise (i)和power (i)計算先驗信噪比epsi (i)和后驗信噪t匕g(i);公式分別為:
[0106]epsi (i) = signal (i) /noise (i), i = O, 1,2...256 ;以及
[0107]g(i) = power (i)/noise (i),i = 0,1,2…256。
[0108]S75、根據印si(i)和g(i)計算譜增益系數F(i),公式為:
[0109]F (i) = gamma (1.5) *sqrt (V (i))/g (i) *exp (-V (i)/2) * ((1+v (i)) *besseli (0,V (i) /2) +V (i) *besseli (I, v (i) /2)) i = 0,1,2...256 ;
[0110]其中,V(i)= epsi (i)/(1+epsi (i))*g(i), i = 0, I, 2...256 ;
[0111]Ga_a表示伽馬函數;besseli表示貝葉斯函數。
[0112]S76、對譜增益系數F(i)作修正處理。公式為:
[0113]F(i) = min(F(i), 1),i = 0,1,2...256。
[0114]S8、根據所述譜增益系數以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜;具體做法是根據歌曲音頻信號的當前幀頻譜Y(i)和經修正處理的譜增益系數F(i)確定,公式為:
[0115]X⑴=F⑴*Ya),i = O, 1,2…256,其中Y表示歌曲音頻信號的當前幀的頻譜。所得到的X(i)即為去伴奏音頻信號的對應幀的頻譜。
[0116]S9、將去伴奏音頻信號的頻譜逆變換為時域信號;算法為FFT逆變換。
[0117]重復執行步驟S71-S9,直到遍歷完所有幀。
[0118]S10、得到所有的去伴奏音頻時域幀后,連接各幀得到完整的去伴奏音頻的時域信號。
[0119]請參閱圖3、圖4和圖5 ;圖3為歌曲《遇見》的歌曲首頻時域波形;圖4為歌曲《遇見》的伴奏音頻時域波形;圖5為歌曲《遇見》經本發明實施方式所得去伴奏音頻的時域波形。用播放器播放去伴奏后的音頻,可以聽到,伴奏已經基本去除干凈,人聲仍然保持很好的音質。
[0120]請參閱圖2,為本發明另一實施方式所述歌曲去伴奏裝置的結構示意圖。所述裝置包括歸一化單元1、分幀單元2、變換單元3、增強單元4和計算單元5。所述裝置實現歌曲去伴奏具體如下述方式進行:
[0121]首先,歸一化單元I對歌曲音頻信號和伴奏音頻信號進行歸一化處理。
[0122]所述歸一化處理的方式是找出信號絕對值的最大值,將原信號除以該最大值,處理結果是使信號的正負幅值位于-1與+1之間。
[0123]所述伴奏音頻信號與歌曲音頻信號存在時間同步對應關系。
[0124]并且,所述伴奏音頻信號與歌曲音頻信號中的伴奏成分具有較大的相關性,比如KTV系統中所提供的原唱音頻和與原唱音頻相對應的伴奏音頻就滿足上述特點。
[0125]分幀單元2用于將經歸一化處理的歌曲音頻信號和伴奏音頻信號分別劃分為若干幀,每幀包括預設數量的聲音采樣點,并且相鄰幀之間有預設數量的重合采樣點。例如本實施方式中,將音頻信號劃分為N個幀,每幀包括512個聲音采樣點(音頻采樣率為16khz),并且相鄰幀之間有256個采樣點的重合。這種處理的目的是使幀與幀之間具有平滑過渡的效果。
[0126]濾波單元7用于對經分幀單元劃分所得到的每幀進行加漢寧窗濾波處理。濾波單元7的處理效果是降低后續時域到頻域變換所可能造成的頻譜泄露程度。
[0127]變換單元3用于分別將歌曲音頻信號和伴奏音頻信號經劃分后的各幀由時域信號變換為頻域信號。所采用的變換算法為快速傅里葉變換(Fast Fourier Transform,FFT)。并計算歌曲音頻信號的幅度譜Sn⑴,i = O, I, 2-256, η = O, I, 2...N-1和伴奏音頻的幅度譜^⑴,i = O, 1,2…256,η = O, 1,2...Ν_1。
[0128]增強單元4用于對伴奏音頻信號的幅度譜進行增強處理。本實施方式中,所述增強處理的具體方式包括:遍歷伴奏音頻信號的幅度譜的所有幀以及幀內的所有頻點,找出當前幀、當前幀的前m個幀、當前幀的后m幀共2m+l幀中對應頻點的最大幅度值,將該最大值作為當前幀對應頻點的新值,其中m為預設的正整數。本實施方式中m取2。
[0129]計算公式為:
[0130]Mn(i) = max (MMn_2 (i), MMn^1 (i), MMn(i), MMn+1 (i), MMn+2 (i)), i = 0,1,2...256,n =2,3,七"^3其中,MMn (i) = Mn (i), i = 0,1,2…256,n = 0,1,2…N_l,表示拷貝的伴奏音頻信號幅度譜緩存。
[0131]計算單元5進一步地根據增強處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進行最小均方誤差估計獲得譜增益系數。做法具體包括:
[0132]遍歷歌曲音頻信號的頻譜與經增強處理的伴奏音頻信號的幅度譜的所有幀,即η=O, I, 2…N-1。對所遍歷的每一巾貞,做如下處理:
[0133]計算歌曲音頻信號當前幀的能量譜poweHi);公式為:
[0134]power (i) = Sn(i) ~2,i = 0,1,2...256。
[0135]計算對經增強處理的伴奏音頻信號的幅度譜的對應幀的估計能量譜noiSe(i);公式為:
[0136]noise (i) = b*Mn(i) ~2,i = 0,1,2…256。
[0137]其中b為調整因子,可以調整從歌曲音頻信號中去除伴奏成分程度,本實施方式中b的取值為1.5。
[0138]計算去伴奏音頻信號對應幀的估計能量譜;公式為:
[0139]signal (i) = (1-beta) *sigl (i)+beta*sig2 (i),i = 0,1,2…256。
[0140]其中,sigl(i)= max (0,power (i)-noise (i)),i = 0,1,2...256 ;
[0141]sig2(i)表示上一巾貞去伴奏音頻信號的能量譜;
[0142]beta 為常數,且 0〈beta〈l,這里取 0.95。
[0143]根據signal (i)、noise (i)和power (i)計算先驗信噪比epsi⑴和后驗信噪比g(i);公式分別為:
[0144]epsi (i) = signal (i) /noise (i), i = O, I, 2…256 ;以及
[0145]g(i) = power (i)/noise (i),i = 0,1,2…256。
[0146]根據印Si (i)和g(i)計算譜增益系數F(i),公式為:
[0147]F (i) = gamma (1.5) *sqrt (v (i)) /g (i) *exp (~v (i) /2) * ((1+v (i)) *besseli (0, v (i) /2) +V (i) *besseli (I, v (i) /2)) i = 0,1,2...256 ;
[0148]其中,V(i)= epsi (i)/(1+epsi (i))*g(i), i = 0, I, 2...256 ;
[0149]Ga_a表示伽馬函數;besseli表示貝葉斯函數。
[0150]對譜增益系數F(i)作修正處理。公式為:
[0151]F (i) = min (F (i), I), i = O, I, 2...256。
[0152]計算單元5進一步地根據所述譜增益系數從歌曲音頻信號的頻譜中得到去伴奏音頻信號的頻譜;具體做法是根據歌曲音頻信號的頻譜Y(i)和經修正處理的譜增益系數F(i)確定,公式為:
[0153]X⑴=F(i)*Y(i),i = 0,1,2…256,其中Y表示歌曲音頻信號的當前幀的頻譜。所得到的X(i)即為去伴奏音頻的對應幀的頻譜。
[0154]變換單元3進一步被用于將去伴奏音頻信號的頻譜逆變換為時域信號;算法為FFT逆變換。
[0155]本發明所述的歌曲去伴奏裝置還包括連接單元6,得到所有的去伴奏音頻時域幀后,連接單元6用于連接所述各幀。即得到完整的去伴奏音頻的時域信號。
[0156]本發明所述實施方式能從歌曲中有效地提取出人聲,并且可以保持較好的音質,從而為下一步音頻數據的分析、檢索等奠定良好的基礎,具有較強的實用價值以及應用前旦
-5^ O
[0157]本領域內的技術人員應明白,上述各實施例可提供為方法、裝置、或計算機程序產品。這些實施例可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。上述各實施例涉及的方法中的全部或部分步驟可以通過程序來指令相關的硬件來完成,所述的程序可以存儲于計算機設備可讀取的存儲介質中,用于執行上述各實施例方法所述的全部或部分步驟。所述計算機設備,包括但不限于:個人計算機、服務器、通用計算機、專用計算機、網絡設備、嵌入式設備、可編程設備、智能移動終端、智能家居設備、穿戴式智能設備、車載智能設備等;所述的存儲介質,包括但不限于:RAM、ROM、磁碟、磁帶、光盤、閃存、U盤、移動硬盤、存儲卡、記憶棒、網絡服務器存儲、網絡云存儲等。
[0158]上述各實施例是參照根據實施例所述的方法、設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到計算機設備的處理器以產生一個機器,使得通過計算機設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0159]這些計算機程序指令也可存儲在能引導計算機設備以特定方式工作的計算機設備可讀存儲器中,使得存儲在該計算機設備可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0160]這些計算機程序指令也可裝載到計算機設備上,使得在計算機設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0161]盡管已經對上述各實施例進行了描述,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改,所以以上所述僅為本發明的實施例,并非因此限制本發明的專利保護范圍,凡是利用本發明說明書及附圖內容所作的等效結構或等效流程變換,或直接或間接運用在其他相關的【技術領域】,均同理包括在本發明的專利保護范圍之內。
【權利要求】
1.一種基于麗SE的歌曲去伴奏的方法,包括步驟: 輸入歌曲音頻信號和與其對應的伴奏音頻信號,所述伴奏音頻信號與歌曲音頻信號存在時間同步關系; 分別將歌曲音頻信號和伴奏音頻信號由時域信號變換為頻域信號; 對伴奏音頻信號的幅度譜進行增強處理; 根據增強處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進行最小均方誤差估計獲得譜增益系數; 根據所述譜增益系數以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜; 將去伴奏音頻信號的頻譜逆變換為時域信號。
2.如權利要求1所述的基于麗SE的歌曲去伴奏的方法中,其特征在于:在步驟“分別將歌曲音頻信號和伴奏音頻信號由時域信號變換為頻域信號”之前還包括步驟:對歌曲音頻信號和伴奏音頻信號進行歸一化處理,再將歌曲音頻信號和伴奏音頻信號分別劃分為若干幀,每幀包括預設數量的聲音采樣點,并且相鄰幀之間有預設數量的重合采樣點。
3.如權利要求2所述的基于MMSE的歌曲去伴奏的方法中,其特征在于:在步驟“將經歸一化處理的歌曲音頻信號和伴奏音頻信號分別劃分為若干幀”后還包括步驟: 對每幀進行加漢寧窗濾波處理。
4.如權利要求1所述的基于麗SE的歌曲去伴奏的方法中,其特征在于:步驟“對伴奏音頻信號的幅度譜進行增強處理”具體包括: 遍歷伴奏音頻信號的幅度譜的所有幀以及幀內的所有頻點,找出當前幀、當前幀的前m個幀、當前幀的后m幀共2m+l幀中對應頻點的最大幅度值,將該最大值作為當前幀對應頻點的新值,其中m為預設的正整數。
5.如權利要求1或4所述的基于麗SE的歌曲去伴奏的方法中,其特征在于:步驟“根據增強處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進行最小均方誤差估計獲得譜增益系數”具體包括步驟: 遍歷歌曲音頻信號的頻譜與經增強處理的伴奏音頻信號的幅度譜的所有幀; 計算歌曲音頻信號當前幀的能量譜power (i),i = O, 1,2...FN/2,其中FN表示FFT變換的點數,公式為: power (i) = Sn(i)~2,其中sn(i)表示歌曲音頻信號的幅度譜; 計算經增強處理的伴奏音頻信號幅度譜的對應幀的估計能量譜noiSe(i),i =O, 1,2...FN/2,公式為: noise (i) = b*Mn(i) ~2,其中Mn(i)表示伴奏音頻信號的幅度譜; 計算去伴奏音頻信號對應幀的估計能量譜,公式為:
signal (i) = (1-beta) *sigl (i) +beta*sig2 (i), i = 0, 1,2...FN/2 ; 其中,sigl(i) = max (0, power (i) -noise (i)), sig2 (i)表示上一巾貞去伴奏音頻信號的能量譜,beta為常數,且0〈beta〈l ; 根據signal (i)、noise(i)和power (i)計算先驗信噪比epsi (i)和后驗信噪比g(i),公式分別為:
epsi (i) = signal (i)/noise (i);以及
g(i) = power (i)/noise (i); 根據印si(i)和g(i)計算譜增益系數F (i),公式為:
F (i) = gamma (1.5) *sqrt (v (i)) /g (i) *exp (_v (i) /2) * ((1+v (i)) *besseli (0, v (i) /2) +V(i)*besseli (I, v(i)/2));其中,v(i) = epsi Q)/(1+epsi (i))*g(i),i = 0,1,2...FN/2 ; Gamma表示伽馬函數;besseli表示貝葉斯函數; 對譜增益系數F (i)作修正處理,公式為:F(i) =min(F(i),l)。
6.如權利要求1所述的基于麗SE的歌曲去伴奏的方法中,其特征在于:步驟“根據所述譜增益系數以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜”具體為: 根據歌曲音頻信號當前幀的頻譜Y (i)和經修正處理的譜增益系數F (i)確定去伴奏音頻信號的頻譜;公式為: X⑴=F(i)*Y⑴,i = O, 1,2...FN/2,其中Y表示歌曲音頻信號的當前幀的頻譜。
7.一種基于MMSE的歌曲去伴奏裝置,其特征在于:包括變換單元、增強單元和計算單元; 所述變換單元用于分別將歌曲音頻信號和伴奏音頻信號由時域信號變換為頻域信號; 所述增強單元用于對伴奏音頻信號的幅度譜進行增強處理; 所述計算單元用于根據增強處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進行最小均方誤差估計獲得譜增益系數; 所述計算單元還用于根據所述譜增益系數以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜; 所述變換單元還用于將去伴奏音頻信號的頻譜逆變換為時域信號。
8.如權利要求7所述的基于麗SE的歌曲去伴奏裝置,其特征在于:還包括歸一化單元、分幀單元和濾波單元; 所述歸一化單元用于對歌曲音頻信號和伴奏音頻信號進行歸一化處理; 所述分幀單元用于將歌曲音頻信號和伴奏音頻信號分別劃分為若干幀,每幀包括預設數量的聲音采樣點,并且相鄰幀之間有預設數量的重合采樣點; 所述濾波單元用于對每幀進行加漢寧窗濾波處理。
9.如權利要求7或8所述的基于麗SE的歌曲去伴奏裝置中,其特征在于:所述增強單元對伴奏音頻信號的幅度譜進行增強處理具體包括: 遍歷伴奏音頻信號的幅度譜的所有幀以及幀內的所有頻點,找出當前幀、當前幀的前m個幀、當前幀的后m幀共2m+l幀中對應頻點的最大幅度值,將該最大值作為當前幀對應頻點的新值,其中m為預設的正整數。
10.如權利要求7或8所述的基于麗SE的歌曲去伴奏裝置中,其特征在于:計算單元獲得譜增益系數具體包括:遍歷歌曲音頻信號的頻譜與經增強處理的伴奏音頻信號的幅度譜的所有幀; 計算歌曲音頻信號當前幀的能量譜power (i),i = 0,1,2...FN/2,其中FN表示FFT變換的點數,公式為: power (i) = Sn(i)~2,其中sn(i)表示歌曲音頻信號的幅度譜; 計算經增強處理的伴奏音頻信號幅度譜的對應幀的估計能量譜noiSe(i),i =O, 1,2...FN/2,公式為: noise (i) = b*Mn(i) ~2,其中Mn(i)表示伴奏音頻信號的幅度譜; 計算去伴奏音頻信號的對應幀的估計能量譜,公式為:
signal (i) = (1-beta) *sigl (i) +beta*sig2 (i), i = 0, 1,2...FN/2 ; 其中,sigl(i) = max (0, power (i) -noise (i)), sig2 (i)表示上一巾貞去伴奏音頻信號的能量譜,beta為常數,且0〈beta〈l ; 根據signal (i)、noise(i)和power (i)計算先驗信噪比epsi (i)和后驗信噪比g(i),公式分別為:
epsi (i) = signal (i)/noise (i);以及
g(i) = power (i)/noise (i); 根據印si(i)和g(i)計算譜增益系數F (i),公式為:
F (i) = gamma (1.5) *sqrt (v (i)) /g (i) *exp (_v (i) /2) * ((1+v (i)) *besseli (0, v (i) /2) +V(i)*besseli (I, v(i)/2));其中,v(i) = epsi Q)/(1+epsi (i))*g(i),i = 0,1,2...FN/2 ; Gamma表示伽馬函數;besseli表示貝葉斯函數; 對譜增益系數F (i)作修正處理;公式為:
F(i) = min(F(i), I); 計算單元根據歌曲音頻信號的頻譜Y(i)和經修正處理的譜增益系數F(i)確定去伴奏音頻信號的頻譜;公式為: X⑴=F(i)*Y(i),i = O, 1,2...FN/2,其中Y表示歌曲音頻信號的當前幀的頻譜。
【文檔編號】G10L21/0272GK104134444SQ201410331430
【公開日】2014年11月5日 申請日期:2014年7月11日 優先權日:2014年7月11日
【發明者】王子亮 申請人:福建星網視易信息系統有限公司