專利名稱:數(shù)字語(yǔ)音編碼器中的諧波噪聲加權(quán)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明主要涉及信號(hào)壓縮系統(tǒng),更具體地,涉及碼激勵(lì)線性預(yù)測(cè)(CELP)型語(yǔ)音編碼系統(tǒng)。
背景技術(shù):
數(shù)字語(yǔ)音與音頻信號(hào)的壓縮是公知的。為了在通信信道上高效地發(fā)送信號(hào)或者在諸如固態(tài)存儲(chǔ)器件或計(jì)算機(jī)硬盤的數(shù)字媒體設(shè)備上存儲(chǔ)壓縮信號(hào),通常需要進(jìn)行壓縮。盡管存在許多壓縮(或者“編碼”)方法,但其中一種非常流行的數(shù)字語(yǔ)音壓縮編碼方法稱為碼激勵(lì)線性預(yù)測(cè)(CELP),該方法為“分析-合成”編碼算法系列中的一員。分析-合成法通常指利用數(shù)字模型的參數(shù)合成一組候選信號(hào),將這些候選信號(hào)與輸入信號(hào)做比較,并分析失真的編碼過(guò)程。然后發(fā)送或存儲(chǔ)產(chǎn)生最小失真或誤差分量的參數(shù)集。該參數(shù)集最后用于重建原始輸入信號(hào)的估計(jì)。CELP是一種特殊的分析-合成法,其利用一個(gè)或多個(gè)激勵(lì)碼本,這些碼本主要包括從對(duì)應(yīng)于碼本索引的碼本得到的碼矢量集。這些碼矢量在“試錯(cuò)”(trial and error)過(guò)程中用作語(yǔ)音合成器的激勵(lì),在該過(guò)程中,為每一候選碼矢量計(jì)算誤差指標(biāo),并且選擇產(chǎn)生最小誤差的候選碼矢量。
例如,圖1是現(xiàn)有CELP編碼器100的框圖。在CELP編碼器100中,包含語(yǔ)音采樣n(s(n))的輸入信號(hào)被施加至線性預(yù)測(cè)編碼(LPC)分析框101,在此處利用線性預(yù)測(cè)編碼估計(jì)短時(shí)譜包絡(luò)。得到的譜參數(shù)(或LP參數(shù))由傳輸函數(shù)A(z)表示。這些譜參數(shù)被施加至LPC量化框102,量化框102對(duì)這些譜參數(shù)進(jìn)行量化以產(chǎn)生適用于復(fù)用器108的量化譜參數(shù)Aq。量化譜參數(shù)Aq然后被傳遞至復(fù)用器108,并且該復(fù)用器基于該量化譜參數(shù)和由平方差最小化/參數(shù)量化框107確定的一組參數(shù)τ、β、k和γ產(chǎn)生編碼比特流。如同本領(lǐng)域的普通技術(shù)人員所知,τ、β、k和γ分別定義為閉環(huán)基音延遲、自適應(yīng)碼本增益、固定碼本矢量索引和固定碼本增益。
量化譜(或LP)參數(shù)還可被本地傳遞至具有對(duì)應(yīng)傳輸函數(shù)1/Aq(z)的LPC合成濾波器105。LPC合成濾波器105還從第一組合器110接收合并的激勵(lì)信號(hào)u(n),并且基于量化譜參數(shù)Aq和該合并的激勵(lì)信號(hào)u(n)產(chǎn)生輸入信號(hào)的估計(jì) 如下產(chǎn)生合并的激勵(lì)信號(hào)u(n)?;谒饕齾?shù)τ從自適應(yīng)碼本(ACB)103選擇自適應(yīng)碼本碼矢量cτ。然后基于增益參數(shù)β對(duì)于該自適應(yīng)碼本碼矢量cτ加權(quán),并將該加權(quán)的自適應(yīng)碼本碼矢量傳遞至第一組合器110?;谒饕齾?shù)k從固定碼本(FCB)104選擇固定碼本碼矢量ck。然后基于增益參數(shù)γ對(duì)于該固定碼本碼矢量ck加權(quán),并且也將該加權(quán)的固定碼本碼矢量傳遞至第一組合器110。第一組合器110然后通過(guò)合并自適應(yīng)碼本碼矢量cτ的加權(quán)值和固定碼本碼矢量ck的加權(quán)值,產(chǎn)生合并的激勵(lì)信號(hào)u(n)。(為了方便讀者,還以它們的z變換形式給出了這些變量。變量的z變換由相應(yīng)的大寫字母表示,例如,e(n)的z變換表示為E(z))。
LPC合成濾波器105將輸入信號(hào)的估計(jì) 傳遞至第二組合器112。第二組合器112還接收輸入信號(hào)s(n)并用輸入信號(hào)s(n)中減去輸入信號(hào)的估計(jì) 輸入信號(hào)s(n)與輸入信號(hào)估計(jì) 間的差值被施加至感知誤差加權(quán)濾波器106,該濾波器基于s(n)和 之間的差值和加權(quán)函數(shù)w(n)產(chǎn)生感知加權(quán)誤差信號(hào)e(n),如下
E(z)=W(z)(S(z)-S^(z))---(1)]]>感知加權(quán)誤差信號(hào)e(n)然后被傳遞至平方差最小化/參數(shù)量化框107。平方差最小化/參數(shù)量化框107使用誤差信號(hào)e(n)確定產(chǎn)生輸入信號(hào)s(n)的最佳估計(jì) 的優(yōu)化參數(shù)集τ、β、k和γ。
圖2是從編碼器100接收傳輸?shù)默F(xiàn)有解碼器200的框圖。如本領(lǐng)域的普通技術(shù)人員所知,解碼器200中的解復(fù)用器在與由編碼器100執(zhí)行的完全相同的合成過(guò)程中利用由編碼器100產(chǎn)生的編碼比特流解碼優(yōu)化參數(shù)集,即τ、β、k和γ。從而,如果編碼器100產(chǎn)生的編碼比特流由解碼器200無(wú)差錯(cuò)地接收,則可重建解碼器200輸出的語(yǔ)音 作為編碼器100產(chǎn)生的輸入語(yǔ)音估計(jì) 的精確副本。
回到圖1,加權(quán)濾波器W(z)利用人耳的頻率遮蔽特性,使得如果信號(hào)和噪聲的頻率接近,則同時(shí)出現(xiàn)的噪聲被較強(qiáng)的信號(hào)遮蔽。如Salami R.,Laflamme C.,Adoul J-P,Massaloux D.,“A toll quality 8Kb/sspeech coder for personal communications system,”IEEE Trans.OnVehicular Technology,pp.808-816,Aug.1994中所述,從LPC系數(shù)ai得到W(z),并由下式給出W(z)=A(z/γ1)A(z/γ2)0<γ2<γ1≤1,---(2)]]>其中,A(z)=1+Σi=1paiz-i,---(3)]]>并且p為L(zhǎng)PC的階數(shù)。由于加權(quán)濾波器由LPC譜得到,其也被稱為“譜加權(quán)”。
上述過(guò)程并沒(méi)有考慮這樣的事實(shí),即信號(hào)周期性也促成了基頻處和基頻的倍頻處的頻譜峰。已經(jīng)提出了各種技術(shù)利用這些基頻諧波的噪聲遮蔽。例如,在專利No.5,528,723“Digital speech coder and methodutilizing harmonic noise weighting”Gerson and Jasiuk,和在Gerson I.A.,Jasiuk M.A.,“Techniques for improving the performance of CELP typespeech coders,”Proc.IEEE ICASSP,pp.205-208,1993中,提出了一種在加權(quán)濾波器中包括諧波噪聲遮蔽的方法。如以上參考文獻(xiàn)所述,通過(guò)用諧波噪聲加權(quán)濾波器C(z)修改該譜加權(quán)濾波器可包括諧波噪聲加權(quán),并且諧波噪聲加權(quán)濾波器由下式給出C(z)=1-ϵpΣi=-M1M2Biz-(D+i),---(4)]]>其中,D對(duì)應(yīng)于基音周期或基音遲滯或延遲,bi是濾波器系數(shù),并且0≤εp<1是諧波噪聲加權(quán)系數(shù)。包括諧波噪聲加權(quán)的加權(quán)濾波器由下式給出WH(z)=W(z)C(z). (5)諧波噪聲加權(quán)量通常由乘積∈pbi決定。由于bi由延遲決定,則諧波噪聲加權(quán)量是延遲的函數(shù)。上述現(xiàn)有技術(shù)參考文獻(xiàn)已經(jīng)表明,可在不同的預(yù)定時(shí)間使用不同的諧波噪聲加權(quán)系數(shù)(∈p)值,即∈p可以是時(shí)變參數(shù)(例如允許其在各個(gè)子幀間變化),然而,現(xiàn)有技術(shù)并沒(méi)有提供選擇∈p的方法。因此,需要一種方法和裝置,用于在數(shù)字語(yǔ)音編碼器中執(zhí)行諧波噪聲加權(quán),優(yōu)化地并且動(dòng)態(tài)地確定∈p的適當(dāng)值,因此可以優(yōu)化諧波噪聲加權(quán)量。盡管上述現(xiàn)有技術(shù)參考文獻(xiàn)已經(jīng)表明,可在不同的時(shí)間使用不同的諧波噪聲加權(quán)系數(shù)(∈p)值(例如∈p可在各個(gè)子幀間變化),然而,現(xiàn)有技術(shù)并沒(méi)有提供改變∈p的方法或者表明這種方法何時(shí)是有益的或有多少益處。
圖1是現(xiàn)有技術(shù)的碼激勵(lì)線性預(yù)測(cè)(CELP)編碼器的框圖。
圖2是現(xiàn)有技術(shù)的現(xiàn)有CELP解碼器的框圖。
圖3是根據(jù)本發(fā)明優(yōu)選實(shí)施例的CELP編碼器的框圖。
圖4是∈p對(duì)于基音遲滯(D)的圖示。
圖5是表示由CELP編碼器執(zhí)行,以包括本發(fā)明的諧波噪聲加權(quán)方法的步驟的流程圖。
圖6是根據(jù)本發(fā)明替換實(shí)施例的CELP編碼器的框圖。
具體實(shí)施例方式
為了滿足選擇諧波噪聲加權(quán)(HNW)系數(shù)(∈p)值以優(yōu)化諧波噪聲加權(quán)量的需要,此處提供一種用于在數(shù)字語(yǔ)音編碼器中執(zhí)行諧波噪聲加權(quán)的方法和裝置。在操作過(guò)程中,分析接收的語(yǔ)音以確定基音周期。然后基于該基音周期選擇HNW系數(shù),并且基于諧波噪聲加權(quán)(HNW)系數(shù)(∈p)確定感知噪聲加權(quán)濾波器(C(z))。對(duì)于大的基音周期(D),基頻諧波的峰非常接近,并且相鄰峰間的谷因此可能位于相鄰峰的遮蔽區(qū)域中。從而,對(duì)于較大的D值可能沒(méi)有必要具有大的諧波噪聲加權(quán)系數(shù)。
由于HNW系數(shù)是基音周期的函數(shù),所以可執(zhí)行更好的噪聲加權(quán),并且語(yǔ)音失真因此對(duì)于收聽人更加不明顯。
本發(fā)明包含一種用于在數(shù)字語(yǔ)言編碼器中進(jìn)行諧波噪聲加權(quán)的方法。該方法包括以下步驟接收語(yǔ)音輸入s(n);根據(jù)該語(yǔ)音輸入確定基音周期(D);以及基于該基音周期確定諧波噪聲加權(quán)系數(shù)∈p。然后基于該諧波噪聲加權(quán)系數(shù)確定感知噪聲加權(quán)函數(shù)WH(z)。
本發(fā)明還包含一種用于在數(shù)字語(yǔ)音編碼器中執(zhí)行諧波噪聲加權(quán)的方法。該方法包括以下步驟接收語(yǔ)音輸入s(n);根據(jù)該語(yǔ)音輸入確定閉環(huán)基音延遲(τ);以及基于該閉環(huán)基音延遲確定諧波噪聲加權(quán)系數(shù)∈p。然后基于該諧波噪聲加權(quán)系數(shù)確定感知噪聲加權(quán)函數(shù)WH(z)。
本發(fā)明還包含一種裝置,該裝置包括將語(yǔ)音(s(n))當(dāng)作輸入并基于該語(yǔ)音輸出基音周期(D)的基音分析電路,將D當(dāng)作輸入并基于D輸出諧波噪聲加權(quán)系數(shù)(∈p)的諧波噪聲系數(shù)生成器,以及將∈p當(dāng)作輸入并利用∈p生成加權(quán)誤差信號(hào)e(n)的感知誤差加權(quán)濾波器,其中e(n)基于s(n)與s(n)的估計(jì)之間的差值。
本發(fā)明最后包含一種裝置,該裝置包括將閉環(huán)基音延遲(τ)當(dāng)作輸入并基于τ輸出諧波噪聲加權(quán)系數(shù)(∈p)的諧波噪聲系數(shù)生成器,將∈p當(dāng)作輸入并利用∈p生成加權(quán)誤差信號(hào)e(n)的感知誤差加權(quán)濾波器,其中e(n)基于s(n)與s(n)的估計(jì)之間的差值。
現(xiàn)在回到附圖,其中相同的標(biāo)號(hào)表示相同的部件,圖3是根據(jù)本發(fā)明優(yōu)選實(shí)施例的CELP編碼器300的框圖。如圖所示,CELP編碼器300類似于現(xiàn)有技術(shù)中所示的編碼器,不同的是增加了基音分析電路311和HNW系數(shù)生成器309。另外,感知誤差加權(quán)濾波器306適于從HNW系數(shù)生成器309接收HNW系數(shù)。如下進(jìn)行編碼器300的操作輸入語(yǔ)音s(n)被引導(dǎo)至基音分析電路311,在此處分析s(n)以確定基音周期(D)。如同本領(lǐng)域的普通技術(shù)人員所知,基音周期(也稱為基音遲滯、延遲或者基音延遲)通常是過(guò)去輸入語(yǔ)音具有和當(dāng)前輸入語(yǔ)音的最大相關(guān)性時(shí)的時(shí)間遲滯。
一旦確定基音周期(D),則將D引導(dǎo)至HNW系數(shù)生成器309,在此處確定特定語(yǔ)音的HNW系數(shù)(∈p)。如上所討論,使諧波噪聲加權(quán)系數(shù)作為基音周期D的函數(shù)動(dòng)態(tài)變化。諧波噪聲濾波器由下式給出C(z)=1-ϵp(D)Σi=-M1M2biz-(D+i).---(6)]]>如上所述,希望對(duì)于較大的D值具有較小的諧波噪聲加權(quán)(C(z))。選擇∈p作為D的減函數(shù)(參看公式7)確保對(duì)于較大的基音延遲值有較小的諧波噪聲加權(quán)量。盡管存在許多函數(shù)∈p(D),但在本發(fā)明的優(yōu)選實(shí)施例中,∈p(D)由公式7給出,并圖示于圖4。
其中,∈max是諧波噪聲加權(quán)系數(shù)的最大允許值;∈min是諧波噪聲加權(quán)系數(shù)的最小允許值;Dmax是最大基音周期,在該值之上,諧波噪聲加權(quán)系數(shù)被設(shè)置為∈min;Δ是諧波噪聲加權(quán)系數(shù)的斜率。
一旦生成器309確定εp(D),則將εp(D)提供至濾波器306以生成加權(quán)濾波器WH(z)。如上所述,WH(z)是W(z)與C(z)的乘積。誤差 被提供至加權(quán)濾波器306以生成誤差信號(hào)e(n)。如同在現(xiàn)有技術(shù)的編碼器中,誤差加權(quán)濾波器306基于輸入信號(hào)與估計(jì)的輸入信號(hào)之間的差值產(chǎn)生加權(quán)誤差矢量e(n),即E(z)=WH(z)(S(z)-S^(z)).---(8)]]>加權(quán)濾波器WH(z)利用人耳的頻率遮蔽特性,使得如果信號(hào)和噪聲的頻率接近,則同時(shí)出現(xiàn)的噪聲被較強(qiáng)的信號(hào)遮蔽。基于e(n)的值,平方差最小化/參數(shù)量化電路307產(chǎn)生τ,k,γ,β的值,將這些值在信道上發(fā)送,或存儲(chǔ)在數(shù)字媒體設(shè)備上。
如上所討論,由于HNW系數(shù)是基音周期的函數(shù),從而可執(zhí)行更好的噪聲加權(quán),并且語(yǔ)音失真因此對(duì)于收聽人更加不明顯。
圖5是表示編碼器300的操作流程圖。該邏輯流程開始于步驟501,在此處由基音分析電路311接收語(yǔ)音輸入(s(n))。在步驟503,基音分析電路311確定基音周期(D)并將D輸出至HNW系數(shù)生成器309。HNW系數(shù)生成器309利用D確定基于D的諧波噪聲加權(quán)系數(shù)(εp),并將εp輸出至感知誤差加權(quán)濾波器306(步驟505)。最后,濾波器306在步驟507利用εp產(chǎn)生感知噪聲加權(quán)函數(shù)WH(z)。
盡管已經(jīng)參考特定實(shí)施例表示并說(shuō)明了本發(fā)明,但本領(lǐng)域的技術(shù)人員明白,在不脫離本發(fā)明的精神與范圍的情況下可進(jìn)行各種形式和細(xì)節(jié)上的改變。例如,盡管給出了由εp得到WH(z)的特定公式,但可以利用由εp得到WH(z)的其它方式。例如,公式6中C(z)定義的求和項(xiàng)可在與εp相乘之前進(jìn)一步修改。此外,在替換實(shí)施例中,εp可基于τ,在公式(7)中用τ代替D(參見圖6)。如上所討論,τ被定義為閉環(huán)基音延遲,同時(shí)εp是τ的減函數(shù)。從而公式(7)變?yōu)?其中,∈max是諧波噪聲加權(quán)系數(shù)的最大允許值;∈min是諧波噪聲加權(quán)系數(shù)的最小允許值;τmax是最大閉環(huán)基音延遲,在該值之上,諧波噪聲加權(quán)系數(shù)被設(shè)置為∈min;Δ是諧波噪聲加權(quán)系數(shù)的斜率。
權(quán)利要求
1.一種用于在數(shù)字語(yǔ)音編碼器中執(zhí)行諧波噪聲加權(quán)的方法,該方法包括以下步驟接收語(yǔ)音輸入s(n);根據(jù)所述語(yǔ)音輸入確定基音周期(D);基于所述基音周期確定諧波噪聲加權(quán)系數(shù)∈p;以及基于所述諧波噪聲加權(quán)系數(shù)確定感知噪聲加權(quán)函數(shù)WH(z)。
2.權(quán)利要求1所述的方法,其中∈p是D的減函數(shù)。
3.權(quán)利要求2所述的方法,其中 其中∈max是所述諧波噪聲加權(quán)系數(shù)的最大允許值;∈min是所述諧波噪聲加權(quán)系數(shù)的最小允許值;Dmax是最大基音周期,在該值之上,諧波噪聲加權(quán)系數(shù)被設(shè)置為∈min;以及Δ是所述諧波噪聲加權(quán)系數(shù)的斜率。
4.一種用于在數(shù)字語(yǔ)音編碼器中執(zhí)行諧波噪聲加權(quán)的方法,該方法包括以下步驟接收語(yǔ)音輸入s(n);根據(jù)所述語(yǔ)音輸入確定閉環(huán)基音延遲(τ);基于所述閉環(huán)基音延遲確定諧波噪聲加權(quán)系數(shù)∈p;以及基于所述諧波噪聲加權(quán)系數(shù)確定感知噪聲加權(quán)函數(shù)WH(z)。
5.權(quán)利要求4所述的方法,其中εp是τ的減函數(shù)。
6.權(quán)利要求5所述的方法,其中 其中,∈max是所述諧波噪聲加權(quán)系數(shù)的最大允許值;∈min是所述諧波噪聲加權(quán)系數(shù)的最小允許值;τmax是最大閉環(huán)基音延遲,在該值之上,諧波噪聲加權(quán)系數(shù)被設(shè)置為∈min;Δ是所述諧波噪聲加權(quán)系數(shù)的斜率。
7.一種裝置,包括基音分析電路,將語(yǔ)音(s(n))當(dāng)作輸入并基于所述語(yǔ)音輸出基音周期(D);諧波噪聲系數(shù)生成器,將D當(dāng)作輸入并基于D輸出諧波噪聲加權(quán)系數(shù)(∈p);以及感知誤差加權(quán)濾波器,將∈p當(dāng)作輸入并利用∈p生成加權(quán)誤差信號(hào)e(n),其中e(n)基于s(n)與s(n)的估計(jì)之間的差值。
8.一種裝置,包括諧波噪聲系數(shù)生成器,將閉環(huán)基音延遲(τ)當(dāng)作輸入并基于τ輸出諧波噪聲加權(quán)系數(shù)(∈p);以及感知誤差加權(quán)濾波器,將∈p當(dāng)作輸入并利用∈p生成加權(quán)誤差信號(hào)e(n),其中e(n)基于s(n)與s(n)的估計(jì)之間的差值。
全文摘要
為了滿足選擇諧波噪聲加權(quán)(HNW)系數(shù)(ε
文檔編號(hào)G10L21/02GK1875401SQ200480031797
公開日2006年12月6日 申請(qǐng)日期2004年10月26日 優(yōu)先權(quán)日2003年10月30日
發(fā)明者烏達(dá)·米塔爾, 詹姆斯·P·阿什利 申請(qǐng)人:摩托羅拉公司(在特拉華州注冊(cè)的公司)