專利名稱:Celp語音編碼的話音指數(shù)控制的制作方法
技術(shù)領(lǐng)域:
本發(fā)明主要涉及語音編碼,更確切地,涉及碼激勵線性預(yù)測(CELp)語音編碼。
背景技術(shù):
一般而言,語音信號可被限制頻帶為約10kHz而不會影響感知。然而,在遠(yuǎn)程通信中,語音信號帶寬通常被更嚴(yán)格地限制。眾所周知,電話網(wǎng)絡(luò)將語音信號的帶寬限制在300Hz到3400Hz之間,稱為“窄帶”。這樣的帶寬限制導(dǎo)致了電話語音中的特征音。300Hz的下限和3400Hz的上限均會對語音質(zhì)量產(chǎn)生影響。
在大多數(shù)數(shù)字語音編碼器中,語音信號被以8kHz采樣,導(dǎo)致最大信號帶寬為4kHz。然而,在實際中,通常將信號的帶寬限制為在較高頻率端約為3600Hz。在較低頻率端,截止頻率通常在50Hz和200Hz之間。所述窄帶語音信號需要8kb/s的采樣頻率,且提供了一種被稱為長話質(zhì)量的語音質(zhì)量。盡管所述長活質(zhì)量對于電話通信而言已經(jīng)足夠,但是,對于一些新興應(yīng)用,例如,電話會議,多媒體服務(wù)以及高清晰度電視,需要更好的質(zhì)量。
通過增加帶寬,所述通信質(zhì)量可以得到提高以進(jìn)行上述應(yīng)用。例如,通過將采樣頻率增加到16kHz,可提供范圍從50Hz到約7000Hz的更寬的帶寬,其被稱為“寬帶”。將較低頻率范圍擴(kuò)展到50Hz增加了自然度、現(xiàn)場感和舒適度。在頻譜的另一端,較高頻率范圍被擴(kuò)展到7000Hz,可以增加可懂度,使得更易于區(qū)分摩擦音。
在數(shù)字語境下,通過一種眾所周知的被稱為綜合分析(ABS)的方法對語音進(jìn)行合成。綜合分析也被稱為閉環(huán)方法或波形匹配方法。對于中或高比特率,其提供了比其它方法相對更好的語音編碼質(zhì)量。一種已知的ABS方法即為碼激勵線性預(yù)測(CELP)。在CELP編碼中,通過利用編碼的激勵信息激勵線性預(yù)測編碼(LPC)濾波器來合成語音。所述LPC濾波器的輸出被與濁語音進(jìn)行比較,并被用于在閉環(huán)意義下調(diào)整濾波器參數(shù),直到找到基于最小誤差的最佳參數(shù)。影響CELP編碼的一個因素為,對于不同的濁語音片段,話音度(voicing degree)可以有顯著地變化,從而導(dǎo)致語音編碼中的不穩(wěn)定的感知質(zhì)量(perceptual quality)。
本發(fā)明致力于解決上述綜合分析濁語音問題。
發(fā)明內(nèi)容
依照在此寬泛描述的本發(fā)明的目的,提供了利用話音指數(shù)(voicingindex)控制語音編碼過程以提高合成語音質(zhì)量的系統(tǒng)和方法。
根據(jù)本發(fā)明的一個實施例,指示了語音信號的周期性程度(periodicitydegree)的話音指數(shù)用于控制和提高ABS型語音編碼。對于不同的濁語音片段,所述周期性程度可以有顯著變化,此變化可能會在諸如CELP的綜合分析型語音編碼中導(dǎo)致不穩(wěn)定的感知質(zhì)量。
通過控制編碼器和/或解碼器,話音指數(shù)可被用于提高質(zhì)量穩(wěn)定性,例如,在以下領(lǐng)域(a)固定碼本短期增強(qiáng)(fixed-codebook short-termenhancement),包括頻譜傾斜(spectrum tilt),(b)感知加權(quán)濾波器,(c)子固定碼本確定,(d)LPC插值,(e)固定碼本音調(diào)增強(qiáng),(f)后音調(diào)增強(qiáng),(g)解碼器中高頻帶的噪聲注入,(h)LTP正弦窗(Sincwindow),(i)信號分解,等等。在CELP語音編碼的一個實施例中,話音指數(shù)可以基于標(biāo)準(zhǔn)化的音調(diào)相關(guān)(pitch correlation)。
下面將進(jìn)一步參照附圖和說明使得本發(fā)明的這些和其它方面變得更加明顯。所有這些附加的系統(tǒng)、方法、特點(diǎn)和優(yōu)點(diǎn)均包含在此描述中,在本發(fā)明的范圍以內(nèi),并由所附權(quán)利要求保護(hù)。
圖1示出了樣本語音信號的頻域特征;圖2示出了編碼器和解碼器均可使用的話音指數(shù)分類;圖3示出了基本CELP編碼框圖;圖4示出了依據(jù)本發(fā)明實施例的,利用附加的自適應(yīng)加權(quán)濾波器進(jìn)行語音增強(qiáng)的CELP編碼過程;圖5示出了依據(jù)本發(fā)明實施例的,利用后置濾波器結(jié)構(gòu)的解碼器實現(xiàn);圖6示出了利用多個子碼本的CELP編碼框圖;圖7A示出了用于產(chǎn)生正弦窗的采樣;圖7B示出了一種正弦窗。
具體實施例方式
本申請在此將對功能塊組件和各種處理步驟進(jìn)行描述。更可取的是,可以利用任何數(shù)量的被配置以執(zhí)行特定功能的硬件組件和/或軟件組件來實現(xiàn)這樣的功能塊。例如,本申請可以采用各種集成電路組件,例如,存儲器元件、數(shù)字信號處理元件、發(fā)射機(jī)、接收機(jī)、檢音器、音頻發(fā)生器、邏輯元件等,其可在一個或多個微處理器或其它控制裝置控制下實現(xiàn)多種功能。此外,可注意到,本申請可以采用任何數(shù)量的常規(guī)技術(shù)來進(jìn)行數(shù)據(jù)傳輸、信號發(fā)送、信號處理和波形加工、音頻生成和檢測,等等。這些本領(lǐng)域技術(shù)人員所熟知的常用技術(shù)在此將不做詳述。
話音指數(shù)傳統(tǒng)上是一種重要的指數(shù),其被發(fā)送給解碼器以進(jìn)行諧波語音編碼(Harmonic speech coding)。所述話音指數(shù)通常表示濁語音的周期性程度和/或周期諧波頻帶邊界(periodic harmonic band boundary)。話音指數(shù)通常不用于CELP編碼系統(tǒng)。然而,本發(fā)明的實施例使用話音指數(shù)來提供控制并提高在CELP或其它綜合分析型編碼器中的合成語音的質(zhì)量。
圖1示出了樣本語音信號的頻域特征。此圖中,寬帶頻域從略高于0Hz伸展到約7.0kHz。盡管對于以16kHz采樣的語音信號而言,該頻譜中的最高可能頻率結(jié)束于8.0kHz(即,Nyquist(奈奎斯特)折疊頻率),但是,此圖示出了在7.0kHz到8.0kHz之間區(qū)域中能量幾乎為零。對于本領(lǐng)域技術(shù)人員而言,很明顯,在此使用的信號范圍僅用于說明的目的,而在此表述的原理可應(yīng)用于其它信號頻帶。
如圖1所示,語音信號在較低頻率處非常調(diào)和,但是由于存在有噪聲的(noisy)語音信號的可能性隨著頻率的增加而增加,在較高頻率處的語音信號并不保持調(diào)和。例如,在此圖中,語音信號表現(xiàn)出了在較高頻率處變得有噪聲的特征,例如,在5.0kHz以上。該有噪聲的信號使得在較高頻率的波形匹配非常困難。因此,如果需要高質(zhì)量語音,類似ABS編碼(例如,CELP)的技術(shù)將變得不可靠。例如,在CELP編碼器中,通過最小化原始語音與合成語音之間的誤差,將合成器設(shè)計為與原始語音信號相匹配。由于有噪聲的信號不可預(yù)測,從而使得誤差最小化非常困難。
由于給出了以上問題,本發(fā)明實施例使用了話音指數(shù),其被從編碼器發(fā)送到解碼器,以提高由諸如CELP編碼器的ABS型語音編碼器所合成的語音的質(zhì)量。
話音指數(shù),其被編碼器發(fā)送給解碼器,可以表示濁語音的周期性或信號的諧波結(jié)構(gòu)。在另一個實施例中,所述話音指數(shù)可用三個比特表示,以提供八類語音信號。例如,圖2示出了編碼器和解碼器均可使用的話音指數(shù)分類。此圖中,指數(shù)0(即,“000”)可指示背景噪聲,指數(shù)1(即,“001”)可指示類似噪聲(noise-like)或清音語音信號,指數(shù)2(即,“010”)可指示不規(guī)則的濁音信號,例如,開始時的濁音信號,以及指數(shù)3-7(即,“011”到“111”)各自可指示語音信號的周期性。例如,指數(shù)3(“011”)可表示最不具有周期性的信號,而指數(shù)7(“111”)表示最具有周期性的信號。
話音指數(shù)信息可作為每一個編碼幀的一部分由編碼器傳送。換言之,每一幀可包括話音指數(shù)比特(如,三個比特),其用于指示該具體幀的周期性程度。在一個實施例中,用于CELP的話音指數(shù)可基于標(biāo)準(zhǔn)化的音調(diào)相關(guān)參數(shù),Rp,且可以由以下方程推出10 log(1-Rp)2,其中,-1.0<Rp<1.0。
在一個例子中,話音指數(shù)可用于固定碼本短期增強(qiáng),包括所述頻譜傾斜。圖3示出了基本CELP編碼框圖。如圖所示,CELP編碼塊300包括固定碼本301,增益塊302,音調(diào)過濾塊303,以及LPC濾波器304。CELP編碼塊300還包括比較塊306,加權(quán)濾波塊320,均方誤差(MSE)計算塊308。
CELP編碼背后的基本思想為,輸入語音307與合成輸出305進(jìn)行比較,以生成誤差309,其為均方誤差。利用對新編碼參數(shù)的選擇,在閉環(huán)意義下連續(xù)計算,直到誤差309為最小。
在接收側(cè),解碼器利用相似塊301-304(見圖5)合成語音。從而,當(dāng)需要選擇適當(dāng)?shù)拇a本條目、增益以及濾波器等時,編碼器將信息傳送給解碼器。
在CELP語音編碼系統(tǒng)中,當(dāng)語音信號更具有周期性時,音調(diào)濾波器(如,303)的貢獻(xiàn)強(qiáng)于固定碼本(如,301)的貢獻(xiàn)。這樣,本發(fā)明的實施例可以使用所述話音指數(shù),以通過實現(xiàn)自適應(yīng)高通濾波器而對高頻區(qū)域給予更多的注意,該濾波器由所述話音指數(shù)的值進(jìn)行控制。可以實現(xiàn)例如圖4所示的構(gòu)造。例如,自適應(yīng)濾波器310可以是用于強(qiáng)調(diào)高頻區(qū)域中的功率的自適應(yīng)濾波器。在此圖中,加權(quán)濾波器420也可以是用于提高CELP編碼過程的自適應(yīng)濾波器。
在解碼器側(cè),話音指數(shù)可用于選擇適當(dāng)?shù)暮笾脼V波器520參數(shù)。圖5示出了利用后置濾波結(jié)構(gòu)的解碼器實現(xiàn)。在一個或更多的實施例中,后置濾波器520可具有存于表中的多種結(jié)構(gòu),可以利用話音指數(shù)中的信息對其進(jìn)行選擇。
在另一個例子中,話音指數(shù)可與CELP的感知加權(quán)濾波器一起使用。例如,所述感知加權(quán)濾波器可由圖4中的自適應(yīng)濾波器420表示。眾所周知,波形匹配通過進(jìn)行均方誤差最小化來最小化語音信號的最重要部分(即,高能量部分)的誤差,并忽略低能量區(qū)域。本發(fā)明的實施例使用了自適應(yīng)加權(quán)過程來改善低能量區(qū)域。例如,話音指數(shù)可用于定義取決于幀的周期性程度的加權(quán)濾波器420的積極性。
在另一個實施例中,如圖6所示,話音指數(shù)可用于確定子固定碼本。固定碼本可能有多個子固定碼本,例如,一個具有較少的脈沖卻有較高的位置解析度的子固定碼本601,一個具有較多的脈沖卻有較低的位置解析度的子固定碼本602,以及噪聲子碼本603。因此,如果話音指數(shù)指示有噪聲的信號,可以使用子碼本602或噪聲碼本603;如果話音指數(shù)未指示有噪聲的信號,那么取決于所給幀的周期性程度可以使用子碼本中的一個(例如,601或602)??勺⒁獾?,在一個或多個實施例中,增益塊(碼本)302也可單獨(dú)應(yīng)用于每一個子碼本。
此外,話音指數(shù)可與LPC插值一起使用。例如,在線形插值期間,如果插值的LPC的位置處于前一個LPC和當(dāng)前的LPC中間,前一個LPC與當(dāng)前的LPC同樣重要。因此,如果話音指數(shù),例如,指示在前幀為清音,而本幀為濁音,那么在LPC插值期間,所述LPC插值算法更傾向于當(dāng)前幀而不是在前幀。
所述話音指數(shù)可用于固定碼本音調(diào)增強(qiáng)。典型地,在前的音調(diào)增益可用于進(jìn)行音調(diào)增強(qiáng)。然而,話音指數(shù)提供了與當(dāng)前幀相關(guān)的信息,從而,與在前的音調(diào)增益信息相比,其提供了更好的指示。可以基于所述話音指數(shù)確定音調(diào)增益的幅度。換言之,所述幀越具有周期性(基于話音指數(shù)值),增強(qiáng)的幅度越大。例如,所述話音指數(shù)可與美國專利申請09/365,444一起使用,以確定在其中定義的雙向音調(diào)增強(qiáng)系統(tǒng)中的增強(qiáng)幅度,此專利于1999年8月2日提交,在此引用作為參考。
作為進(jìn)一步的例子,所述話音指數(shù)可被用于替代用于后音調(diào)增強(qiáng)的音調(diào)增益。這是一個優(yōu)點(diǎn),因為,如前所述,可以從標(biāo)準(zhǔn)化音調(diào)相關(guān)值,即,Rp,得到話音指數(shù),所述Rp典型地在0.0到1.0之間;然而,音調(diào)增益可超過1.0,并且可以反過來影響后音調(diào)增強(qiáng)過程。
作為另一個例子,所述話音指數(shù)還可用于確定可能注入在解碼器側(cè)的高頻帶中的噪聲量。當(dāng)輸入語音被分解為濁音部分和噪聲部分時,如美國專利申請__中所討論的,可以使用該實施例,所述專利與此同時提交,名為“SIGNAL DECOMPOSITION OF VOICED SPEECH FOR CELPSPEECH CODING”,其在此引用作為參考。
所述話音指數(shù)還可以被用于控制正弦窗的調(diào)整。所述正弦窗用于利用CELP編碼的分?jǐn)?shù)式音調(diào)滯后(fractional pitch lag)生成自適應(yīng)碼本貢獻(xiàn)向量,即,LTP激勵向量。在寬帶語音編碼中,已知強(qiáng)諧波出現(xiàn)在頻帶的低頻區(qū)域而噪聲信號出現(xiàn)在高頻區(qū)域。
長期預(yù)測或LTP通過采用在前的激勵,并根據(jù)音調(diào)周期將其復(fù)制到當(dāng)前子幀來產(chǎn)生諧波??勺⒁獾?,如果進(jìn)行了在前幀的單純復(fù)制,則諧波也同樣在頻域的末端頻譜得到復(fù)制。然而,這不是真實濁音信號的準(zhǔn)確表示,尤其對于寬帶語音編碼而言。
在一個實施例中,對于寬帶語音信號而言,當(dāng)在前信號被用于表示當(dāng)前信號時,由于在高頻區(qū)域出現(xiàn)噪聲的高可能性,自適應(yīng)低通濾波器被應(yīng)用于正弦插值窗。
在CELP編碼中,固定碼本對語音信號的有噪聲或不規(guī)則部分有貢獻(xiàn),而音調(diào)自適應(yīng)碼本對語音信號的濁音或規(guī)則部分有貢獻(xiàn)。自適應(yīng)碼本貢獻(xiàn)被利用正弦窗產(chǎn)生,由于音調(diào)滯后可以是分?jǐn)?shù)的,所以其可以被使用。如果音調(diào)滯后為整數(shù),一個激勵信號可被復(fù)制到下一個;然而,因為所述音調(diào)滯后是分?jǐn)?shù)的,對在前激勵信號的直接復(fù)制將不會產(chǎn)生作用。當(dāng)正弦窗被修改后,即使對于整數(shù)音調(diào)滯后,直接復(fù)制也不會產(chǎn)生作用。為產(chǎn)生音調(diào)貢獻(xiàn),采集了多個樣本,如圖7A所示,其被加權(quán)然后被相加在一起,其中,樣本的權(quán)重被稱為正弦窗,其本來就具有對稱的形狀,如圖7B所示。實際中的形狀取決于音調(diào)滯后的分?jǐn)?shù)部分以及應(yīng)用于正弦窗的自適應(yīng)低通濾波器。所述正弦窗的應(yīng)用類似于卷積或濾波,但是正弦窗為非因果濾波器。在如下表示中,窗信號w(n)與信號s(n)在時域卷積,這等同于窗頻譜W(w)與信號頻譜S(w)在頻域相乘UACB(n)=w(n)*(n)W(w)S(w)根據(jù)以上表示,正弦窗的低通等同于對最終自適應(yīng)碼本貢獻(xiàn)(UACB(n))或激勵信號進(jìn)行低通;然而,由于正弦窗短于激勵,正弦窗的低通更具有優(yōu)勢。于是,改變正弦窗比改變激勵更容易;此外,正弦窗的濾波可以被預(yù)先計算和記憶。
在本發(fā)明的一個實施例中,話音指數(shù)可以被用于提供信息以控制正弦窗的低通濾波器的改變。例如,話音指數(shù)可以提供關(guān)于諧波結(jié)構(gòu)強(qiáng)弱的信息。如果調(diào)諧結(jié)構(gòu)強(qiáng),則對所述正弦窗施加弱低通濾波器,而如果調(diào)諧結(jié)構(gòu)弱,則對所述正弦窗施加強(qiáng)低通濾波器。
盡管本發(fā)明的以上實施例是參照寬帶語音信號來描述的,本發(fā)明同樣也可應(yīng)用于窄帶語音信號。
以上表述的方法和系統(tǒng)可存在于軟件、硬件或設(shè)備的固件中,無需脫離本發(fā)明的精神,其可在微處理器、數(shù)字信號處理器、專用IC或現(xiàn)場可編程門陣列(“FPGA”),或者其任何組合中實現(xiàn)。此外,無需脫離其精神和實質(zhì)特點(diǎn),本發(fā)明能夠以其它具體形式實施。在此描述的實施例只具有說明性而不具有限制性。
權(quán)利要求
1.一種提高合成語音質(zhì)量的方法,其包括獲取輸入語音信號;利用碼激勵線性預(yù)測編碼器對所述輸入語音進(jìn)行編碼,以生成用于所述輸入語音的合成的編碼參數(shù);以及在增強(qiáng)所述輸入語音的所述合成時,使用表示所述輸入語音的特征的話音指數(shù)。
2.權(quán)利要求1的方法,其中,所述輸入語音的所述特征是所述輸入語音的周期性。
3.權(quán)利要求1的方法,其中,所述增強(qiáng)所述輸入語音的所述合成在于,利用所述話音指數(shù)控制自適應(yīng)高通濾波器以在所述編碼時增強(qiáng)高頻區(qū)域。
4.權(quán)利要求1的方法,其中,所述增強(qiáng)所述輸入語音的所述合成在于,利用所述話音指數(shù)控制在所述碼激勵線性預(yù)測編碼器中的自適應(yīng)感知加權(quán)濾波器。
5.權(quán)利要求1的方法,其中,所述增強(qiáng)所述輸入語音的所述合成在于,利用所述話音指數(shù)控制在用于音調(diào)貢獻(xiàn)的所述碼激勵線性預(yù)測編碼器中使用的自適應(yīng)正弦窗。
6.權(quán)利要求1的方法,其中,所述增強(qiáng)所述輸入語音的所述合成在于,利用所述話音指數(shù)通過所述碼激勵線性預(yù)測編碼器的固定碼本的短期增強(qiáng)來控制所述輸入語音的頻譜傾斜。
7.權(quán)利要求1的方法,其中,所述增強(qiáng)所述輸入語音的所述合成在于,利用所述話音指數(shù)控制所述碼激勵線性預(yù)測編碼器的感知加權(quán)濾波器。
8.權(quán)利要求1的方法,其中,所述增強(qiáng)所述輸入語音的所述合成在于,利用所述話音指數(shù)控制所述碼激勵線性預(yù)測編碼器的線性預(yù)測編碼器。
9.權(quán)利要求1的方法,其中,所述增強(qiáng)所述輸入語音的所述合成在于,利用所述話音指數(shù)控制所述碼激勵線性預(yù)測編碼器的音調(diào)增強(qiáng)固定碼本。
10.權(quán)利要求1的方法,其中,所述增強(qiáng)所述輸入語音的所述合成在于,利用所述話音指數(shù)控制所述碼激勵線性預(yù)測編碼器的后音調(diào)增強(qiáng)。
11.權(quán)利要求1的方法,其中,所述話音指數(shù)基于所述輸入語音信號的所述特征,從所述碼激勵線性編碼器的多個子碼本中選擇至少一個子碼本。
12.一種提高合成語音質(zhì)量的方法,包括獲取輸入語音信號的代碼參數(shù);從所述代碼參數(shù)獲取用于增強(qiáng)所述輸入語音信號的合成的話音指數(shù);以及利用由所述話音指數(shù)提供的信息,通過碼激勵線性預(yù)測編碼器來處理所述代碼參數(shù),以生成所述輸入語音信號的合成版本。
13.權(quán)利要求12的方法,其中,所述話音指數(shù)提供所述輸入語音信號的周期性。
14.權(quán)利要求12的方法,其中,所述話音指數(shù)提供自適應(yīng)高通濾波器的特征,該濾波器用于在生成所述輸入語音的所述代碼參數(shù)時,增強(qiáng)所述激勵的高頻區(qū)域。
15.權(quán)利要求12的方法,其中,所述話音指數(shù)提供自適應(yīng)感知加權(quán)濾波器的特征,該濾波器用于在生成所述輸入語音的所述代碼參數(shù)時,增強(qiáng)所述輸入語音的感知質(zhì)量。
16.權(quán)利要求12的方法,其中,所述話音指數(shù)提供用于音調(diào)貢獻(xiàn)的自適應(yīng)正弦窗的特征,該正弦窗用于在生成所述輸入語音的所述代碼參數(shù)時,增強(qiáng)所述輸入語音的感知質(zhì)量。
17.權(quán)利要求12的方法,其中,所述增強(qiáng)所述輸入語音的合成在于,利用所述話音指數(shù)通過所述碼激勵線性預(yù)測編碼器的固定碼本的短期增強(qiáng)來控制所述輸入語音的頻譜傾斜。
18.權(quán)利要求12的方法,其中,所述增強(qiáng)所述輸入語音的所述合成在于,利用所述話音指數(shù)控制所述碼激勵線性預(yù)測編碼器的線性預(yù)測編碼濾波器。
19.權(quán)利要求12的方法,其中,所述增強(qiáng)所述輸入語音的所述合成在于,利用所述話音指數(shù)控制所述碼激勵線性預(yù)測編碼器的音調(diào)增強(qiáng)固定碼本。
20.權(quán)利要求12的方法,其中,所述增強(qiáng)所述輸入語音的所述合成在于,利用所述話音指數(shù)控制所述碼激勵線性預(yù)測編碼器的后音調(diào)增強(qiáng)。
21.權(quán)利要求12的方法,其中,所述話音指數(shù)基于所述輸入語音信號的所述特征,從所述碼激勵線性編碼器的多個子碼本中選擇至少一個子碼本。
22.一種提高合成語音質(zhì)量的裝置,包括輸入語音信號;碼激勵線性預(yù)測編碼器,用于對所述輸入語音信號進(jìn)行編碼,以生成用于所述輸入語音的合成的代碼參數(shù);以及具有所述輸入語音的特征的話音指數(shù),用于增強(qiáng)所述輸入語音的所述合成。
23.權(quán)利要求22的裝置,其中,所述輸入語音的所述特征是所述輸入語音的周期性。
24.權(quán)利要求22的裝置,其中,所述輸入語音的所述特征是自適應(yīng)高通濾波器的特征,該濾波器用于在所述編碼時,增強(qiáng)所述激勵的高頻區(qū)域。
25.權(quán)利要求22的裝置,其中,所述輸入語音的所述特征是自適應(yīng)感知加權(quán)濾波器的特征,該濾波器用于所述碼激勵線性預(yù)測編碼器。
26.權(quán)利要求22的裝置,其中,所述輸入語音的所述特征是自適應(yīng)正弦窗的特征,該正弦窗用于所述碼激勵線性預(yù)測編碼器。
27.權(quán)利要求22的裝置,其中,所述話音指數(shù)基于所述輸入語音信號的所述特征,從所述碼激勵線性編碼器的多個子碼本中選擇至少一個子碼本。
28.一種提高合成語音質(zhì)量的裝置,包括輸入語音信號的一組代碼參數(shù);來自所述代碼參數(shù)的話音指數(shù),用于增強(qiáng)所述輸入語音信號的合成;以及碼激勵線性預(yù)測編碼器,利用所述代碼參數(shù)和由所述話音指數(shù)所提供的信息來生成所述輸入語音信號的合成版本。
29.權(quán)利要求28的裝置,其中,所述話音指數(shù)提供所述輸入語音信號的周期性。
30.權(quán)利要求28的裝置,其中,所述話音指數(shù)提供自適應(yīng)高通濾波器的特征,該濾波器用于在生成所述輸入語音的所述代碼參數(shù)時,增強(qiáng)所述激勵的高頻區(qū)域。
31.權(quán)利要求28的裝置,其中,所述話音指數(shù)提供自適應(yīng)感知加權(quán)濾波器的特征,該濾波器用于在生成所述輸入語音的所述代碼參數(shù)時,增強(qiáng)所述輸入語音的感知質(zhì)量。
32.權(quán)利要求28的裝置,其中,所述話音指數(shù)提供自適應(yīng)正弦窗的特征,該正弦窗用于在生成所述輸入語音的所述代碼參數(shù)時,增強(qiáng)所述輸入語音的感知質(zhì)量。
33.權(quán)利要求28的裝置,其中,所述話音指數(shù)基于所述輸入語音信號的特征,從所述碼激勵線性編碼器的多個子碼本中選擇至少一個子碼本。
34.一種提高合成語音質(zhì)量的方法,包括從輸入語音信號生成多個幀;利用碼激勵線性預(yù)測編碼器對所述多個幀的每一幀進(jìn)行編碼,以生成用于所述輸入語音的所述每一幀的合成的代碼參數(shù);以及發(fā)送具有多個比特的話音指數(shù),其用于指示所述輸入語音的所述每一幀的分類。
35.權(quán)利要求34的方法,其中,所述多個比特為三個比特。
36.權(quán)利要求34的方法,其中,所述分類用于指示所述輸入語音信號的周期性。
37.權(quán)利要求34的方法,其中,所述分類用于指示不規(guī)則的濁語音信號。
38.權(quán)利要求34的方法,其中,所述分類用于指示周期性指數(shù)。
39.權(quán)利要求38的方法,其中,所述周期性指數(shù)的范圍為從低周期性指數(shù)到高周期性指數(shù)。
40.一種提高合成語音質(zhì)量的方法,包括接收輸入語音信號的幀,所述幀具有多個代碼參數(shù)以及話音指數(shù),其中,所述話音指數(shù)包括多個比特;從所述話音指數(shù)的所述多個比特,確定所述輸入語音信號的所述幀的分類;以及基于所述分類,利用碼激勵線性預(yù)測編碼器對所述幀進(jìn)行解碼,以合成所述輸入語音。
41.權(quán)利要求40的方法,其中,所述多個比特為三個比特。
42.權(quán)利要求40的方法,其中,所述分類用于指示有噪聲的語音信號。
43.權(quán)利要求40的方法,其中,所述分類用于指示不規(guī)則的濁語音信號。
44.權(quán)利要求40的方法,其中,所述分類用于指示周期性指數(shù)。
45.權(quán)利要求44的方法,其中,所述周期性指數(shù)的范圍為從低周期性指數(shù)到高周期性指數(shù)。
全文摘要
一種利用綜合分析(ABS)編碼器提高語音合成質(zhì)量的方法。由于濁語音信號中的周期性程度對于濁語音的不同片斷而言有顯著差異,在綜合分析型的語音編碼(例如,CELP)中會產(chǎn)生不穩(wěn)定的感知質(zhì)量。因此,本發(fā)明利用指示語音信號的周期性程度的話音指數(shù)控制和改進(jìn)ABS型語音編碼。所述話音指數(shù)可被用于通過控制編碼器和/或解碼器來提高質(zhì)量穩(wěn)定性,其可以用于固定碼本(301)短期增強(qiáng),包括頻譜傾斜;感知加權(quán)濾波器;子固定碼本確定;LPC插值(304);固定碼本音調(diào)增強(qiáng);后音調(diào)增強(qiáng);在解碼器高頻帶的噪聲注入;LTP正弦窗;信號分解等。
文檔編號G10L19/00GK1757060SQ200480006015
公開日2006年4月5日 申請日期2004年3月11日 優(yōu)先權(quán)日2003年3月15日
發(fā)明者高揚(yáng) 申請人:曼德斯必德技術(shù)公司