專利名稱:用于利用諧波鎖定修改音頻信號的裝置和方法
技術(shù)領(lǐng)域:
根據(jù)本發(fā)明的實(shí)施方式涉及音頻處理,且具體地,涉及用于修改音頻信號的裝置和方法。
背景技術(shù):
數(shù)字信號處理技術(shù)能解決極值信號處理需求以將預(yù)先記錄的例如取自數(shù)據(jù)庫的音頻信號匹配成新的音樂環(huán)境,對此種技術(shù)的需求在逐漸增加。為達(dá)成此項目的,需要調(diào)適高階語義信號的特性,諸如音高、音樂音調(diào)及音階模式。所有這些操作的共同之處在于其在針對實(shí)質(zhì)上改變原始音頻材料的音樂性質(zhì),同時仍盡可能良好地保留主觀聲音質(zhì)量。換言之,這些編輯有力地改變了音頻材料的音樂內(nèi)容,但盡管如此,仍需保留處理后的音頻樣本的自然性并由此來維持可靠性。這理想上要求能廣義應(yīng)用至不同類別信號(包括復(fù)曲調(diào)混 合音樂內(nèi)容)的信號處理方法。目前,已知有多種用于修改音頻信號的概念。這些概念部分基于聲碼器kvocoderノ。例如,在“S. Disch and B. Edler, "An amplitude-and frequency modulationvocoder for audio signal processing, Proc. of the Int. Conf on Digital AudioEffects (DAFx),2008”、“S. Disch and B.Edler, "Multiband perceptual modulationanalysis, processing and Synthesis of audio signals, ^Proc. of the IEEE-ICASSP,2009” 或“S. Disch and B. Edler, 〃An iterative segmentation algorithm foraudio signal spectra depending on estimated local centers of gravity, ^12thInternational Conference on Digital Audio Effects (DAFx-09),2009” 中,已介紹了調(diào)制聲碼器(MODVOC)的概念,且已指出其對復(fù)曲調(diào)音樂內(nèi)容執(zhí)行有意義的選擇性轉(zhuǎn)調(diào)(transposition)的一般能力。這使得針對改變預(yù)先記錄的PCM音樂樣本的音調(diào)模式的應(yīng)用變得可能(例如,參見 “S. Disch and B. Edler, ^Multiband perceptual modulationanalysis, processing and Syntnesis of audio signals, 〃Proc. oi the IEEE-丄しASSP,2009”)。也可購買可處理這種復(fù)曲調(diào)操作工作的第一市售軟件(由西蒙尼公司(Celemony)出品的旋律聆(Melodyne)編輯器)。該軟件實(shí)現(xiàn)了已有品牌且利用術(shù)語“直接音符存取(DNA)”上市的ー項技術(shù)。后來已公開了專利申請(由P. Neubacker于2009年9月提交的“用于復(fù)曲調(diào)聲音記錄的聽覺對象取向分析和音符對象取向處理的方法”的第EP2099024號),推定其涵蓋并由此公開了 DNA的必要功能。獨(dú)立于用以修改音頻信號的方法,其期望獲得具有高感知質(zhì)量的音頻信號。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于修改音頻信號的改進(jìn)型概念,其允許提高修改后的音頻信號的感知質(zhì)量。該目的由根據(jù)權(quán)利要求I所述的裝置、根據(jù)權(quán)利要求14所述的方法或根據(jù)權(quán)利要求15所述的計算機(jī)程序來解決。本發(fā)明的實(shí)施方式提供了一種用于修改音頻信號的裝置,該裝置包括濾波器組處理器、基音(fundamental)確定器、泛音(overtone)確定器、信號處理器和合成器。濾波器組處理器被配置為基于音頻信號生成多個帶通信號。此外,基音確定器被配置為選擇多個帶通信號中的ー個帶通信號來獲得基音帶通信號。泛音確定器被配置為識別多個帶通信號中滿足有關(guān)所選基音帶通信號的泛音標(biāo)準(zhǔn)的ー個帶通信號來獲得與所選基音帶通信號相關(guān)聯(lián)的泛音帶通信號。此外,信號處理器被配置為基于預(yù)定修改目標(biāo)來修改所選基音帶通信號。另外,信號處理器被配置為根據(jù)所選基音帶通信號的修改來修改與所選基音帶通信號相關(guān)聯(lián)的所識別的泛音帶通信號。此外,合成器被配置為合成多個帶通信號來獲得修改后的音頻信號。通過識別基音頻率的泛音和以對應(yīng)基音的相同方式修改泛音,可避免基音及其泛音的不同修改,使得相比原始音頻信號,可更準(zhǔn)確地保留修改后的音頻信號的音質(zhì)。以此方
式,修改后的音頻信號的感知質(zhì)量可被顯著改善。例如,若期望選擇性音高轉(zhuǎn)調(diào)(例如,將給定音樂信號的曲調(diào)模式從C大調(diào)改成C小調(diào)),則所識別的泛音帶通信號的修改與基音帶通信號的修改相關(guān)。相比之下,與基音帶通信號不同,已知方法修改了帶通信號的表示泛音的頻率區(qū)。換言之,通過使用所述概念,所識別的泛音帶通信號被鎖定為基音帶通信號。在本發(fā)明的一些實(shí)施方式中,通過比較基音帶通信號與多個帶通信號中的帶通信號的頻率,通過比較基音帶通信號與多個帶通信號中的帶通信號的能量含量和/或通過評估基音帶通信號的時間包絡(luò)與多個帶通信號中的帶通信號的時間包絡(luò)的相關(guān)性,可識別泛音帶通信號。以此方式,可定義ー項或多項泛音標(biāo)準(zhǔn)來最小化錯誤泛音的識別。根據(jù)本發(fā)明的一些實(shí)施方式與基音帶通信號的迭代確定和從多個帶通信號中對泛音帶通信號的識別有夫。已選擇的基音帶通信號和已識別的泛音帶通信號可從搜尋空間去除,或者換言之,可不考慮另一基音帶通信號或另ー泛音帶通信號的確定。以此方式,該多個帶通信號的各個帶通信號可被選用為基音帶通信號(且由此可獨(dú)立于其他基音帶通信號而被修改)或泛音帶通信號(且由此可根據(jù)相關(guān)聯(lián)的所選基音帶通信號來修改)。本發(fā)明的另ー實(shí)施方式提供了一種用于修改音頻信號的裝置,該裝置包括包絡(luò)形狀確定器、濾波器組處理器、信號處理器、合成器和包絡(luò)整形器。包絡(luò)形狀確定器被配置為基于表示時域輸入音頻信號的頻域音頻信號來確定包絡(luò)形狀系數(shù)。此外,濾波器組處理器被配置為基于頻域音頻信號來生成次頻帶域中的多個帶通信號。信號處理器被配置為基于預(yù)定修改目標(biāo)來修改多個次頻帶域帶通信號中的一個次頻帶域帶通信號。此外,合成器被配置為合成多個次頻帶域帶通信號中的至少ー個子集來獲得時域音頻信號。另外,包絡(luò)整形器被配置為基于包絡(luò)形狀系數(shù)來整形時域音頻信號的包絡(luò),基于包絡(luò)形狀系數(shù)來整形包括修改后的次頻帶域帶通信號的多個次頻帶域帶通信號的包絡(luò),或者在次頻帶域帶通信號被信號處理器修改之前,基于包絡(luò)形狀系數(shù)來整形多個次頻帶域帶通信號的包絡(luò)以獲得整形音頻信號。通過在多個次頻帶域帶通信號中分離該頻域音頻信號之前確定該頻域音頻信號的包絡(luò)形狀系數(shù),可保留有關(guān)該音頻信號的頻譜相干性(coherence)的信息,且可用于在ー個或多個次頻帶域帶通信號的修改之后整形該時域音頻信號的包絡(luò)。以此方式,可更準(zhǔn)確地保留該修改后的音頻信號的頻譜相干性,盡管只有ー些(或僅ー個)次頻帶域帶通信號被修改或者次頻帶域帶通信號被不同地修改,這可能干擾該音頻信號的頻譜相干性。以此方式,可顯著改善修改后的音頻信號的感知質(zhì)量。根據(jù)本發(fā)明的一些實(shí)施方式與ー種被配置為基于第二預(yù)定修改目標(biāo)來修改多個次頻帶域帶通信號中的第二次頻帶域帶通信號的信號處理器有夫。該預(yù)定修改目標(biāo)與第二預(yù)定修改目標(biāo)不同。盡管帶通信號被不同地修改,但由于在帶通信號的個別修改后進(jìn)行包絡(luò)整形,所以可更準(zhǔn)確地保留修改后的音頻信號的頻譜相干性。
以下將參照附圖詳細(xì)描述根據(jù)本發(fā)明的實(shí)施方式,其中圖I是用于修改音頻信號的裝置的框圖;
圖2是用于修改音頻信號的裝置的框圖;圖3是用于修改音頻信號的方法的流程圖;圖4是使用諧波鎖定的調(diào)制聲碼器的一部分的框圖;圖5是用于修改音頻信號的方法的流程圖;圖6a、圖6b、圖6c、圖6d是用于修改音頻信號的裝置的框圖;圖7是濾波器組處理器的框圖;圖8是包絡(luò)整形器的框圖;圖9是具有包絡(luò)整形的調(diào)制分析的示意性說明圖;圖10是具有包絡(luò)整形的調(diào)制合成的示意性說明圖;圖11是用于修改音頻信號的方法的流程圖;圖12是用于修改音頻信號的裝置的框圖;圖13是調(diào)制分析的示意性說明圖;圖14是調(diào)制分析的實(shí)現(xiàn)的示意性說明圖;圖15是調(diào)制合成的示意性說明圖;圖16是對調(diào)制聲碼器分量的選擇性轉(zhuǎn)調(diào)的示意性說明圖;圖17是用于生成評估處理選擇性音高轉(zhuǎn)調(diào)工作的調(diào)制聲碼器的主觀質(zhì)量的測試集合的程序的示意性說明圖;圖18是指示絕對MUSHRA分?jǐn)?shù)和解決選擇性音高轉(zhuǎn)調(diào)的收聽測試的95%置信區(qū)間的不意圖;圖19是指示有關(guān)調(diào)制聲碼器條件的差異MUSHRA分?jǐn)?shù)和解決選擇性音高轉(zhuǎn)調(diào)的收聽測試的95%置信區(qū)間的示意圖;以及圖20是指示有關(guān)DNA條件的差異MUSHRA分?jǐn)?shù)和解決選擇性音高轉(zhuǎn)調(diào)的收聽測試的95%置信區(qū)間的示意圖。下文中,相同附圖標(biāo)記部分地用于具有相同或類似功能特性的物體及功能単元,且其關(guān)于一幅圖的描述也將適用于其他圖,以減少實(shí)施方式描述中的冗余。
具體實(shí)施例方式選擇性頻帶修改也被稱作選擇性音高轉(zhuǎn)調(diào),其例如可由聲碼器或調(diào)制聲碼器來實(shí)現(xiàn)。
多頻帶調(diào)制分解(例如,參見“S.Disch and B. Edler, ^Multiband perceptualmodulation analysis, processing and Synthesis of auaio signals, Proc. oi theIEEE-ICASSP, 2009”)將音頻信號分割成(分析)帶通信號的分析適應(yīng)性集合,其各自進(jìn)ー步劃分成正弦載波及其調(diào)幅(AM)和調(diào)頻(FM)。帶通濾波器的設(shè)置(set)可被計算為使得一方面,全頻帶頻譜被無縫式覆蓋,以及另一方面,例如,濾波器與總重心(COG)對準(zhǔn)。此外,人類聽覺可通過選擇濾波器帶寬以匹配感知音階(例如,ERB音階)來加以考慮(例如,參見“B. C. J. Moore and B. R. Giasoerg, A revision of zwicker s loudness moael ActaAcustica, vol. 82, pp. 335-345,1996”)。例如,局部COG與收聽者因該頻率區(qū)的頻譜貢獻(xiàn)而感知的平均頻率相對應(yīng)。此外,中心在局部COG位置的頻帶可與傳統(tǒng)相位聲碼器的基于影響區(qū)的相位鎖定相對應(yīng)(例如,^jAL uJ. Laroche and M. Dolson, Improved phase vocoder timescale modification otaudio, 〃IEEE Transactions on Speech and Audio Processing, vol. 7, no. 3, pp. 323-332,1999,,或者“ C. Duxbury, M. Davies, and M. Sandler , "Improved timescaling of musicalaudio using phase locking at transients, 〃in 112th AES Convention, 2002,,)。帶通信號包絡(luò)表示型態(tài)和傳統(tǒng)影響區(qū)相位鎖定均保留帶通信號的時間包絡(luò)本質(zhì)上或者在后述情況下,通過在合成期間確保局部頻譜的相位相干性。至干與所估算的局部COG相對應(yīng)的頻率的正弦載波,AM和FM均分別被捕捉在分析帶通信號的振幅包絡(luò)和外差(heterodyne)相位中。專用合成方法允許從載波頻率AM和FM呈現(xiàn)輸出信號。信號分解成載波信號及其相關(guān)調(diào)制分量的可行實(shí)施1300的框圖被示出在圖13中。該圖中示出了用于提取多頻帶分量(帶通信號)中的一個的示意性信號流程。所有其他分量以類似方式獲得。首先,寬帶輸入信號X被饋送至已指派信號來適應(yīng)性產(chǎn)生輸出信號的帶通濾波器。其次,分析信號根據(jù)方程(I)由希爾伯特(Hilbert)變換導(dǎo)出。x{t) = W ( ) + jfi {X (t))/ j ')AM (調(diào)幅信號)由 的振幅包絡(luò)給出,(t) = |£·( )|(2、而FM (調(diào)頻信號)通過由具有角頻率ω。的穩(wěn)態(tài)正弦載波外差的該分析信號的相位導(dǎo)數(shù)來獲得。載波頻率被確定為局部COG的估值。因此,F(xiàn)M可被解釋為在載波頻率fc處的IF (瞬時頻率)變化。i (t) = $ (t) * exp (-JWei)
_5] FM (t) = I-Il(Ht))⑴例如,在專屬公開文獻(xiàn)中描述了前端濾波器組的局部COG的估算和信號適應(yīng)性設(shè)計(參見 “S. Disch and B. Edler, An iterative segmentation algorithm foraudio signal spectra depending on estimated local centers of gravity,^12thInternational Conference on Digital Audio Effects (DAFx-09),2009,,)。實(shí)際上,在離散時間系統(tǒng)中,可如圖14所示對全部分量聯(lián)合進(jìn)行分量提取。該處理方案可支持實(shí)時計算。某個時間塊的處理僅取決于之前塊的參數(shù)。因此,無需前瞻來維持總處理延遲盡可能地低。該處理使用例如75%的分析塊交疊和對各窗ロ信號塊施加離散傅里葉變換(DFT)來以逐個塊為基礎(chǔ)計算。窗ロ可以是根據(jù)方程(4)的平頂窗ロ。這確保了用于利用50%交疊的后續(xù)調(diào)制合成而傳送的中心的N/2樣本不受分析窗ロ的裙裾影響。較高度的交疊可用于改善準(zhǔn)確度,但以計算復(fù)雜度增大為代價。
權(quán)利要求
1.一種用于修改音頻信號(102)的裝置(100、200),包括 濾波器組處理器(110),其被配置為基于音頻信號(102)來生成多個帶通信號(112); 基音確定器(120),其被 配置為選擇所述多個帶通信號中的ー個帶通信號(112)來獲得基音帶通信號(122); 泛音確定器(130),其被配置為識別所述多個帶通信號中滿足有關(guān)所選基音帶通信號(122)的泛音標(biāo)準(zhǔn)的ー個帶通信號(112)來獲得與所述所選基音帶通信號(122)相關(guān)聯(lián)的泛音帶通信號(132); 信號處理器(140),其被配置為基于預(yù)定修改目標(biāo)來修改所述所選基音帶通信號(122),且其被配置為根據(jù)所述所選基音帶通信號(122)的修改來修改與所述所選基音帶通信號(122)相關(guān)聯(lián)的所識別的泛音帶通信號(132);以及 合成器(150),其被配置為合成所述多個帶通信號來獲得修改后的音頻信號(152)。
2.根據(jù)權(quán)利要求I所述的裝置,其中,所述多個帶通信號中的每個帶通信號(112)包括載波頻率,其中,所述泛音確定器(130)被配置為將所述多個帶通信號中的ー個帶通信號(112)的所述載波頻率與所述所選基音帶通信號(122)的所述載波頻率相比較,其中,若在具有預(yù)定載波頻率容差的情況下,所述帶通(112)的所述載波頻率是所述所選基音帶通信號(122)的所述載波頻率的倍數(shù),則滿足泛音標(biāo)準(zhǔn)。
3.根據(jù)權(quán)利要求I或2所述的裝置,其中,所述泛音確定器(130)被配置為將所述多個帶通信號中的ー個帶通信號的能量含量與所述所選基音帶通信號(122)的能量含量相比較,其中,若所述帶通信號(112)的能量含量與所述所選基音帶通信號(122)的能量含量的比在預(yù)定能量容差范圍內(nèi),則滿足泛音標(biāo)準(zhǔn)。
4.根據(jù)權(quán)利要求I至3中任一項所述的裝置,其中,所述泛音確定器(130)被配置為計算指示所述多個帶通信號中的ー個帶通信號(112)的時間包絡(luò)與所述所選基音帶通信號(122)的時間包絡(luò)的相關(guān)性的相關(guān)性值,其中,若所述相關(guān)性值高于預(yù)定相關(guān)性閾值,則滿足泛音標(biāo)準(zhǔn)。
5.根據(jù)權(quán)利要求I至4中任一項所述的裝置,其中,所述基音確定器(120)被配置為選擇所述多個帶通信號中的另ー帶通信號(112)來獲得另一基音帶通信號(122),而不考慮全部已選基音帶通信號(122 )和全部已識別泛音帶通信號(132 )。
6.根據(jù)權(quán)利要求5所述的裝置,其中,所述泛音確定器(130)被配置為識別所述多個帶通信號中滿足有關(guān)另一所選基音帶通信號(122)的泛音標(biāo)準(zhǔn)的ー個帶通信號(112)來獲得與所述另一所選基音帶通信號(122)相關(guān)聯(lián)的泛音帶通信號(132),而不考慮全部已識別泛音帶通信號(132)。
7.根據(jù)權(quán)利要求5或6所述的裝置,其中,所述信號處理器(140)被配置為基于另ー預(yù)定修改目標(biāo)來修改所述另一所選基音帶通信號(122)。
8.根據(jù)權(quán)利要求I至7中任一項所述的裝置,其中,所述基音確定器(120)被配置為基于能量標(biāo)準(zhǔn)來選擇所述帶通信號(112)。
9.根據(jù)權(quán)利要求I至8中任一項所述的裝置,其中,所述基音確定器(120)被配置為確定所述多個帶通信號中的每個帶通信號(112)的加權(quán)能量含量,以及被配置為選擇包括最高加權(quán)能量含量的帶通信號(112)來獲得所述基音帶通信號(122 )。
10.根據(jù)權(quán)利要求I至9中任一項所述的裝置,包括載波頻率確定器(260),其中,所述濾波器組處理器(110)包括濾波器組(212)和信號轉(zhuǎn)換器(214),其中,所述濾波器組(212)被配置為基于所述音頻信號(102)來生成帶通信號,其中,所述信號轉(zhuǎn)換器(214)被配置為將所生成的帶通信號轉(zhuǎn)換至次頻帶域來獲得所述多個帶通信號,其中,所述載波頻率確定器(260)被配置為基于所述音頻信號(102)來確定多個載波頻率,其中,所述濾波器組處理器(110)的所述濾波器組(212)被配置為生成所述帶通信號,使得每個帶通信號包括含有所述多個載波頻率中的不同載波頻率的頻率范圍以獲得與所述多個載波頻率中的每個載波頻率相關(guān)聯(lián)的帶通信號。
11.根據(jù)權(quán)利要求I至10中任一項所述的裝置,其中,所述信號處理器(140)被配置為針對所述多個帶通信號中的每個帶通信號(112)生成調(diào)幅信號(AM)和調(diào)頻信號(FM),其中,所述信號處理器(140)被配置為基于所述預(yù)定修改目標(biāo)來修改所述所選基音帶通信號(122)的調(diào)幅信號(AM)或調(diào)頻信號(FM),以及其中,所述信號處理器(140)被配置為根據(jù)所述所選基音帶通信號(122)的修改來修改與所述所選基音帶通信號(122)相關(guān)聯(lián)的所識別的泛音帶通信號(132)的調(diào)幅信號(AM)或調(diào)頻信號(FM)。
12.根據(jù)權(quán)利要求I至11中任一項所述的裝置,其中,所述信號處理器(140)被配置為通過將所述所選基音帶通信號(122)的載波頻率與轉(zhuǎn)調(diào)因子相乘或者通過將轉(zhuǎn)調(diào)頻率増加至所述所選基音帶通信號(122)的所述載波頻率來修改所述所選基音帶通信號(122),其中,所述信號處理器(140)被配置為通過將所識別的泛音帶通信號(132)的載波頻率與具有10%容差的所述轉(zhuǎn)調(diào)因子相乘或者通過將具有10%容差的所述轉(zhuǎn)調(diào)頻率的倍數(shù)増加至所識別的泛音帶通信號(132)的所述載波頻率來修改所識別的泛音帶通信號(132)。
13.根據(jù)權(quán)利要求I至12中任一項所述的裝置,包括包絡(luò)形狀確定器和包絡(luò)整形器,其中,所述包絡(luò)形狀確定器被配置為基于所述音頻信號(102)來確定包絡(luò)形狀系數(shù),其中,所述音頻信號(102)是表示時域輸入音頻信號的頻域音頻信號,其中,所述濾波器組處理器(110)被配置為基于所述頻域音頻信號來生成次頻帶域中的所述多個帶通信號,其中,所述合成器被配置為合成所述多個帶通信號中的至少ー個子集來獲得表示時域音頻信號的修改后的音頻信號,其中,所述包絡(luò)整形器被配置為基于所述包絡(luò)形狀系數(shù)來整形所述時域音頻信號的包絡(luò),基于所述包絡(luò)形狀系數(shù)來整形包括修改后的次頻帶域帶通信號的所述多個次頻帶域帶通信號的包絡(luò),或者在次頻帶域帶通信號被所述信號處理器修改之前,基于所述包絡(luò)形狀系數(shù)來整形所述多個次頻帶域帶通信號的包絡(luò)以獲得整形音頻信號。
14.一種用于修改音頻信號的方法(300),包括 基于音頻信號來生成(310)多個帶通信號; 選擇(320)所述多個帶通信號中的ー個帶通信號來獲得基音帶通信號; 識別(330)所述多個帶通信號中滿足有關(guān)所選基音帶通信號的泛音標(biāo)準(zhǔn)的ー個帶通信號來獲得與所述所選基音帶通信號相關(guān)聯(lián)的泛音帶通信號; 基于預(yù)定修改目標(biāo)來修改(340)所述所選基音帶通信號; 根據(jù)所述所選基音帶通信號的修改來修改(350)與所述所選基音帶通信號相關(guān)聯(lián)的所識別的泛音帶通信號;以及 合成(360)所述多個帶通信號來獲得修改后的音頻信號。
15.ー種具有程序代碼的計算機(jī)程序,當(dāng)所述計算機(jī)程序在數(shù)字信號處理器、計算機(jī)或微控制器上運(yùn)行時,所述程序代碼用于執(zhí)行根據(jù)權(quán)利要求14所述的方法。
全文摘要
一種用于修改音頻信號的裝置,包括濾波器組處理器、基音確定器、泛音確定器、信號處理器和合成器。濾波器組處理器基于音頻信號生成多個帶通信號,以及基音確定器選擇多個帶通信號中的一個帶通信號來獲得基音帶通信號。此外,泛音確定器識別多個帶通信號中滿足有關(guān)所選基音帶通信號的泛音標(biāo)準(zhǔn)的一個帶通信號來獲得與所選基音帶通信號相關(guān)聯(lián)的泛音帶通信號。信號處理器基于預(yù)定修改目標(biāo)來修改所選基音帶通信號。此外,信號處理器根據(jù)所選基音帶通信號的修改來修改與所選基音帶通信號相關(guān)聯(lián)的所識別的泛音帶通信號。此外,合成器合成多個帶通信號來獲得修改后的音頻信號。
文檔編號G10H1/20GK102870153SQ201180021219
公開日2013年1月9日 申請日期2011年2月25日 優(yōu)先權(quán)日2010年2月26日
發(fā)明者薩沙·迪施 申請人:弗蘭霍菲爾運(yùn)輸應(yīng)用研究公司