在摩擦音或破擦音的起始段或終止段的時間的接近處使用提高的時間分辨率的音頻編碼 ...的制作方法
【技術領域】
[0001]根據本發明的實施例是關于一種基于輸入音頻信息提供編碼音頻信息的音頻編碼器。
[0002]根據本發明的其他實施例是關于一種基于編碼音頻信息提供解碼音頻信息的音頻解碼器。
[0003]根據本發明的其他實施例是關于一種包括音頻編碼器及音頻解碼器的系統。
[0004]根據本發明的其他實施例是關于一種基于輸入音頻信息提供編碼音頻信息的方法。
[0005]根據本發明的其他實施例是關于一種基于編碼音頻信息提供解碼音頻信息的方法。
[0006]根據本發明的其他實施例是關于一種執行所述方法中的一個的計算機程序。
[0007]根據本發明的其他實施例是關于一種用于語音的音頻帶寬擴展中摩擦音或破擦音的起始段或終止段建模。
【背景技術】
[0008]近年來,對音頻信號,特定而言,對語音信號的數字儲存及傳輸的需求愈來愈大。在某些類似例如行動通訊應用的情況下,要求獲得相對低的比特率。
[0009]然而,為了在比特率與音頻質量(或語音質量)之間獲得良好的平衡,存在方法來使用相對高的精度編碼音頻信號的低頻部分(例如,最高達近似6kHz的頻率部分),且依賴于帶寬擴展重構音頻內容的高頻部分(例如,高于近似6kHz或7kHz的頻率部分)。舉例而言,帶寬擴展可基于使用相對少的參數重構音頻內容的高頻部分,其中參數可例如以粗略方式描述頻譜包絡。
[0010]帶寬擴展的熟知實行方案為帶寬復制(SBR),此實行方案已在MPEG (動畫專家組)中進行標準化。
[0011]舉例而言,國際標準IS0/IEC 14496-3:200X (E)第4子部分中第4.6.18及4.6.19章中描述了有關帶寬復制的某些細節。
[0012]此外,亦參閱了專利申請第US 2011/0099018 Al號,所述專利描述一種使用頻譜傾斜受控式定幀計算帶寬擴展數據的設備及方法。所述專利申請描述一種計算帶寬擴展系統中音頻信號的帶寬擴展數據的設備,其中第一帶寬用第一數目個位編碼,且不同于第一帶寬的第二帶寬用第二數目個位編碼,第二數目個位少于第一數目個位。設備具有可控帶寬擴展參數計算器,所述可控帶寬擴展參數計算器針對音頻信號的第一序列幀以逐幀方式計算第二帶寬的帶寬擴展參數。每一幀具有可控開始時間瞬時。設備額外包括頻譜傾斜偵測器,所述偵測器偵測音頻信號的時間部分中的頻譜傾斜且取決于頻譜傾斜而信號傳遞音頻信號的個別幀的開始時間瞬時。
[0013]然而,已發現在帶寬擴展的許多已知方法中,摩擦音或破擦音存在的情況下所獲得的聽覺效果實質上有所劣化。舉例而言,已知帶寬擴展技術可能引起前回聲及后回聲。此夕卜,在使用已知帶寬擴展技術時,摩擦音或破擦音可能會聽起來過于尖銳。
[0014]鑒于上述情形,需要創建允許改進的音頻質量的帶寬擴展概念。
【發明內容】
[0015]根據本發明的實施例創建一種基于輸入音頻信息提供編碼音頻信息的音頻編碼器。音頻編碼器包括配置為使用可變時間分辨率提供帶寬擴展信息的帶寬擴展信息提供器。音頻編碼器亦包括配置為偵測摩擦音或破擦音的起始段的偵測器。音頻編碼器配置為調整帶寬擴展信息提供器所使用的時間分辨率,以使得至少針對偵測到摩擦音或破擦音的起始段的時間的之前的預定時間周期及針對偵測到摩擦音或破擦音的起始段的時間的之后的預定時間周期,以提高的時間分辨率提供帶寬擴展信息。
[0016]根據本發明的此實施例基于如下發現,若針對偵測到摩擦音或破擦音的起始段的時間的整個環境,以高的時間分辨率提供帶寬擴展信息,則可達成良好聽覺質量。因此,以高的時間分辨率(至少關于帶寬擴展信息)編碼摩擦音或破擦音的整個起始段,所述整個起始段通常包括偵測到摩擦音或破擦音的起始段的時間的之前的特定時間擴展及實際偵測到摩擦音或破擦音的起始段的時間的之后的特定周期(時間擴展),從而有助于避免前回聲且亦有助于避免不自然的聽覺感覺。通常,無法非常精確地偵測到摩擦音或破擦音的起始段,因為摩擦音或破擦音的起始段的偵測常常基于臨界交叉的偵測,而此交叉在摩擦音或破擦音的起始段的剛開始處顯然并未出現。因此,(實際)偵測到摩擦音或破擦音的起始段的時間在時間上在摩擦音或破擦音的剛剛開始(或起始段)的后。因此,藉由確保至少針對(實際)偵測到摩擦音或破擦音的起始段的時間的前的預定時間周期,以提高的時間分辨率(與「正常的」時間分辨率相比)提供帶寬擴展信息,可達成:亦可以良好分辨率重現摩擦音或破擦音的起始段剛剛開始處的細節,其中已發現,甚至在摩擦音或破擦音的起始段剛剛開始處的此類細節對于良好聽覺感覺而言重要。因此,藉由至少針對偵測到摩擦音或破擦音的起始段的時間的前的預定時間周期,以提高的時間分辨率提供帶寬擴展信息,不僅有助于避免前回聲,亦使得能夠重現摩擦音或破擦音的起始段的細節。類似地,藉由確保針對偵測到摩擦音或破擦音的起始段的時間的后的預定時間周期,以提高的時間分辨率提供帶寬擴展信息,使得能夠重現摩擦音或破擦音的起始段的細節,此類細節對于聽力感覺而言重要。
[0017]因此,本文所描述的概念使得能夠以高的時間分辨率重現摩擦音或破擦音的整個起始段,此有助于避免聽力感覺的劣化,而此劣化例如由摩擦音或破擦音的起始段剛剛開始處或自摩擦音或破擦音的起始段至穩定信號部分的過渡處(帶寬擴展信息的)過于粗略的時間分辨率引起。
[0018]在較佳實施例中,音頻編碼器配置為響應于偵測到摩擦音或破擦音的起始段,自用于提供帶寬擴展信息的第一時間分辨率切換至用于提供帶寬擴展信息的第二時間分辨率,其中第二時間分辨率高于第一時間分辨率。因此,執行用于提供帶寬擴展信息的兩個不同時間分辨率的間的切換,其中所述切換系由偵測到摩擦音或破擦音的起始段來控制。因此,創建一種簡單控制方案,所述方案可容易地實施于音頻編碼器或音頻解碼器中。
[0019]在較佳實施例中,帶寬擴展信息提供器配置為提供帶寬擴展信息,以使得帶寬擴展信息與具有相等時間長度的時間上規則的時間間隔(可形成用于提供帶寬擴展信息的基礎但可細分的時間網格)相關聯。帶寬擴展信息提供器配置為當使用第一時間分辨率(例如,相對較低的時間分辨率)時,針對具有給定時間長度的時間間隔提供帶寬擴展信息的單個集合。此外,帶寬擴展信息提供器可配置為當使用第二時間分辨率(例如,相對較高的時間分辨率)時,針對具有給定時間長度的時間間隔提供與子時間間隔相關聯的帶寬擴展信息的多個集合。
[0020]藉由將具有相等時間長度的時間上規則的時間間隔(例如,幀)用作用于提供帶寬擴展信息的(基礎)時間網格,音頻編碼器可得以容易地實施。舉例而言,帶寬擴展信息提供器僅需要在兩個離散的時間分辨率的間切換,此切換可在無需過多工作量的情況下得以實施。舉例而言,帶寬擴展信息提供器可僅需實施以基于具有給定時間長度的時間間隔提供帶寬擴展信息的單個集合,且基于具有給定時間長度的時間間隔的預定(及固定)數目個(具有相等長度)的子間隔提供帶寬擴展信息的多個集合。因此,以下可例如為充分的:帶寬擴展信息提供器配置為基于具有給定時間長度的時間間隔提供帶寬擴展信息的單個集合,或基于四個子時間間隔提供帶寬擴展信息的四個集合,所述等子時間間隔中的每一者的長度等于給定時間長度的四分的一。此外,藉由使用此類概念,提供帶寬擴展信息的時間間隔期間信號傳遞可能要求的信號傳遞工作量可保持為小,因為僅需要在「粗略分辨率」(例如,針對具有給定時間長度的時間間隔的帶寬擴展信息的單個集合)與「精細分辨率」(例如,與具有相等長度的η個子時間間隔相關聯的帶寬擴展信息的η個集合)的間進行選擇。因此,提供用于提供帶寬擴展信息的特定有效的概念。
[0021]在較佳實施例中,音頻編碼器配置為調整帶寬擴展信息提供器所使用的時間分辨率,以使得與帶寬擴展信息的一個集合相關聯的至少一個子時間間隔緊接在另一子時間間隔的前,所述另一子時間間隔與帶寬擴展信息的另一集合相關聯且在所述另一子時間間隔期間偵測到摩擦音或破擦音的起始段,以使得在偵測到摩擦音或破擦音的起始段的子時間間隔的前的至少一個子時間間隔中使用提高的時間分辨率。因此,有可能甚至在摩擦音或破擦音的起始段剛剛開始處以高的時間分辨率提供帶寬擴展信息,亦即,甚至在實際可偵測到摩擦音或破擦音的起始段的前以高的時間分辨率提供帶寬擴展信息。
[0022]在較佳實施例中,音頻編碼器配置為若針對具有給定時間長度的給定時間間隔使用提高的時間分辨率提供帶寬擴展信息,則將具有給定時間長度的給定時間間隔細分為具有相等長度的四個子時間間隔,以使得針對具有給定時間長度的給定時間間隔提供帶寬擴展信息的四個集合(例如,帶寬擴展參數的四個集合,每一集合與子時間間隔中的一者相關聯)。因此,可達成帶寬擴展信息的高的時間分辨率,因為帶寬擴展信息的四個集合可例如針對四個子間隔獨立地描述音頻內容的高頻信號部分的包絡。因此,可考慮四個子時間間隔的高頻信號部分的頻譜包絡的差異,因為帶寬擴展信息的集合中的每一者可表示子時間間隔中的一者的高頻部分的頻率包絡(或頻譜包絡)。
[0023]在較佳實施例中,音頻編碼器配置為若在第二時間間隔內偵測到摩擦音或破擦音的起始段且若偵測到摩擦音或破擦音的起始段的時間與第一時間間隔與第二時間間隔的間的邊界的間的時間距離小于預定時間距離,則針對具有給定時間長度的第二時間間隔的前的具有給定時間長度的第一時間間隔,選擇性地使用提高的時間分辨率提供帶寬擴展信息。因此,甚至在偵測到摩擦音或破擦音的起始段的時間位于后續第二時間間隔(例如,后續第二幀)內的情況下,若假設摩擦音或破擦音的起始段剛剛開始處(通常位于實際偵測到摩擦音或破擦音的起始段的時間的前)位于第一時間間隔內,則以提高的時間分辨率(與「正常的」時間分辨率相比)提供第一時間間隔(例如,第一幀)的帶寬擴展信息。因此,摩擦音或破擦音的整個起始段包括摩擦音或破擦音的起始段剛剛開始處及有可能甚至摩擦音或破擦音的起始段的前的一定時間量,經評估,針對所述整個起始段,提供帶寬擴展信息時使用高的時間分辨率,從而形成良好語音重現。并非僅避免前回聲,摩擦音或破擦音的起始段可得以精確重現而并無過量的尖銳度或其他實質假影。
[0024]在較佳實施例中,音頻編碼器配置為運行時間先行,以使得響應于在第二時間間隔內偵測到摩擦音或破擦音的起始段,針對具有給定時間長度的第二時間間隔的前的具有給定時間長度的第一時間間隔,使用提高的時間分辨率提供帶寬擴展信息。因此,針對摩擦音或破擦音的整個起始段(及有可能甚至摩擦音或破擦音的起始段的前的較短時間周期),有可能以提高的時間分辨率提供帶寬擴展信息,從而獲得改進的音頻質量。
[0025]在較佳實施例中,音頻編碼器配置為調整帶寬擴展信息提供器所使用的時間分辨率,以使得至少針對偵測到摩擦音或破擦音的起始段的時間的前的預定時間周期及針對偵測到摩擦音或破擦音的起始段的時間的后的預定時間周期,以相同的提高的時間分辨率提供帶寬擴展信息。藉由使用相等的時間分辨率,與在偵測到摩擦音或破擦音的起始段的時間的前及的后使用不同時間分辨率的情況相比,帶寬擴展信息的提供有所簡化。此外,藉由針對偵測到摩擦音或破擦音的起始段的時間的前的預定時間周期及針對偵測到摩擦音或破擦音的起始段的時間的后的預定時間周期,使用相同的提高的時間分辨率,信號傳遞工作量有所減少。
[0026]在較佳實施例中,音頻編碼器配置為調整帶寬擴展信息提供器所使用的時間分辨率,以使得至少針對第一子時間間隔、第二子時間間隔及第三子時間間隔,以相同的提高的時間分辨率提供帶寬擴展信息的集合,其中第一子時間間隔緊接在第二子時間間隔的前,其中在第二子時間間隔內偵測到摩擦音或破擦音的起始段,且其中第三子時間間隔緊跟在第二子時間間隔的后。因此,當提供帶寬擴展信息的集合時,用相同的時間分辨率處理「嵌有」期間偵測到摩擦音或破擦音的起始段的第二子時間間隔的第一子時間間隔及第三子時間間隔。因此,當提供帶寬擴展信息時,以高的時間分辨率處置摩擦音或破擦音的起始段的實質部分,或甚至摩擦音或破擦音的整個起始段。此外,藉由針對第一子時間間隔、第二子時間間隔及第三子時間間隔使用相同的(提高的,或「高的」)時間分辨率,編碼及解碼變簡單,且信號傳遞管理負擔(用于信號傳遞時間分辨率)變小。
[0027]在較佳實施例中,偵測器配置為偵測摩擦音或破擦音的終止段。在此種情況下,音頻編碼器配置為調整帶寬擴展信息提供器所使用的時間分辨率,以使得至少針對偵測到摩擦音或破擦音的終止段的時間的前的預定時間周期及針對偵測到摩擦音或破擦音的終止段的時間的后的預定時間周期,以提高的時間分辨率提供帶寬擴展信息。根據本發明的此實施例基于如下發現,針對摩擦音或破擦音的終止段,亦應以高的時間分辨率執行帶寬擴展。已發現,人類聽覺實際上對于摩擦音或破擦音的終止段亦敏感,因此值得耗費比特率管理負擔以高的時間分辨率(關于帶寬擴展信息)編碼摩擦音或破擦音的終止段。此外,已發現,在摩擦音或破擦音的終止段期間以低的時間分辨率提供帶寬擴展信息通常會導致摩擦音或破擦音的終止段期間不當的尖銳聽覺感覺,此感覺被視為假影。
[0028]此外,應注意,關于響應于摩擦音或破擦