專利名稱:提取語音信號的韻律特征的方法和裝置的制作方法
技術領域:
本發明涉及語音信號處理領域,更具體地涉及一種提取語音信號的韻律特征的方 法和裝置。此外,本發明還涉及一種將所述韻律特征與傳統聲學特征結合使用的方法。
背景技術:
韻律特征又叫“超音質特征”或“超音段特征”,發音人的聲調、語調、重音、音長、音 強和音高,說話風格、口音等韻律特征都是超音段方面的特征成分。目前在語言學和語音合 成方面的研究居多,主要集中在重音、音長、音高方面,通常采用基頻,時長來進行描述。例如,李曉慶等人所著的“重讀與信息結構對語篇理解加工的影響”(心理學報, 2005年01期)和楊玉芳等人所著的“韻律特征研究”(心理科學進展,2006年第14卷,第 04期)從知覺、認知和語料庫的角度對漢語韻律特征進行了一系列的研究。在知覺方面, 用實驗心理學和知覺標注的語料庫分析方法,分析知覺可以區分的韻律層級及相關的聲學 線索,研究結果證明語篇中知覺可以區分的韻律邊界是小句、句子和段落,及其知覺相關的 聲學線索;在認知方面,研究了韻律特征在語篇理解中的作用,用實驗心理學方法和腦電指 標研究韻律對語篇信息整合和指代理解的影響,揭示其作用的認知和神經機制;在語料庫 方面,在標注的語料庫的基礎上,用常規統計方法研究語句常規重音分布規律、語篇信息結 構與重音的關系、并用決策樹方法研究根據文本信息確定韻律短語邊界和焦點的規則。因 此,該研究證明了韻律特征在感知層的影響,但是該研究是從語言學文法分析出發,因此不 但受被研究語種的限制,而且沒有對如何提取韻律特征這一方面進行描述。此外,田嵐等人所著的“一種數據驅動的漢語成句語音韻律特征產生模型的研 究”(控制與決策,2003年18卷6期)針對漢語發音特點,從基頻角度進行研究,對大量 自然漢語語句基頻輪廓數據進行了統計和分析,輔以時長和增益參數,研究了韻律在漢語 的語氣、短語節奏、韻律詞聲調及輕重音等方面的信息。該研究可以按語言知識分類訓練 和標注各種參數。但是得到的節奏、輕重、語氣等信息很難和目前語音信號處理中主流的 聲學特征,如 MFCC (Mel Frequency Cepstral Coeff icient,美爾倒譜系數)、LPCC (Linear Prediction Cepstrum Coefficient,線性予頁測倒譜系數)、LSF (Line Spectrum Frequency, 線譜頻率)等很好地結合起來。另外,蔡蓮紅等人所著的“漢語韻律特征的可計算性研究”(第五屆全國現代語音 學術會議論文集,2001年)研究了基頻的量化表示,基頻均值和基頻調域的感知試驗,研究 結果表明,改變調域對聽感的影響沒有改變均值的效果明顯;同時,還采用基頻、時長、調域 作為評價一個音節的基本參數,對重音進行了較為詳細的研究。研究雖然也嘗試了韻律的 可計算性研究,但是試驗還是建立在語言學分析的基礎上的,而且僅僅用基頻、時長和信號 幅度對重音方面進行了分析,因此,這樣的重音表征需要人工的標注數據,不能自動生成, 而且也不能和MFCC、LPCC、LSF等聲學特征結合使用。如何對韻律特征進行表征,而且自動計算,并能夠和目前語音信號處理中主流的 聲學特征,如MFCC、LPCC、LSF等參數很好地結合起來,是目前韻律研究的一個難點,也是目前迫切需要解決的一個問題。
發明內容
在下文中給出了關于本發明的簡要概述,以便提供關于本發明的某些方面的基本 理解。但是,應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖用來確定 本發明的關鍵性部分或重要部分,也不是意圖用來限定本發明的范圍。其目的僅僅是以簡 化的形式給出關于本發明的某些概念,以此作為稍后給出的更詳細描述的前序。鑒于現有技術的上述情形,本發明的目的是提供一種提取語音信號的韻律特征的 方法和裝置、以及將所述韻律特征與傳統聲學特征結合使用的方法,其從不同頻段給人們 的不同聽覺感受方面出發,針對不同頻段提取相應的韻律特征。所述韻律特征無需人工標 注,能夠自動生成,并能夠和語音信號處理中主流的聲學特征,如MFCC、LPCC、LSF等參數很 好地結合使用,并應用到語音信號處理的各個領域中,如說話人識別、說話人聚類等。為了實現上述目的,根據本發明的一個方面,提供了一種提取語音信號的韻律特 征的方法,其包括對語音信號進行分幀;對語音幀進行時域到頻域的變換;以及針對不同 的頻段,計算相應的韻律特征。根據本發明的另一個方面,還提供了一種提取語音信號的韻律特征的裝置,其包 括分幀單元,用于對語音信號進行分幀;時域到頻域變換單元,用于對語音幀進行時域到 頻域的變換;以及韻律特征計算單元,用于針對不同的頻段,計算相應的韻律特征。根據本發明的另一個方面,還提供了一種將所述韻律特征與傳統聲學特征結合 使用的方法,其包括對每一幀提取傳統聲學特征;針對所述韻律特征,分別計算當前幀特 征、當前幀特征與前一幀特征的差值以及當前幀特征與當前幀所在段特征均值的差值;提 取每一幀的基頻、該基頻與前一幀基頻的差值、該基頻與當前幀所在段基頻均值的差值;以 及將上述各個特征相結合并應用于說話人識別中。根據本發明的另一個方面,還提供了用于實現上述提取語音信號的韻律特征的方 法和/或將所述韻律特征與傳統聲學特征結合使用的方法的計算機程序產品。根據本發明的另一個方面,還提供了計算機可讀介質,其上記錄有用于實現上述 上述提取語音信號的韻律特征的方法和/或將所述韻律特征與傳統聲學特征結合使用的 方法的計算機程序代碼。根據本發明的上述技術方案,可以有效地提取能夠與傳統聲學特征無障礙結合的 韻律特征。
本發明可以通過參考下文中結合附圖所給出的詳細描述而得到更好的理解,其中 在所有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下 面的詳細說明一起包含在本說明書中并形成說明書的一部分,用來進一步舉例說明本發明 的優選實施例和解釋本發明的原理和優點。在附圖中圖1示出了根據本發明實施例的提取語音信號的韻律特征的方法的總體流程圖;圖2示出了根據本發明的一個具體實施例的計算厚度特征的過程的流程圖;圖3示出了根據本發明的一個具體實施例的計算力度特征的過程的流程圖4示出了根據本發明的一個具體實施例的計算層次特征的過程的流程圖;圖5示出了根據本發明實施例的將本發明的韻律特征與傳統聲學特征結合使用 的方法的流程圖;圖6示出了根據本發明實施例的提取語音信號的韻律特征的裝置的總體框圖;以 及圖7示出了在其中可以實現根據本發明實施例的提取語音信號的韻律特征的方 法和/或裝置的信息處理設備的示例性結構的框圖。本領域技術人員應當理解,附圖中的元件僅僅是為了簡單和清楚起見而示出的, 而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對于其它元件放大了,以 便有助于提高對本發明實施例的理解。
具體實施例方式在下文中將結合附圖對本發明的示范性實施例進行描述。為了清楚和簡明起見, 在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發任何這種實際實施 例的過程中必須做出很多特定于實施方式的決定,以便實現開發人員的具體目標,例如,符 合與系統及業務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有 所改變。此外,還應該了解,雖然開發工作有可能是非常復雜和費時的,但對得益于本公開 內容的本領域技術人員來說,這種開發工作僅僅是例行的任務。在此,還需要說明的一點是,為了避免因不必要的細節而模糊了本發明,在附圖中 僅僅示出了與根據本發明的方案密切相關的裝置結構和/或處理步驟,而省略了與本發明 關系不大的其它細節。首先將參考附圖詳細描述根據本發明實施例的提取語音信號的韻律特征的方法。圖1示出了根據本發明實施例的提取語音信號的韻律特征的方法的總體流程圖。如圖1所示,根據本發明實施例的韻律特征提取方法包括分幀步驟S110、時域到 頻域變換步驟S120、以及韻律特征計算步驟S130。首先,在分幀步驟S110,對語音信號進行分幀,以便在后續處理中以語音幀為單位 進行處理。在此,優選地,幀長可以為20ms,幀移可以為10ms。可選地,在分幀之前可以對 輸入的語音數據進行有聲段檢測,然后以每個有聲段作為處理對象進行分幀。此外,優選 地,在分幀之后,還可以對所得到的語音幀進行加窗處理,以便在后續處理中以經過加窗的 語音幀為處理對象。接下來,在時域到頻域變換步驟S120,對經過分幀所得到的語音幀進行時域到頻 域的變換。優選地,可以通過傅立葉變換對語音幀進行時域到頻域的變換。最后,針對不同的頻段,計算相應的韻律特征。優選地,針對不同的頻段計算相應 的韻律特征可以包括以下處理中的一項或多項針對第一頻段如低于150Hz的低音段,計 算語音信號的厚度特征,其中所述厚度特征基于在第一頻段的頻域能量;針對第二頻段如 150Hz到500Hz的中低音段,計算語音信號的力度特征,其中所述力度特征基于在第二頻段 的時域能量;以及針對第三頻段如500Hz到5KHz的中高音段,計算語音信號的層次特征,其 中所述層次特征基于在第三頻段的時域包絡。圖2示出了根據本發明的一個具體實施例的計算厚度特征的過程的流程圖。其中,所述厚度特征的計算是針對第一頻段進行的。如圖2所示,首先,在步驟S210,針對經過時域到頻域變換所得到的信號,確定第 一頻段所對應的譜單元。例如,在第一頻段為0-150HZ的情況下,若信號采樣率為16KHz, 作512點傅立葉變換,則所對應的譜單元數P = 150/(800(V256),約為5,則第一頻段所對 應的譜單元為[1,5]。然后,在步驟S220,基于第一頻段上各個譜單元對應的幅度譜來計算厚度特征。例
如,可以使用公式五二 log⑶I2來計算所述厚度特征,其中η為對數的底,可以取值
為2、4、10等,P為第一頻段上所有譜單元的個數,ρ為各個譜單元的索引,|Χ(ρ) I為譜單元
P的幅度譜。可替選地,也可以使用公式
權利要求
1. 一種提取語音信號的韻律特征的方法,包括 對語音信號進行分幀; 對語音幀進行時域到頻域的變換;針對不同的頻段,計算相應的韻律特征;以及其中,針對不同的頻段計算相應的韻律特 征包括以下處理中的一項或多項針對第一頻段計算語音信號的厚度特征,其中所述厚度特征基于在第一頻段的頻域能量;針對第二頻段計算語音信號的力度特征,其中所述力度特征基于在第二頻段的時域能 量;以及針對第三頻段計算語音信號的層次特征,其中所述層次特征基于在第三頻段的時域包
2.根據權利要求1所述的方法,其中,針對第一頻段計算語音信號的厚度特征進一步 包括基于第一頻段上所有譜單元對應的幅度譜來計算所述厚度特征。
3.根據權利要求1所述的方法,其中,針對第二頻段計算語音信號的力度特征進一步 包括針對第二頻段,通過逆濾波得到該頻段的時域信號;以及 基于所述時域信號的各個采樣點的振幅來計算所述力度特征。
4.根據權利要求1所述的方法,其中,針對第三頻段計算語音信號的層次特征進一步 包括針對第三頻段,通過逆濾波得到該頻段的時域信號;對逆濾波之后得到的時域信號進行希爾波特變換,以得到對應的希爾波特變換信號;以及基于所述時域信號和所述希爾波特變換信號來計算所述層次特征。
5.根據權利要求1所述的方法,其中,所述第一頻段的范圍為0-150HZ,所述第二頻段 的范圍為150-500HZ,所述第三頻段的范圍為500Hz-5KHz。
6.根據權利要求1所述的方法,其中對語音幀進行時域到頻域的變換是通過傅立葉變 換來實現的。
7.根據權利要求1所述的方法,其中,針對不同的頻段計算相應的韻律特征是以每幀 為基礎進行的;以及所述方法進一步包括針對每個韻律特征,計算當前幀特征、當前幀特 征與前一幀特征的差值以及當前幀特征與當前幀所在段特征均值的差值。
8.一種將根據權利要求1所述的方法提取的韻律特征與傳統聲學特征結合使用的方 法,包括對每一幀提取傳統聲學特征;針對所述韻律特征,分別計算當前幀特征、當前幀特征與前一幀特征的差值以及當前 幀特征與當前幀所在段特征均值的差值;提取每一幀的基頻、該基頻與前一幀基頻的差值、該基頻與當前幀所在段基頻均值的 差值;以及將上述各個特征相結合并應用于說話人識別中。
9.根據權利要求8所述的方法,其中所述傳統聲學特征包括美兒倒譜系數、線性預測倒譜系數和線譜頻率中的一種或多種。
10.一種提取語音信號的韻律特征的裝置,包括分幀單元,用于對語音信號進行分幀;時域到頻域變換單元,用于對語音幀進行時域到頻域的變換;韻律特征計算單元,用于針對不同的頻段,計算相應的韻律特征;以及其中,韻律特征 計算單元進一步包括以下單元中的一個或多個厚度特征計算單元,用于針對第一頻段計算語音信號的厚度特征,其中所述厚度特征 基于在第一頻段的頻域能量;力度特征計算單元,用于針對第二頻段計算語音信號的力度特征,其中所述力度特征 基于在第二頻段的時域能量;以及層次特征計算單元,用于針對第三頻段計算語音信號的層次特征,其中所述層次特征 基于在第三頻段的時域包絡。
11.根據權利要求10所述的裝置,其中,所述厚度特征計算單元基于第一頻段上所有 譜單元對應的幅度譜來計算所述厚度特征。
12.根據權利要求10所述的裝置,其中,所述力度特征計算單元針對第二頻段,通過逆 濾波得到該頻段的時域信號,并且基于所述時域信號的各個采樣點的振幅來計算所述力度 特征。
13.根據權利要求10所述的裝置,其中,所述層次特征計算單元針對第三頻段,通過逆 濾波得到該頻段的時域信號,對所述時域信號進行希爾波特變換以得到對應的希爾波特變 換信號,并且基于所述時域信號和所述希爾波特變換信號來計算所述層次特征。
14.根據權利要求10所述的裝置,其中,所述第一頻段的范圍為0-150HZ,所述第二頻 段的范圍為150-500HZ,所述第三頻段的范圍為500Hz-5KHz。
15.根據權利要求10所述的裝置,其中所述時域到頻域變換單元通過傅立葉變換來對 語音幀進行時域到頻域的變換。
16.根據權利要求10所述的裝置,其中,所述韻律特征計算單元逐幀地計算所述韻律 特征,以及所述韻律特征計算單元針對每個韻律特征,計算當前幀特征、當前幀特征與前一 幀特征的差值以及當前幀特征與當前幀所在段特征均值的差值。
全文摘要
本發明公開了一種提取語音信號的韻律特征的方法和裝置,其中該方法包括對語音信號進行分幀;對語音幀進行時域到頻域的變換;以及針對不同的頻段,提取相應的韻律特征。根據本發明的上述技術方案,可以有效地提取能夠與傳統聲學特征無障礙結合的韻律特征。
文檔編號G10L15/02GK101996628SQ20091016851
公開日2011年3月30日 申請日期2009年8月21日 優先權日2009年8月21日
發明者劉昆, 吳偉國 申請人:索尼株式會社