語音合成數據庫停頓信息自動標注方法及系統的制作方法
【技術領域】
[0001 ]本發明涉及語音合成領域,特指一種語音合成數據庫停頓信息自動標注方法及系統。
【背景技術】
[0002]語音合成是指將輸入的文本信息轉化為聲音的系統,語音合成系統分為兩個模塊,前端處理模塊和后端模塊。在前端中對文本進行分析,輸出帶有發音以及分詞、詞性等和韻律停頓相關的信息。后端模塊利用前端模塊的的輸出信息和原始語音提出的特征,分別訓練倒譜參數模型,基頻參數模型和時長參數模型。參數語音合成系統的優勢是模型小、方便合成定制、利于離線實現的場景。
[0003]參數語音合成系統通常是基于標準語音數據庫,數據庫中包含語音文件和相應的標注信息文件。標注信息分為三類,發音信息,韻律信息,時長切分信息。這些信息需要專業的標注人員通過人工聽語音進行判斷標注,尤其是時長切分信息,時長映射信息的標注包括語音中停頓的判斷和音素與語音時間的映射關系。
[0004]若數據庫中的數據量龐大,這樣靠人工聽進行停頓的標注一方面使得數據庫建立的周期長,且成本高,經濟效益較差。
【發明內容】
[0005]本發明的目的在于克服現有技術的缺陷,提供一種語音合成數據庫停頓信息自動標注方法及系統,解決現有技術中靠人工聽來標注停頓的方法存在的周期長、成本高、且經濟效益差的冋題。
[0006]實現上述目的的技術方案是:
[0007]本發明一種語音合成數據庫停頓信息自動標注方法,包括:
[0008]獲取語音合成數據庫中待標注的語音數據;
[0009]將所述語音數據轉化為語音特征幀序列并判斷所述語音特征幀序列中的停頓信息,形成停頓信息的預測位置;
[0010]從語音合成數據庫中獲取與所述語音數據對應的文本數據;
[0011 ]利用自動切分對齊方法計算所述語音數據和所述文本數據在時間軸上的映射關系;
[0012]基于所述映射關系將所述停頓信息插入到所述文本數據中以形成標注文本信息;以及
[0013]利用自動切分對齊方法計算所述語音數據和所述標注文本信息在時間軸上的映射關系。
[0014]本發明實現了自動標注數據中語音數據的停頓信息,節省了靠人工聽來標注停頓的成本和時間,周期短,還具有良好的經濟效益。通過自動切分對齊方法能夠準確的將停頓信息加入到文本數據中,具有標注準確率高的優勢。
[0015]本發明語音合成數據庫停頓信息自動標注方法的進一步改進在于,將所述語音數據轉化為語音特征幀序列并判斷所述語音特征幀序列中的停頓信息,形成停頓信息的預測位置,包括:
[0016]以設定的幀長和幀移對所述語音數據進行分幀處理,獲得對應的語音特征幀序列;
[0017]計算所述語音特征幀序列中每一語音特征幀的能量值,形成對應所述語音特征幀序列的語音特征幀能量序列;
[0018]平滑所述語音特征幀能量序列,設定能量閾值,判斷得出所述語音特征幀能量序列中低于所述能量閾值的能量值的起始幀和結束幀,形成預判的停頓片段;
[0019]設定停頓時長,比較所述預判的停頓片段與所述停頓時長的大小,若所述預判的停頓片段大于所述停頓時長,則判斷所述預判的停頓片段為停頓信息。
[0020]本發明語音合成數據庫停頓信息自動標注方法的進一步改進在于,利用自動切分對齊方法計算所述語音數據和所述文本數據在時間軸上的映射關系,包括:
[0021]提取所述語音合成數據庫中多條語音數據的頻譜特征參數;
[0022]利用所提取的頻譜特征參數和與多條語音數據對應的文本數據迭代訓練頻譜特征聲學模型;
[0023]計算對應待標注的語音數據的語音頻譜特征參數和所述頻譜特征聲學模型之間的相似度,以找到與待標注的語音數據對應的所述文本數據中的音素序列的切分路徑。
[0024]本發明語音合成數據庫停頓信息自動標注方法的進一步改進在于,基于所述映射關系將所述停頓信息插入到所述文本數據中以形成標注文本信息,包括:
[0025]根據所述音素序列的切分路徑在時間軸上的位置信息,將所述停頓信息按照時間軸的順序插入相應的音素間。
[0026]本發明語音合成數據庫停頓信息自動標注方法的進一步改進在于,還包括:對所形成的標注文本信息進行糾錯處理,所述糾錯處理包括:
[0027]遍歷所述標注文本信息,查找所述標注文本信息中相鄰的聲母音素和韻母音素間是否存有停頓信息,若存有停頓信息,則刪除所述停頓信息。
[0028]本發明一種語音合成數據庫停頓信息自動標注系統,包括:
[0029]語音獲取單元,與語音合成數據庫連接,用于從所述語音合成數據庫中讀取待標注的語音數據;
[0030]停頓預測單元,與所述語音獲取單元連接,用于將所述語音獲取單元讀取的語音數據轉化為語音特征幀序列并判斷得出所述語音特征幀序列中的停頓信息以形成停頓信息的預測位置;
[0031 ]文本獲取單元,與所述語音合成數據庫連接,用于從所述語音合成數據庫中獲取與所述語音數據對應的文本數據;
[0032]自動切分單元,與所述語音獲取單元和所述文本獲取單元連接,利用自動切分對齊方法計算得出所述語音數據和所述文本數據在時間軸上的映射關系;
[0033]停頓標注單元,與所述停頓預測單元、所述文本獲取單元、和所述自動切分單元連接,用于基于所述自動切分單元計算出的映射關系將所述停頓信息插入到所述文本數據中以形成標注文本信息;
[0034]所述自動切分單元還利用自動切分對齊方法計算所述語音數據和所述標注文本信息在時間軸上的映射關系。
[0035]本發明語音合成數據庫停頓信息自動標注系統的進一步改進在于,所述停頓預測單元包括分幀模塊、能量計算模塊、閾值存儲模塊、以及比較判斷模塊;
[0036]所述分幀模塊用于以設定的幀長和幀移對所述語音數據進行分幀處理以得到對應的語音特征幀序列;
[0037]所述能量計算模塊與所述分幀模塊連接,用于對所述語音特征幀序列中每一語音特征幀進行計算得出能量值以形成與所述語音特征幀序列相對應的語音特征幀能量序列;
[0038]所述閾值存儲模塊內存儲有設定的能量閾值和停頓時長;
[0039]所述比較判斷模塊與所述能量計算模塊和所述閾值存儲模塊連接,用于判斷得出所述語音特征幀能量序列中低于所述能量閾值的能量值的起始幀和結束幀以形成預判的停頓片段,再比較所述預判的停頓片段與所述停頓時長的大小,若所述預判的停頓片段大于所述停頓時長,則判斷所述預判的停頓片段為停頓信息。
[0040]本發明語音合成數據庫停頓信息自動標注系統的進一步改進在于,所述自動切分單元包括頻譜提取模塊、聲學模型模塊、以及切分模塊;
[0041 ]所述頻譜提取模塊用于從所述語音合成數據庫的語音數據中提取頻譜特征參數;
[0042]所述聲學模型模塊與所述頻譜提取模塊連接,利用所提取的頻譜特征參數和與所述語音合成數據庫的語音數據對應的文本數據迭代訓練頻譜特征聲學模型并存儲;
[0043]所述切分模塊與所述頻譜提取模塊和所述聲學模型模塊連接,用于計算對應待標注的語音數據的語音頻譜特征參數和所述頻譜特征聲學模型之間的相似度,以找到與待標注的語音數據對應的所述文本數據中的音素序列的切分路徑。
[0044]本發明語音合成數據庫停頓信息自動標注系統的進一步改進在于,所述停頓標注單元根據所述音素序列的切分路徑在時間軸上的位置信息,將所述停頓信息按照時間軸的順序插入相應的音素間。
[0045]本發明語音合成數據庫停頓信息自動標注系統的進一步改進在于,還包括有糾錯單元,所述糾錯單元與所述文本獲取單元、所述自動切分單元、以及所述停頓標注單元連接,用于對所述停頓標準單元所形成標注文本信息進行糾錯,所述糾錯單元遍歷所述標注文本信息,以查找出所述標注文本信息中相鄰的聲母音素和韻母音素間是否存有停頓信息,若存有停頓信息,則刪除所述停頓信息。
【附圖說明】
[0046]圖1為本發明語音合成數據庫停頓信息自動標注系統的系統圖。
[0047]圖2為本發明語音合成數據庫停頓信息自動標注方法的流程圖。
【具體實施方式】
[0048]下面結合附圖和具體實施例對本發明作進一步說明。
[0049]本發明提供了一種語音合成數據庫