基于大語料庫的語音合成方法和裝置制造方法
【專利摘要】本發明公開了一種基于大語料庫的語音合成方法和裝置。所述基于大語料庫的語音合成方法包括:利用韻律結構預測模型對輸入的文本進行韻律結構預測處理,給出至少一個備選韻律邊界劃分方案;根據所述至少一個備選韻律邊界劃分方案中韻律單元在語音語料庫中的結構概率信息,確定韻律邊界劃分方案;根據所確定的韻律邊界劃分方案進行語音合成。本發明實施例提供的基于大語料庫的語音合成方法和裝置提高了語音合成的自然度和靈活性。
【專利說明】基于大語料庫的語音合成方法和裝置
【技術領域】
[0001]本發明實施例涉及文語轉換【技術領域】,尤其涉及一種基于大語料庫的語音合成方法和裝置。
【背景技術】
[0002]語音是人機交流最習慣、最自然的方式。將文字輸入轉成語音輸出的技術稱為文語轉換(Text-to-Speech,TTS)或語音合成技術。它涉及聲學、語言學、數字信號處理多媒體技術等多個領域,是中文信息處理領域的一項前沿技術。
[0003]圖1示出了現有技術提供的語音合成系統的信號流。參見圖1,在訓練階段,可以依據對文本語料庫101和語音語料庫102中的標注數據訓練得到韻律結構預測模型103、聲學模型104以及候選單元105。其中,所述韻律結構預測模型103為語音合成階段中的韻律結構預測107提供參考,所述聲學模型104為語音合成109提供依據,而候選單元105是在波形拼接式的語音合成109中用于調取常用的候選波形的軟件單元。
[0004]在語音合成階段,首先對輸入的文本進行文本分析106,然后根據韻律結構預測模型103對輸入文本的進行韻律結構預測107,再根據不同的語音合成模式,也即參數合成式語音合成或者波形拼接式語音合成進行參數預測/單元選擇108,最后進行最終的語音合成 109。
[0005]采用現有的語音合成系統進行韻律結構預測,已經能夠針對一定的輸入文本得到該輸入文本的確定的韻律層級結構。但是,在人們實際的交流中,語音的韻律層級結構往往受到多種因素的影響。圖2是真人語音中韻律結構的影響因素的原理示意圖。參見圖2,真人語音的韻律結構可能會受到說話人特征、感情、基本頻率和句子的意思的影響。以說話人特征為例,年齡在70歲的男人說話的韻律結構就與年齡在30歲的女人說話的韻律結構不同。
[0006]因此,按照統一的韻律結構預測模型103預測得到的句子的韻律結構的靈活性不好,造成語音合成系統最終合成的語音的自然度不高。
【發明內容】
[0007]有鑒于此,本發明實施例提出一種基于大語料庫的語音合成方法和裝置,以提高合成語音的自然度和靈活性。
[0008]第一方面,本發明實施例提供了一種基于大語料庫的語音合成方法,所述方法包括:
[0009]利用韻律結構預測模型對輸入的文本進行韻律結構預測處理,給出至少兩個備選韻律邊界劃分方案;
[0010]根據所述至少兩個備選韻律邊界劃分方案中韻律單元在語音語料庫中的結構概率信息確定韻律邊界劃分方案;
[0011]根據所確定的韻律邊界劃分方案進行語音合成。[0012]第二方面,本發明實施例提供了一種基于大語料庫的語音合成裝置,所述裝置包括:
[0013]預測處理模塊,用于利用韻律結構預測模型對輸入的文本進行韻律結構預測處理,給出至少兩個備選韻律邊界劃分方案;
[0014]邊界劃分模塊,用于根據所述至少兩個備選韻律邊界劃分方案中韻律單元在語音語料庫中的結構概率信息確定韻律邊界劃分方案;
[0015]語音合成模塊,用于根據所確定的韻律邊界劃分方案進行語音合成。
[0016]本發明實施例提供的基于大語料庫的語音合成方法和裝置,通過利用韻律結構預測模型對輸入的文本進行韻律結構預測處理,給出至少兩個備選韻律邊界劃分方案,再根據所述至少兩個備選韻律邊界劃分方案中韻律單元在語音語料庫中的結構概率信息確定韻律邊界劃分方案,最后根據所確定的韻律邊界劃分方案進行語音合成,提高了合成語音的自然度和靈活性。
【專利附圖】
【附圖說明】
[0017]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯:
[0018]圖1是現有技術提供的語音合成系統的信號流圖;
[0019]圖2是現有技術真人語音中韻律結構的影響因素的原理示意圖;
[0020]圖3是本發明第一實施例提供的基于大語料庫的語音合成方法的流程圖;
[0021]圖4是本發明實施例所適用的漢語句子的韻律結構示意圖;
[0022]圖5是本發明第一實施例提供的文本語料庫中韻律標注數據的示意圖;
[0023]圖6是實施本發明第一實施例提供的運行基于大語料庫的語音合成方法的語音合成系統的信號流圖;
[0024]圖7是本發明第二實施例提供的基于大語料庫的語音合成方法中邊界劃分的流程圖;
[0025]圖8是本發明優選實施例提供的基于大語料庫的語音合成方法的流程圖;
[0026]圖9是本發明第三實施例提供的基于大語料庫的語音合成裝置的結構圖。
【具體實施方式】
[0027]下面結合附圖和實施例對本發明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅用于解釋本發明,而非對本發明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發明相關的部分而非全部內容。
[0028]圖3至圖6示出了本發明的第一實施例。
[0029]圖3是本發明第一實施例提供的基于大語料庫的語音合成方法的流程圖。所述基于大語料庫的語音合成方法運行在專門用于語音合成的計算裝置上。所說專門用于語音合成的計算裝置包括個人電腦、服務器等通用式計算機,還包括各種用于語音合成的嵌入式計算機。所述基于大語料庫的語音合成方法包括:
[0030]S310,利用韻律結構預測模型對輸入的文本進行韻律結構預測處理,給出至少兩個備選韻律邊界劃分方案。[0031]語音合成系統在組成功能上可分為文本分析、韻律處理和聲學處理三大模塊。文本分析模塊主要模擬人對自然語言的理解過程,使計算機對輸入的文本能完全理解并給出后兩部分所需的各種發音提示。韻律處理為合成語音規劃出音段特征,是合成語音能正確表達語義,聽起來更加自然。聲學處理根據前兩部分處理結果的要求輸出語音,即合成語
曰?
[0032]對輸入文本的韻律處理離不開對輸入文本的韻律結構預測。一般認為,漢語的韻律結構包括韻律詞、韻律短語和語調短語三個層級。圖4是漢語句子的韻律結構示意圖。漢語句子由很多語法詞401前后銜接構成;一個或者多個語法詞401共同構成了韻律詞402 ;一個或多個韻律詞402共同構成了韻律短語403 ;然后一個或多個韻律短語403共同構成了語調短語404。
[0033]韻律詞402的基本特點是:(I)由一個音步構成;(2) —般為三個音節以下的語法詞或詞組;(3)跨度為1-3個音節,大多數為2-3個音節,例如連詞、介詞等;(4)具有類似于語法詞的連調模式和詞重音模式,內部不出現節奏邊界;(5)韻律詞402可以組成韻律短語403。
[0034]韻律短語403的主要特點是:(I)由一個或幾個韻律詞402組成;(2)跨度為7_9個音節;(3)內部各個韻律詞402之間可能出現韻律上的節奏分界,主要表現為韻律詞末尾音節的延長和韻律詞之間的音高重新設置;(4)韻律短語403的調階走勢基本上呈降勢;
(5)具有相對穩定的短語重音配置模式,即與句法結構相關的常規重音模式。
[0035]語調短語404的主要特點是:(I)可能多音步;(2)內部可能包含不止一個韻律短語語調模式和韻律短語重 音模式,因而會出現相關的節奏分界,主要表現為韻律短語末尾音節的延長和韻律短語之間的音高重新設置;(3)具有取決于不同語氣或句型的語調模式,即具有特定的調階走勢,例如陳述句降,一般疑問句升,感嘆句調階總體抬高。
[0036]對輸入文本的這三個層次的識別,也就是對輸入文本的韻律結構預測決定了合成語音在句子中間的停頓特征。一般來說,系統的輸入文本中存在與韻律層次一一對應的三個停頓級別,且韻律層次越高,其邊界出的停頓特征就越明顯;韻律層級越低,其邊界處的停頓特征就模糊。而合成語音的停頓特征對其自然度有很大的影響。所以,對輸入文本的韻律結構預測很大程度上影響著最終的合成語音的自然度。
[0037]對輸入文本進行韻律結構預測的結果是韻律邊界劃分方案。依據不同的韻律邊界劃分方案進行語音合成,則合成語音的停頓點和停頓時長等參數不同。所述韻律邊界劃分方案包括預測得到的韻律詞邊界、韻律短語邊界以及語調短語邊界。也就是說,所述韻律邊界劃分方案中包括對韻律詞、韻律短語以及語調短語的邊界的劃分。
[0038]應該理解的是,對相同的輸入文本進行韻律結構預測,可能輸出對所述輸入文本的不同的韻律邊界劃分方案。優選的,可以通過輸出對輸入文本的較優的多個韻律邊界劃分方案來獲得對所述輸入文本的不同的韻律邊界劃分方案。
[0039]在對輸入文本進行韻律結構預測的過程中,一般認為語調短語是非常容易識別出來的,因為語調短語基本都是由標點符號分隔開的,與此同時對于韻律詞的預測可以依靠總結規則的方法,而且已經基本滿足使用的要求。相比較之下,對韻律短語的預測便成為了韻律結構預測中的難點。因此,對輸入文本的韻律結構預測主要是要解決對韻律短語邊界的預測。[0040]對輸入文本進行韻律結構預測的依據是韻律結構預測模型。所述韻律結構預測模型是通過對文本語料庫和語音語料庫中的標注數據進行統計學習而生成的。優選的,可以利用決策樹算法、條件隨機場算法、最大熵模型算法或者隱馬爾科夫模型算法對文本語料庫和語音語料庫中的標注數據進行統計學習,從而生成所述韻律結構預測模型。
[0041]所述文本語料庫和所述語音語料庫是用于訓練所述韻律結構預測模型的兩個基礎語料庫。其中,所述文本語料庫的存儲對象是文本數據,而語音語料庫的存儲對象是語音數據。所述文本語料庫和所述語音語料庫中不僅存儲有基礎的語料,還對應的存儲有這些語料的標注數據。所述語料的標注數據至少包括對語料的韻律層級結構的標注數據。
[0042]以文本語料庫為例說明對語料的標注數據的結構。圖5是本發明第一實施例提供的文本語料庫中韻律標注數據的示意圖。參見圖5,所述文本語料庫中不僅存儲有語料501,還存儲有對該語料的韻律結構的標注數據502。所述語料501以句子為單位進行存儲,在這些句子的內部劃分韻律詞、韻律短語以及語調短語。所述語料的標注數據502是對語料中韻律詞的末尾是何種韻律邊界的標注。在對語料的韻律結構的標注數據中,BO表示該韻律詞的末尾是韻律詞邊界表示該韻律詞的末尾是韻律短語邊界;B2表示該韻律詞的末尾是語調短語邊界。
[0043]在本實施例中,接收到所述輸入文本后,利用所述韻律結構預測模型對所述輸入文本進行韻律結構預測,獲取對所述輸入文本的至少兩個韻律邊界劃分方案。
[0044]S320,根據所述至少兩個備選韻律邊界劃分方案中韻律單元在語音語料庫中的結構概率信息確定韻律邊界劃分方案。
[0045]在語音合成中,輸入文本可以看作是不同韻律單元的集合。也就是說,所述輸入文本包括不同的韻律單元。所述韻律單元就是音節,對應于輸入文本中的每個漢字。例如,“我愛北京天安門”的輸入文本包括了韻律單元“門”;“好好學習,天天向上”的輸入文本包括了韻律單元“習”。
[0046]在針對輸入文本給出了不同的韻律邊界劃分方案之后,由于不同的韻律邊界劃分方案所給出的韻律邊界不同,在不同韻律邊界劃分方案中處在相同位置的韻律單元并不相同。
[0047]示例的,對于輸入文本“短短兩周時間上漲的價格超過了過去五年的總和”,如果僅給出韻律短語的劃分邊界,有下面兩種韻律邊界劃分方案:
[0048]短短兩周時間$上漲的價格$超過了過去五年的總和。
[0049]短短兩周時間$上漲的價格超過了 $過去五年的總和。
[0050]在上述兩種韻律邊界劃分方案中,符號“$”表示該韻律邊界劃分方案中韻律短語的邊界??梢钥闯?,在第一種韻律邊界劃分方案中,韻律單元“格”處在該韻律邊界劃分方案的第二個韻律短語的末尾,而在第二種韻律邊界劃分方案中,韻律單元“ 了 ”處在該韻律邊界劃分方案中第二個韻律短語的末尾。
[0051]在本實施例中,將不同韻律單元在所述語音語料庫中的結構概率信息進行比較,并根據比較的結果從至少兩個備選韻律邊界劃分方案中確定最終的韻律邊界劃分方案。其中,所述韻律單元的結構概率信息包括所述韻律單元出現在韻律詞、韻律短語或者語調短語的首部或者尾部的概率。
[0052]在上面的兩種韻律邊界劃分方案的例子中,韻律單元“格”以及韻律單元“了”分別處于第一種韻律邊界劃分方案和第二種韻律邊界劃分方案的末尾。如果在所述語音語料庫中韻律單元“格”處于韻律短語的末尾的概率大于韻律單元“了”處于韻律短語的末尾的概率,則選擇第一種韻律邊界劃分方案為最終的韻律邊界劃分方案;如果在所述語音語料庫中韻律單元“了”處于韻律短語的末尾的概率大于韻律單元“格”處于韻律短語的末尾的概率,則選擇第二中韻律邊界劃分方案為最終的韻律邊界劃分方案。
[0053]S330,根據所確定的韻律邊界劃分方案進行語音合成。
[0054]確定了輸入文本的韻律邊界劃分方案后,根據所確定的韻律邊界劃分方案進行語音合成。所述語音合成包括波形拼接式的語音合成,以及參數合成式的語音合成。
[0055]上述方案中,優選可以首先采用上述方案確定韻律詞的劃分方案,如果需要,可以在韻律詞劃分的基礎上進行韻律短語的劃分,得到多個韻律短語劃分的備選方案,采用類似的方法獲得優選的備選方案,作為最終的韻律邊界劃分方案。
[0056]圖6是實施本發明第一實施例提供的運行基于大語料庫的語音合成方法的語音合成系統的信號流圖。參見圖6,所述運行基于大語料庫的語音合成方法的語音合成系統對輸入文本的語音合成除了包括現有技術中的語音合成系統中包括的對輸入文本的文本分析608,依照韻律結構預測模型對輸入文本的韻律結構預測609,對輸入文本的參數預測/單元選擇610,以及最終的語音合成611,還包括依據韻律單元的在語音語料庫中的結構概率信息對韻律結構進行的韻律修正607。按照修正后的韻律結構進行輸入文本的語音合成,所得到的合成語音的自然度更高。
[0057]本實施例通過對輸入文本進行韻律結構預測,給出至少兩個備選韻律邊界劃分方案,再根據所述至少兩個備選韻律邊界劃分方案中韻律單元的結構概率信息確定韻律邊界劃分方案,最后根據所確定的韻律邊界劃分方案進行語音合成,使得在對輸入文本進行的韻律結構預測參考了韻律單元的在語料庫中的結構概率信息,提高了語音合成的自然度和靈活性。
[0058]圖7示出了本發明的第二實施例。
[0059]圖7是本發明第二實施例提供的基于大語料庫的語音合成方法中邊界劃分的流程圖。所述基于大語料庫的語音合成方法以本發明第一實施例為基礎,進一步的,根據所述至少兩個備選韻律邊界劃分方案中韻律單元在語音語料庫中的結構概率信息確定韻律邊界劃分方案包括:
[0060]S321,根據預先對語音語料庫中數據的統計,獲取所述至少兩個備選韻律邊界劃分方案中韻律單元的結構概率信息。
[0061]在根據韻律單元的位置統計信息確定輸入文本的韻律邊界劃分方案時,首先根據預先對語音語料庫中數據的統計,獲取所述至少兩個備選韻律邊界劃分方案中韻律單元的結構概率信息。其中,所述韻律單元的結構概率信息包括所述韻律單元出現在韻律詞、韻律短語或者語調短語的首部或者尾部的概率。
[0062]所述韻律單元應該選取處于所述備選韻律邊界劃分方案中韻律邊界處的韻律單元。如果所述韻律單元的結構概率信息是指所述韻律單元出現在韻律詞、韻律短語或者語調短語的首部的概率,則需要選取處于所述韻律邊界后面的韻律單元;如果所述韻律單元的結構概率信息是指所述韻律單元出現在韻律詞、韻律短語或者語調短語的尾部的概率,則需要選取處于所述韻律邊界前面的韻律單元。[0063]優選的,所述韻律單元的結構概率信息可以通過下式表達:
[0064]Wi = β X log (m+ηθ) - Y。
[0065]其中,m表示所述韻律單元處于所述語音語料庫中目標韻律層級的目標位置的個數,所述目標韻律層級包括韻律詞、韻律短語以及語調短語,所述目標位置可以是韻律詞、韻律短語或者語調短語的首部或者尾部;n0是個數調整參數,它可以是大于零的任意整數;β是概率縮放系數;Y是概率偏移系數。上式中,參數η0、β以及Y是依據經驗取值的參數,而通過上式計算得到的結果Wi就表示所述韻律單元在所述語音語料庫中的結構概率信息。
[0066]S322,根據所述結構概率信息,利用輸出概率計算函數計算所述至少兩個備選韻律邊界劃分方案的輸出概率。
[0067]優選的,按照預定的加權參數對所述至少兩個備選韻律邊界劃分方案的目標韻律層級概率以及結構概率進行加權平均,確定所述至少兩個備選韻律邊界劃分方案的輸出概率。
[0068]示例的,所述輸出概率計算函數如下式所示:
[0069]f(Wp1Wi) = α XWp+(1-a)Wi。
[0070]其中,α是加權系數,它是一個依經驗取值的參數,其取值在O至I之間;Wp是所述韻律單元的韻律層級概率;Wi是所述韻律單元的結構概率。其中,所述韻律單元的韻律層級概率,也就是Wp是利用韻律結構預測模型對輸入文本進行韻律結構預測時,由所述韻律結構預測模型輸出的對應于所述韻律單元的概率值。它表示輸入文本在所述韻律單元處出現對應層級的韻律邊界的概率。所述對應層級可以是韻律詞層級、韻律短語層級或者語調短語層級。
[0071]所述韻律單元的結構概率是指所述韻律單元出現在語音語料庫的語料中的特定位置的概率。所述結構概率可以通過對語音語料庫中韻律單元的出現位置進行統計而得到。
[0072]優選的,所述韻律單元的結構概率是指所述韻律單元出現在語音語料庫中韻律詞、韻律短語或者語調短語的首部或者尾部的概率。
[0073]所述輸出概率計算函數的計算結果是所述備選韻律邊界劃分方案的輸出概率。
[0074]S323,確定輸出概率最大的備選韻律邊界劃分方案為韻律邊界劃分方案。
[0075]可以認為輸出概率最大的備選韻律邊界劃分方案是依據韻律單元在語音語料庫中的結構概率信息最為適合的韻律邊界劃分方案,因此,將輸出概率最大的備選韻律邊界劃分方案作為最終的韻律邊界劃分方案。
[0076]本實施例通過獲取所述至少兩個備選韻律邊界劃分方案中韻律單元的結構概率信息,再根據所述結構概率信息,利用輸出概率計算函數計算所述至少兩個備選韻律邊界劃分方案的輸出概率,最后確定輸出概率最大的備選韻律邊界劃分方案為最終的韻律邊界劃分方案,完成了根據韻律單元的位置統計信息對韻律邊界劃分方案的確定,提高了語音合成的自然度和靈活性。
[0077]圖8示出了本發明的優選實施例。
[0078]圖8是本發明優選實施例提供的基于大語料庫的語音合成方法的流程圖。參見圖8,所述基于大語料庫的語音合成方法包括:[0079]S810,利用文本語料庫和語音語料庫中的標注數據訓練韻律結構預測模型。
[0080]語音合成系統是將輸入的文本序列轉換成合成語音波形的系統。它把文本文件通過一定的軟硬件轉換,然后又計算機或其他語音系統將語音輸出,并盡可能的使合成的語音向人發出的聲音一樣有較高的可懂度和自然度。
[0081]對輸入文本的語音合成是依據文本語料庫和語音語料庫兩個語料庫中的語料數據而進行的。所述文本語料庫和語音語料庫中都存儲著海量的語料數據。所述文本語料庫中語料數據的格式是文本格式,它是對輸入文本進行文本分析的基礎參照。而語音語料庫中語料數據的格式是音頻格式,它是完成對輸入文本的分析后進行語音合成的基礎數據。
[0082]在分析輸入文本和合成輸出語音兩個步驟之間,還必須對輸入文本的韻律結構進行預測。對輸入文本的韻律結構預測決定了輸出語音的停頓點和停頓時長等聲學參數。對輸入文本的韻律結構預測必須依據訓練好的韻律結構預測模型。
[0083]對所述韻律結構預測模型的訓練是依據文本語料庫和語音語料庫中的標注數據而進行的。所述標注數據對語料的韻律結構進行了標注。在對韻律結構預測模型的訓練過程中,通過對所述文本語料庫和語音語料庫中標注數據的統計學習,所述韻律結構預測模型完善了自身的結構,從而能夠針對輸入文本,對輸入文本的韻律結構進行預測。
[0084]在本實施例中,對文本語料庫和語音語料庫中的標注數據的統計學習包括:依據決策樹算法、條件隨機場算法、最大熵模型算法以及隱馬爾科夫模型算法進行的統計學習。
[0085]S820,通過對韻律單元在語音語料庫中出現位置的統計,獲取所述韻律單元的結構概率信息。
[0086]所述語音語料庫中存儲著海量的語音語料片段。所述語音語料片段有不同的韻律單元組成。例如,所述語音語料庫中存儲有“到達目的地”的語音語料片段,則該語音語料片段包括“到”、“達”、“目”、“的”以及“地”五個韻律單元。
[0087]所述語音語料片段可以是韻律詞、韻律短語或者語調短語。在本實施例中,所述語首語料片段是韻律短語。
[0088]所述結構概率信息是指韻律單元在所述語音語料庫中出現在語音語料片段中設定位置的概率信息。優選的,所述結構概率信息是指韻律單元在所述語音語料庫中出現在所述語音語料片段的首部或者尾部的概率信息。
[0089]可以通過對韻律單元在語音語料庫中的出現位置進行統計而獲取所述結構概率信息。優選的,可以通過對韻律單元在語音語料庫中出現在語音語料片段的首部或者尾部的概率而獲取所述結構概率信息。
[0090]S830,利用韻律結構預測模型對輸入的文本進行韻律結構預測處理,給出至少兩個備選韻律邊界劃分方案。
[0091]接收到輸入文本后,利用已經訓練好的韻律結構預測模型對輸入文本進行韻律結構預測處理。對輸入文本的韻律結構預測處理的結果是針對輸入文本的至少兩個備選韻律邊界劃分方案。優選的,可以通過輸出對輸入文本的較優的至少兩個備選韻律邊界劃分方案來獲得對所述輸入文本的不同的韻律邊界劃分方案。
[0092]所述韻律邊界劃分方案用于定義輸入文本的韻律邊界。優選的,按照輸入文本的不同韻律層級,所述韻律邊界劃分方案所定義的輸入文本的韻律邊界包括韻律詞邊界、韻律短語邊界以及語調短語邊界。[0093]由于對韻律短語的預測便成為了韻律結構預測中的難點,在本實施例中僅以對韻律短語的邊界的劃分為例對韻律結構邊界的劃分進行說明。本領域技術人員應該理解,對韻律詞以及語調短語的邊界劃分的過程與對韻律短語的邊界劃分的過程類似。
[0094]示例的,以對輸入文本“短短兩周時間上漲的價格超過了過去五年的總和”的韻律短語邊界劃分為例,對給出至少兩個備選韻律邊界劃分方案的過程進行說明。對于上述輸入文本有下面兩種韻律短語邊界劃分方案:
[0095]短短兩周時間$上漲的價格$超過了過去五年的總和。
[0096]短短兩周時間$上漲的價格超過了 $過去五年的總和。
[0097]其中,符號“$”表示所述韻律邊界劃分方案中韻律短語的邊界。
[0098]S840,根據所述至少兩個備選韻律邊界劃分方案中韻律單元在語音語料庫中的結構概率信息確定韻律邊界劃分方案。
[0099]無論是所述韻律詞、韻律短語或者語調短語,都是由韻律單元組成的。在語音語料庫中,韻律單元會根據一定的概率出現在韻律詞、韻律短語或者語調短語的首部或者尾部。例如,韻律單元“了”出現在韻律短語的尾部的概率為0.78。這個概率就是韻律單元在語音語料庫中的結構概率信息。
[0100]可以通過對韻律單元在語音語料庫中的出現位置進行統計,得到所述韻律單元的結構概率信息,也就是韻律單元出現在韻律詞、韻律短語或者語調短語的首部或者尾部的概率。得到所述韻律單元的結構概率信息后,可以依據韻律單元的結構概率信息分別計算所述至少兩個備選韻律邊界劃分方案的輸出概率,再依據所述輸出概率從所述至少兩個備選韻律邊界劃分方案中確定最終的韻律邊界劃分方案。
[0101]優選的,可以根據下式計算所述至少兩個備選韻律邊界劃分方案的輸出概率:
[0102]f (Wp1Wi) = a Xffp+(l-a )ffiD
[0103]其中,α是加權系數,它是一個依經驗取值的參數,其取值在O至I之間,并且一旦選定,對于不同的備選韻律邊界劃分方案不會改變;Wp是所述韻律單元的韻律層級概率;Wi是所述韻律單元的結構概率。
[0104]以上文所述的對于輸入文本“短短兩周時間上漲的價格超過了過去五年的總和”的兩種韻律邊界劃分方案為例,假如韻律單元“了”出現在語音語料庫中韻律短語的末尾的概率大于韻律單元“格”出現在韻律短語的末尾的概率,則依據該結構概率信息計算得到的第二種韻律邊界劃分方案的輸出概率大于第一種韻律邊界劃分方案的輸出概率,所以選擇第二種韻律邊界劃分方案為最終的韻律邊界劃分方案。
[0105]S850,根據所確定的韻律邊界劃分方案進行語音合成。
[0106]確定了輸入文本的韻律邊界劃分方案后,根據所確定的韻律邊界劃分方案進行語音合成。所述語音合成可以是波形拼接式的語音合成,也可以是參數合成式的語音合成。
[0107]需要說明的是,上述方法步驟有可能并不由一臺計算機執行。實際上,有可能在一臺計算機上完成對韻律結構預測模型的訓練,再將訓練好的韻律結構預測模型移植到另一臺計算機上,完成對輸入文本的語音合成。
[0108]本實施例通過訓練韻律結構預測模型,統計韻律單元的位置統計信息,對輸入文本進行韻律結構預測以給出至少兩個備選韻律邊界劃分方案,根據韻律單元的位置統計信息從所述至少兩個備選韻律邊界劃分方案中確定最終的韻律邊界劃分方案,最后根據確定的韻律邊界劃分方案進行語音合成,使得參考韻律單元的位置統計信息對輸入文本進行韻律結構預測,提高了語音合成的自然度和靈活性。
[0109]圖9示出了本發明的第三實施例。
[0110]圖9是本發明第三實施例提供的基于大語料庫的語音合成裝置的結構圖。參見圖9,所述基于大語料庫的語音合成裝置包括:預測處理模塊910、邊界劃分模塊920以及語音合成模塊930。
[0111]所述預測處理模塊910用于利用韻律結構預測模型對輸入的文本進行韻律結構預測處理,給出至少兩個備選韻律邊界劃分方案。
[0112]所述邊界劃分模塊920用于根據所述至少兩個備選韻律邊界劃分方案中韻律單元在語音語料庫中的結構概率信息確定韻律邊界劃分方案。
[0113]所述語音合成模塊930用于根據所確定的韻律邊界劃分方案進行語音合成。
[0114]優選的,所述韻律結構預測模型是通過預先對文本語料庫和語音語料庫中的標注數據進行統計學習而生成的。
[0115]優選的,預先對文本語料庫和語音語料庫中的標注數據的統計學習包括:依據決策樹算法、條件隨機場算法、最大熵模型算法以及隱馬爾科夫模型算法進行的統計學習。
[0116]優選的,所述邊界劃分模塊包括:結構概率信息獲取單元921、輸出概率計算單元922以及邊界劃分方案確定單元923。
[0117]所述結構概率信息獲取單元921用于根據預先對語音語料庫中數據的統計,獲取所述至少兩個備選韻律邊界劃分方案中韻律單元的結構概率信息。
[0118]所述輸出概率計算單元922用于根據所述結構概率信息,利用輸出概率計算函數計算所述至少兩個備選韻律邊界劃分方案的輸出概率。
[0119]所述邊界劃分方案確定單元923用于確定輸出概率最大的備選韻律邊界劃分方案為韻律邊界劃分方案。
[0120]優選的,所述至少兩個備選韻律邊界劃分方案所劃定的韻律邊界包括:韻律詞邊界、韻律短語邊界或語調短語邊界。
[0121]優選的,所述韻律單元的結構概率信息包括:所述韻律單元出現在韻律詞、韻律短語或者語調短語的首部或者尾部的概率。
[0122]優選的,所述輸出概率計算單元922具體用于:按照預定的加權參數對所述至少兩個備選韻律邊界劃分方案的目標韻律層級概率以及結構概率進行加權平均,確定所述至少兩個備選韻律邊界劃分方案的輸出概率。
[0123]上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。
[0124]本領域普通技術人員應該明白,上述的本發明的各模塊或各步驟可以用通用的計算裝置來實現,它們可以集中在單個計算裝置上,或者分布在多個計算裝置所組成的網絡上,可選地,他們可以用計算機裝置可執行的程序代碼來實現,從而可以將它們存儲在存儲裝置中由計算裝置來執行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現。這樣,本發明不限制于任何特定的硬件和軟件的結合。
[0125]本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間的相同或相似的部分互相參見即可。[0126]以上所述僅為本發明的優選實施例,并不用于限制本發明,對于本領域技術人員而言,本發明可以有各種改動和變化。凡在本發明的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
【權利要求】
1.一種基于大語料庫的語音合成方法,其特征在于,包括: 利用韻律結構預測模型對輸入的文本進行韻律結構預測處理,給出至少兩個備選韻律邊界劃分方案; 根據所述至少兩個備選韻律邊界劃分方案中韻律單元在語音語料庫中的結構概率信息確定韻律邊界劃分方案; 根據所確定的韻律邊界劃分方案進行語音合成。
2.根據權利要求1所述的方法,其特征在于,所述韻律結構預測模型是通過預先對文本語料庫和語音語料庫中的標注數據進行統計學習而生成的。
3.根據權利要求2所述的方法,其特征在于,預先對文本語料庫和語音語料庫中的標注數據的統計學習包括:依據決策樹算法、條件隨機場算法、最大熵模型算法以及隱馬爾科夫模型算法進行的統計學習。
4.根據權利要求1所述的方法,其特征在于,根據所述至少兩個備選韻律邊界劃分方案中韻律單元在語音語料庫中的結構概率信息確定韻律邊界劃分方案包括: 根據預先對語音語料庫中數據的統計,獲取所述至少兩個備選韻律邊界劃分方案中韻律單元的結構概率信息; 根據所述結構概率信息,利用輸出概率計算函數計算所述至少兩個備選韻律邊界劃分方案的輸出概率; 確定輸出概率最大的備選韻律邊界劃分方案為韻律邊界劃分方案。
5.根據權利要求4所述的方法,其特征在于,所述至少兩個備選韻律邊界劃分方案所劃定的韻律邊界包括:韻律詞邊界、韻律短語邊界或語調短語邊界。
6.根據權利要求4所述的方法,其特征在于,所述韻律單元的結構概率信息包括:所述韻律單元出現在韻律詞、韻律短語或者語調短語的首部或者尾部的概率。
7.根據權利要求4所述的方法,其特征在于,根據所述結構概率信息,利用輸出概率計算函數計算所述至少兩個備選韻律邊界劃分方案的輸出概率包括: 按照預定的加權參數對所述至少兩個備選韻律邊界劃分方案的目標韻律層級概率以及結構概率進行加權平均,確定所述至少兩個備選韻律邊界劃分方案的輸出概率。
8.一種基于大語料庫的語音合成裝置,其特征在于,包括: 預測處理模塊,用于利用韻律結構預測模型對輸入的文本進行韻律結構預測處理,給出至少兩個備選韻律邊界劃分方案; 邊界劃分模塊,用于根據所述至少兩個備選韻律邊界劃分方案中韻律單元在語音語料庫中的結構概率信息確定韻律邊界劃分方案; 語音合成模塊,用于根據所確定的韻律邊界劃分方案進行語音合成。
9.根據權利要求8所述的裝置,其特征在于,所述韻律結構預測模型是通過預先對文本語料庫和語音語料庫中的標注數據進行統計學習而生成的。
10.根據權利要求9所述的裝置,其特征在于,預先對文本語料庫和語音語料庫中的標注數據的統計學習包括:依據決策樹算法、條件隨機場算法、最大熵模型算法以及隱馬爾科夫模型算法進行的統計學習。
11.根據權利要求7所述的裝置,其特征在于,所述邊界劃分模塊包括: 結構概率信息獲取單元,用于根據預先對語音語料庫中數據的統計,獲取所述至少兩個備選韻律邊界劃分方案中韻律單元的結構概率信息; 輸出概率計算單元,用于根據所述結構概率信息,利用輸出概率計算函數計算所述至少兩個備選韻律邊界劃分方案的輸出概率; 邊界劃分方案確定單元,用于確定輸出概率最大的備選韻律邊界劃分方案為韻律邊界劃分方案。
12.根據權利要求11所述的裝置,其特征在于,所述至少兩個備選韻律邊界劃分方案所劃定的韻律邊界包括:韻律詞邊界、韻律短語邊界或語調短語邊界。
13.根據權利要求11所述的裝置,其特征在于,所述韻律單元的結構概率信息包括:所述韻律單元出現在韻律詞、韻律短語或者語調短語的首部或者尾部的概率。
14.根據權利要求11所述的裝置,其特征在于,所述輸出概率計算單元具體用于: 按照預定的加權參數對所述至少兩個備選韻律邊界劃分方案的目標韻律層級概率以及結構概率進行加權平均,確定所述至少兩個備選韻律邊界劃分方案的輸出概率。
【文檔編號】G10L13/08GK104021784SQ201410276352
【公開日】2014年9月3日 申請日期:2014年6月19日 優先權日:2014年6月19日
【發明者】李秀林 申請人:百度在線網絡技術(北京)有限公司