專利名稱:一種精確到字的中文同步顯示歌詞方法
技術領域:
本發(fā)明涉及音頻播放領域,尤其涉及音頻播放系統(tǒng)中同步顯示歌詞的方法。
背景技術:
播放軟件的歌詞顯示功能使得人們能夠在聽到優(yōu)美樂曲的同時看到音 頻文件的歌詞,現(xiàn)在許多播放軟件都具有同步顯示歌詞的功能。具體方法是將歌詞存儲在一個純文本文件中,且在每句歌詞開始之前有一個以WM:SS] 格式呈現(xiàn)的時間標簽,其中MM為被播放歌曲的時間分鐘值,SS為秒鐘值, 當歌詞播放到畫分SS秒時播放軟件便會顯示該句歌詞,進而使得顯示的歌 詞與人聲同步。以上所述傳統(tǒng)同步顯示歌詞方法是按句記錄時間,然后將每句歌詞通過 時間均分處理后再分配給每個字,故歌詞顯示只能精確到句而不能精確到 字。然而目前有很多應用場合如卡拉OK (電視歌曲伴奏設備)等,都需要一 種按字正確顯示歌詞的播放軟件,而目前的同步顯示歌詞方法精度很差,幾 乎不能正確顯示歌詞中每個字的時間。發(fā)明內(nèi)容本發(fā)明提供了一種能解決以上問題的音頻播放系統(tǒng)中精確到字的中文 同步顯示歌詞方法。在第一方面,本發(fā)明提供了一種精確到字的中文同步顯示歌詞方法, 該方法首先將每句歌詞的語音分割成若千部分,該若干部分的數(shù)量等于該句 歌詞字數(shù)加一個結尾換氣,并對分割成的每部分語音分別進行匹配進而得到 匹配因子^ 。然后再將每種分割得到的語音順次與該句歌詞中的每個字進行音素匹配,并得到對應的匹配程度A。最后選取義xA + (l-勾xA值最大作為 最優(yōu)劃分,其中義為權重系數(shù)且滿足OS義d。在本發(fā)明的一個實施例中,將最優(yōu)劃分中所對應每一部分的起始時間作 為歌詞中每個字的起始時間,并將該時間保存在存儲歌詞的純文本文件中。在本發(fā)明的另一個實施例中,手動調(diào)整純文本文件中歌詞字的起始時 間,以便該歌詞字的顯示時間能夠更加同步于該歌詞字。本發(fā)明利用精準到句的原有歌詞,將每句歌詞的語音分割成與該歌詞音 節(jié)相同的段,并綜合分割段匹配與音素匹配的匹配程度得到最優(yōu)劃分。進 而解決了同步顯示歌詞不能精確到字的問題,在卡拉0K等需要同步顯示歌 詞字的設備中具有重要應用價值。
下面將參照附圖對本發(fā)明的具體實施方案進行更詳細的說明,在附圖中圖l是精確到字的中文同步顯示歌詞流程圖。
具體實施方式
圖1是精確到字的中文同步顯示歌詞流程圖。 在步驟110,將歌詞劃分成若干句,每一句對應一句歌詞。 較佳地,在歩驟111對每句歌曲采用消除樂音算法以消除或減弱樂音而 突出語音,所述消除樂音算法可以采用任意一種語音增強算法。在步驟120,根據(jù)歌詞內(nèi)容統(tǒng)計每句歌詞的段數(shù),該段數(shù)包括每句歌結尾時的換氣,即該段數(shù)等于每句歌詞的字數(shù)加一個結尾換氣。在步驟130,將每句歌詞的語音分割成步驟120統(tǒng)計得到的段數(shù)個語音, 并對分割后的每個語音進行匹配,進而得到多個匹配因子。具體地,根據(jù)語音識別算法將所述每句歌詞的語音分割成若干部分,所 述若干部分的具體數(shù)量等于步驟120統(tǒng)計得到的該句歌詞段數(shù),最優(yōu)分割為 每個部分包括一個完整的音節(jié)即一個漢字或一個結尾換氣。在語音識別算法分割每句歌詞語音的過程中有"種不同的可行分割,每 一種分割所得到的音節(jié)都具有與其相對應的匹配因子《 ,進而得到該句歌詞 語音的多種不同匹配因子 《2, 《,., A。該"值用于評價與其相對應分割的優(yōu)劣,"值越大則說明分割得越精確。在步驟140,進行音素(即每一個中文字符)匹配,得到不同的匹配程 度/ 。具體地,對步驟130中《種分割的每種分割所得到的音節(jié)按順序與該歌 曲中每個字的音素進行匹配,得到的匹配程度為/ ,故w種分割分別得到匹 配程度A, A, A,…,A。所述匹配程度方法可以為任意一種語音匹配算法。在步驟150,將"與"按照一定的權重,并通過設定閾值進而確定最優(yōu)劃分。具體地,選取"的最小閾值為"min, / 的最小閾值為"min,并設定權 重系數(shù)A(0Shl)。選取使得Ax^+(1-A)xA值最大,且滿足a,"min和 ^/ min的x所對應的劃分為最優(yōu)劃分。也就是該句歌詞中若不存在同時滿 足& 〉 amin和& > 〃min的x ,則直接選取使得;U",+(l-;i)xA最大的x所對應劃分為最優(yōu)劃分。在步驟160,確定歌詞中每個字的起始時間。具體地,將步驟150得到的最優(yōu)劃分中所對應每一部分的起始時間作為 歌詞中每個字的起始時間,并將該時間保留至存儲該歌詞的純文本文件中。較佳地,在步驟161通過手動調(diào)整所述存儲歌詞的文本文件中某些歌詞 字(時間不準確的歌詞中的字)的起始時間,進而達到更加精確地同步顯示 歌詞的目的。顯而易見,在不偏離本發(fā)明的寘實精神和范圍的前提下,在此描述的本 發(fā)明可以有許多變化。因此,所有對于本領域技術人員來說顯而易見的改變, 都應包括在本權利要求書所涵蓋的范圍之內(nèi)。本發(fā)明所要求保護的范圍僅由 所述的權利要求書進行限定。
權利要求
1.一種精確到字的中文同步顯示歌詞方法,包括步驟a,將每句歌詞的語音分割成若干部分,該若干部分的數(shù)量等于該句歌詞字數(shù)加一個結尾換氣,并對分割成的每部分語音分別進行匹配進而得到匹配因子αx;步驟b,將所述每種分割得到的語音順次與該句歌詞中的每個字進行音素匹配,并得到對應的匹配程度βx;步驟c,選取λ×αx+(1-λ)×βx值最大作為最優(yōu)劃分,其中λ為權重系數(shù)且滿足0≤λ≤1。
2. 如權利要求1所述的一種精確到字的中文同步顯示歌詞方法,其特 征在于,在步驟a之前包括步驟d,將歌詞劃分成若干句,每一句對應一句歌詞,并對每句歌曲采 用消除樂音算法以消減樂音而突出語音。
3. 如權利要求1所述的一種精確到字的中文同步顯示歌詞方法,其特 征在于,步驟a中的最優(yōu)分割為分割成的每個部分都包含一個完整的音節(jié)。
4. 如權利要求1所述的一種精確到字的中文同步顯示歌詞方法,其特 征在于,在步驟c中設定a的最小閾值為amin, P的最小閾值為/ min,且 滿足A > amin 禾口 A > / min 。
5. 如權利要求1所述的一種精確到字的中文同步顯示歌詞方法,其特 征在于,在步驟C之后包括歩驟e:將所述最優(yōu)劃分中所對應每一部分的起始時間作為歌詞中每個 字的起始時間,并將該時間保存在存儲所述歌詞的純文本文件中。
6. 如權利要求5所述的一種精確到字的中文同步顯示歌詞方法,其特征在于,在步驟e之后包括步驟f:手動調(diào)整所述純文本文件中歌詞字的起始時間,以便該歌詞字 的顯示時間能夠更加同步于該歌詞字。
7. —種精確到字的中文同步顯示歌詞裝置,包括將每句歌詞的語音分割成若干部分,并對分割成的每部分語音進行匹配 進而得到匹配因子".的模塊,所述若干部分的數(shù)量等于該句歌詞字數(shù)加一個結尾換氣;以及將所述每種分割得到的語音順次與該句歌詞中的每個字進行音素匹配,并得到對應的匹配程度A的模塊;以及將;u^+(1-義)x^值最大作為最優(yōu)劃分的模塊,其中義為權重系數(shù)且滿足0"S1。
全文摘要
本發(fā)明涉及音頻播放領域,尤其涉及一種精確到字的中文同步顯示歌詞方法。本發(fā)明通過將每句歌詞的語音分割成若干部分,該若干部分的數(shù)量等于該句歌詞字數(shù)加一個結尾換氣,并對分割成的每部分語音分別進行匹配進而得到匹配因子α<sub>x</sub>;然后再將每種分割得到的語音順次與該句歌詞中的每個字進行音素匹配,并得到對應的匹配程度β<sub>x</sub>;最后選取λ×α<sub>x</sub>+(1-λ)×β<sub>x</sub>值最大作為最優(yōu)劃分,其中λ為權重系數(shù)且滿足0≤λ≤1。本發(fā)明方法解決了同步顯示歌詞不能精確到字的問題,在卡拉OK等需要同步顯示歌詞的設備中具有重要應用價值。
文檔編號G11B27/10GK101615417SQ20091008957
公開日2009年12月30日 申請日期2009年7月24日 優(yōu)先權日2009年7月24日
發(fā)明者巖 史 申請人:北京海爾集成電路設計有限公司