將文本文字轉換成說唱音樂的方法及裝置的制作方法

文檔序號：2822474閱讀：1528來源：國知局

專利名稱：將文本文字轉換成說唱音樂的方法及裝置的制作方法
技術領域：
本發明屬于電數字數據處理技術領域，尤其涉及一種將文本文字轉換成說唱音樂
的方法及裝置。
背景技術：
現有的文字語音轉換(TTS)是一種能通過一定的算法，把輸入的文字信息轉換成
一定格式的語音信息的技術，經過長的時間的發展，目前文字語音轉換技術已經比較成熟。現有的文字語音轉換方法包括首先，對輸入的文本文字進行分詞、斷句等文字處
理，得到具有一定含義的詞匯分段，并根據詞典將語音符號賦給文中相應的漢字；然后，將
得到的語音符號序列與語音或短語波形庫中的聲音片段相匹配，從中找到最匹配的語音片
段；最后，對于選出的語音片段進行拼接并插入適當停頓，得到可輸出的語音。然而在實現本發明的過程中，發現現有技術至少存在以下問題現有的文字語音
轉換方法僅僅是將文本文字中的字轉換為該字對應的語音，然后將該文本文字通過語音的
方式輸出，由于通過現有的文字語音轉換技術獲得的語音比較單一，使得用戶在聽該語音
時會感覺比較單調，從而難以滿足用戶的個性化需求。

發明內容
為了解決上述問題，本發明的目的是提供一種將文本文字轉換成說唱音樂的方法及裝置，通過將文本文字以說唱音樂的形式輸出，增加了該文本文字的娛樂性，從而可提高用戶體驗。為了達到上述目的，本發明提供一種將文本文字轉換成說唱音樂的方法，所述方法包括對獲取的待轉換的文本文字進行文字韻律分析，得到所述待轉換的文本文字中的詞和所述待轉換文本文字中的字；對所述待轉換的文本文字中的每個詞和所述待轉換的文本文字中的每個字都賦以聲音屬性；通過預設的文字語音數據庫和所述聲音屬性，將所述待轉換的文本文字中的每個詞和所述待轉換的文本文字中的每個字都轉換成符合樂器數字接口 MIDI音樂規律的文字音頻；獲取待播放的樂器數字接口 MIDI音頻，并將所述待播放的樂器數字接口 MIDI音頻和所述符合樂器數字接口 MIDI音樂規律的文字音頻進行合成處理，生成說唱音樂。
優選的，所述對獲得的待轉換的文本文字進行文字韻律分析的步驟具體包括
對所述待轉換的文本文字進行分段和分句處理，獲得待轉換文本文字中的段和待轉換文本文字中的句；通過預設的文字詞典數據庫，對所述待轉換的文本文字中的句進行分詞處理，獲得所述待轉換的文本文字中的詞和所述待轉換的文本文字中的字；
將所述待轉換的文本文字中的段映射成音樂中的樂段，將所述待轉換的文本文字
中的句映射成音樂中的樂句；將所述待轉換的文本文字中的至少一個詞映射成至少一個音
節；將所述待轉換的文本文字中的至少一個字映射成至少一個音符。優選的，所述獲取待播放的樂器數字接口 MIDI音頻的步驟具體包括根據所述待轉換文本中的段、所述待轉換文本中的句、所述待轉換文本中的詞和
所述待轉換文本中的字，來確定待播放的樂器數字接口 MIDI音樂的音樂屬性、樂軌屬性、
樂段屬性、和小節及音符屬性；根據所述音樂屬性、樂軌屬性、樂段屬性、和小節及音符屬性，來選取待播放的樂器數字接口MIDI音樂；將所述待播放的樂器數字接口 MIDI音樂轉換成所述待播放的樂器數字接口 MIDI 音頻。優選的，所述音樂屬性為聲調、音色、和節奏中的一種或多種；所述樂段屬性為和弦規律；所述樂軌屬性為鼓點屬性、弦樂背景音軌屬性、節奏伴奏音軌屬性、和獨奏 SOLO音軌屬性中的一種或多種；所述小節及音符屬性為旋律規則。優選的，所述對獲取的待轉換的文本文字進行文字韻律分析的步驟還包括
對所述文本文字中的詞和所述文本文字中的字進行字詞感情屬性分析，根據字詞感情屬性分析的結果，來確定待播放的MIDI音樂的音樂感情屬性；
所述選取待播放的樂器數字接口 MIDI音樂的步驟為
根據所述音樂感情屬性，選取所述待播放的MIDI音樂。
優選的，所述感情屬性分析結果為強烈、中性、和抒情中的一種或多種；所述音樂的感情屬性為搖滾、流行、和民謠中的一種或多種。
優選的，所述方法還包括對所述文字音頻和所述MIDI音頻進行合成處理后，再對合成后的音頻文件進行音效處理。
本發明還提供一種將文本文字轉換成說唱音樂的裝置，所述裝置包括文字韻律分析模塊，用于對獲取的待轉換的文本文字進行文字韻律分析，得到所
述待轉換的文本文字中的詞和所述待轉換文本文字中的字，并對所述待轉換的文本文字中
每個詞和所述待轉換的文本文字中的每個字都賦以聲音屬性；文字轉音頻模塊，用于通過預設的文字語音數據庫和所述聲音屬性，將所述待轉換的文本文字中的每個詞和所述待轉換的文本文字中的每個字都轉換成符合樂器數字接口 MIDI音樂規律的文字音頻；音頻合成模塊，用于獲取待播放的樂器數字接口 MIDI音頻，并將所述待播放的樂器數字接口 MIDI音頻和所述符合樂器數字接口 MIDI音樂規律的文字音頻進行合成處理，生成說唱音樂。優選的，所述裝置還包括 MIID音樂生成模塊，用于根據所述待轉換文本中的段、所述待轉換文本中的句、所述待轉換文本中的詞和所述待轉換文本中的字，來確定待播放的樂器數字接口 MIDI音樂的音樂屬性、樂軌屬性、樂段屬性、和小節及音符屬性； MIDI轉音頻模塊，用于將所述待播放的樂器數字接口 MIDI音樂轉換成所述待播
5放的樂器數字接口 MIDI音頻。
優選的，所述裝置還包括存儲模塊，用于存儲于所述預設的文字語音數據庫。上述技術方案中的至少一個技術方案具有如下有益效果通過將文本文字和 MIDI音樂生成符合文字韻律的說唱音樂，使該文本文字能夠以說唱音樂的形式輸出，增加了該文本文字的娛樂性，從而提高了用戶體驗。

圖1為本發明的實施例中將文本文字轉換成說唱音樂的方法流程圖；
圖2為本發明的實施例中將文本文字轉換成說唱音樂的裝置框圖。
具體實施例方式
在本實施例中，首先對待轉換的文本文字進行文字韻律分析，對該待轉換的文本文字中的每一個字都賦以聲音屬性；然后根據聲音屬性和預設的文字語音數據庫，將該待轉換的文本文字中的每個字轉換成符合MIDI音樂規律的文字音頻，最后將該符合MIDI音樂規律的文字音頻與待播放的MIDI音頻進行合成處理，生成說唱音樂，通過將文本文字中的字賦以聲音屬性，并以說唱音樂的形式表達出，從而增加了該文本文字的娛樂性，提高了用戶體驗。為了使本發明實施例的目的、技術方案和優點更加清楚明白，下面結合實施例和附圖，對本發明實施例做進一步詳細地說明。在此，本發明的示意性實施例及說明用于解釋本發明，但并不作為對本發明的限定。如圖1所示，為本發明的實施例中將文本文字轉換成說唱音樂的方法流程圖，具體步驟如下步驟101、對獲取的待轉換的文本文字進行文字韻律分析，得到該待轉換的文本文字中的詞和該待轉換文本文字中的字；在本實施例中，可通過標點符號對待轉換的文本文字進行文字對象分析，具體為，首先通過標點符號對待轉換文本文字進行分段和分句處理，可獲得該待轉換文本文字中的段和待轉換文本文字中的句；然后通過預設的文字詞典數據庫，對該待轉換的文本文字中的句進行分詞處理，可得到該待轉換的文本文字中的詞和待轉換的文本文字中的字。
上述文字分析的對象包括文、段、句、詞和字，通常可用標點符號為界進行分析，其中"文"指要分析的文本文字；"段"是文本文字的下一級，一般以標點符號為界，例如換行符；"句"在段中以標點符號為界，例如句號；"詞"，可根據預設的文字字典數據庫對 "句"進行分析后，獲取該"句"中的"詞"；最后"字"為上述文字分析的最基本單元。
在完成文字對象分析后，為了使待播放的MIDI音樂能夠與文本文字所表達的感情色彩相匹配，在本步驟中還可對該待轉換的文本文字中詞和待轉換的文本文字中的字進行字詞感情屬性分析，從而可獲得待轉換的文本文字的字詞感情屬性；然后根據該字詞感情屬性可確定出待播放MIDI音頻的音樂感情屬性，上述字詞感情屬性包括但不限于強烈、中性和抒情，而音樂感情屬性包括但不限于搖滾、流行和民謠。在本實施例中，可將預先設置上述字詞感情屬性設置成與上述音樂感情屬性對應關系，例如當字詞感情屬性為強烈時，可選用音樂感情屬性為搖滾的MIDI音樂；當字詞感情屬性為中性時，可選用音樂感情屬性為流行的MIDI音樂；當字詞感情屬性為抒情時，可
選用音樂感情屬性為民謠的MIDI音樂，當然在本實施例中并不限定字詞感情屬性與音樂
感情屬性的具體對應關系。通常，音樂中的元素包括音樂、樂段、樂句、音節和音符，在本步驟中，還可將上述文字分析的對象與音樂中的元素對應起來，例如可將待轉換的文本文字中的段映射成音樂中的樂段；將待轉換的文本文字中的句映射成音樂中的樂句；將待轉換的文本文字中的至少一個詞映射成至少一個音節；將待轉換的文本文字中的至少一個字映射成至少一個音符。步驟102、對該待轉換的文本文字中的每個詞和該待轉換的文本文字中的每個字都賦以聲音屬性；也就是，對該待轉換的文本文字中的每個漢字都賦以聲音屬性，上述聲音屬性包括但不限于音長、音高和音調。步驟103、通過預設的文字語音數據庫和該聲音屬性，將該待轉換的文本文字中的每個詞和該待轉換的文本文字中的每個字都轉換成符合MIDI音樂規律的文字音頻；
在本步驟中，可以采用現有的文字語音數據庫，在該文字語音數據庫中存儲有字詞對應的語音信息，通過該預設的文字語音數據庫和步驟102中賦以的聲音屬性，將該待轉換文本文字中的每個詞和每個字都轉換成符合MIDI音樂規律的文字音頻。
步驟104、獲取待播放的MIDI音頻，并將該待播放的MIDI音頻和該符合MIDI音樂規律的文字音頻進行合成處理，生成說唱音樂。上述待播放的MIDI音頻可通過MIDI轉音頻技術將MIDI音樂生成待播放的MIDI 音頻，在本實施例中并不限定MIDI音頻的來源方式。當采用MIDI轉音頻技術將MIDI音樂轉換為MIDI音頻時，首先，根據待轉換文本中的段、待轉換文本中的句、待轉換文本中的詞和待轉換文本中的字，來確定待播放的MIDI 音樂的音樂屬性、樂軌屬性、樂段屬性、和小節及音符屬性，其中音樂屬性為聲調、音色、和節奏中的一種或多種；樂段屬性為和弦規律；樂軌屬性為鼓點屬性、弦樂背景音軌屬性、節奏伴奏音軌屬性、和獨奏SOLO音軌屬性中的一種或多種；小節及音符屬性為旋律規則。
然后，再根據音樂屬性、樂軌屬性、樂段屬性、和小節及音符屬性，來選取待播放的樂器數字接口MIDI音樂；最后，通過現有的MIDI轉音頻技術將上述待播放的MIDI音樂轉換成待播放的 MIDI音頻。在獲取了待播放的MIDI音頻后，通過現有的音頻合成技術將上述符合MIDI音頻規律的文字音頻與待播放的MIDI音頻合成一個音頻。為了保證合成后的音頻質量，還可對合成后的音頻進行激勵、壓制、混響音頻處理。由上述技術方案可知，通過將文本文字和MIDI音樂生成符合文字韻律的說唱音樂，使該文本文字能夠以說唱音樂的形式輸出，增加了該文本文字的娛樂性，從而提高了用戶體驗下面以將手機短信轉換為說唱音樂為例，來介紹本方法實施例
7
例如在用戶完成對手機賬戶充值后，移動運營商常會發送如下文本短信到用戶的手機上"您好！您的資金已注入，賬戶余額為100元，有效期至2010年2月2日。"
首先，根據標點符號對上述文本短信進行文字韻律分析，該標點符號包括感嘆號、句號和逗號，經過文字韻律分析后可知該文本短信有l段和4句、5個詞和15個字其中
字詞的分割(以"l"為標)如下"您I好！您I的I資金I已I注入，賬戶I余額I為|100|元，有效期I至|2010|年|2|月|2|日。" 由于文本短信中有友好詞"好"和"您"，而且文本短信中無否定性質的詞句，因此通過對文本短信的字詞感情屬性分析，可選用音樂感情屬性為流行C大調的待播放的 MIDI音樂。然后，結合文字韻律分析獲得的結果，可以進行文字音樂映射，也就是將文本文短信中的段映射成音樂中的樂段，將文本短信中的句映射成音樂中的樂句，將文本短信中的至少一個詞映射成至少一個音節(以"〈〉"標記)，將文本短信中的至少一個字映射成至少一個音符，具體表示如下

第一個樂句第二個樂句第三個樂句第四個樂句
您好！ >
您I的I資金>〈|已I注入，> 賬戶I余額X為100元，> 有效期I至1X20101年|2|>〈月|2|曰。>
然后，確定和弦及旋律，以第一個樂句為例
〈您好！〉配C和弦，且旋律可簡單設置為|1-3-〈I您I的I資金〉配G和弦，且旋律可簡單設置為|5252 〈I已I注入，〉配C和弦，且旋律可簡單設置為|1-31
然后，根據文字音樂映射，確定文字聲音映射，即對每個字都賦以聲音屬性，該聲音屬性包括音長、音高和音調，上述文字聲音映射需要遵守聲音和音樂規律對應的原則。
通過文字音樂映射及文字聲音映射進行音樂生成和人聲生成。其中，根據音樂感情屬性和以上各樂句中編配的和弦加入打擊軌，伴奏軌以及旋律軌，然后進行MIDI音樂生成，結合人聲進行音頻轉換和處理合成，成為說唱。為了實現上述的方法實施例，本發明的其他實施例還提供了一種將文本文字轉換成說唱音樂的裝置框圖裝置。另需首先說明的是，由于下述的實施例是為實現前述的方法實施例，故該裝置中的模塊都是為了實現前述方法的各步驟而設，但本發明并不限于下述的實施例，任何可實現上述方法的裝置和模塊都應包含于本發明的保護范圍。并且在下面的描述中，與前述方法相同的內容在此省略，以節約篇幅。如圖2所示，為本發明的實施例中將文本文字轉換成說唱音樂的裝置框圖，該裝置包括文字韻律分析模塊21，用于對獲取的待轉換的文本文字進行文字韻律分析，得到所述待轉換的文本文字中的詞和所述待轉換文本文字中的字，并對所述待轉換的文本文字中每個詞和所述待轉換的文本文字中的每個字都賦以聲音屬性；文字轉音頻模塊22，用于通過預設的文字語音數據庫和所述聲音屬性，將所述待轉換的文本文字中的每個詞和所述待轉換的文本文字中的每個字都轉換成符合MIDI音樂規律的文字音頻；音頻合成模塊25，用于獲取待播放的MIDI音頻，并將待播放的MIDI音頻和符合 MIDI音樂規律的文字音頻進行合成處理，生成說唱音樂。
在本發明的另一實施例中，裝置還包括 MIDI音樂生成模塊23，用于根據所述待轉換文本中的段、所述待轉換文本中的句、所述待轉換文本中的詞和所述待轉換文本中的字，來確定待播放的樂器數字接口 MIDI 音樂的音樂屬性、樂軌屬性、樂段屬性、和小節及音符屬性； MIDI轉音頻模塊24，用于將所述待播放的樂器數字接口 MIDI音樂轉換成所述待播放的樂器數字接口 MIDI音頻。在本發明的另一實施例中，裝置還包括存儲模塊，用于存儲于所述預設的文字語音數據庫。由上述技術方案可知，通過將文本文字和MIDI音樂生成符合文字韻律的說唱音樂，使該文本文字能夠以說唱音樂的形式輸出，增加了該文本文字的娛樂性，從而提高了用戶體驗。以上所述僅是本發明的優選實施方式，應當指出，對于本技術領域的普通技術人員來說，在不脫離本發明原理的前提下，還可以作出若干改進和潤飾，這些改進和潤飾也應視為本發明的保護范圍。
權利要求
一種將文本文字轉換成說唱音樂的方法，其特征在于，所述方法包括對獲取的待轉換的文本文字進行文字韻律分析，得到所述待轉換的文本文字中的詞和所述待轉換文本文字中的字；對所述待轉換的文本文字中的每個詞和所述待轉換的文本文字中的每個字都賦以聲音屬性；通過預設的文字語音數據庫和所述聲音屬性，將所述待轉換的文本文字中的每個詞和所述待轉換的文本文字中的每個字都轉換成符合樂器數字接口MIDI音樂規律的文字音頻；獲取待播放的樂器數字接口MIDI音頻，并將所述待播放的樂器數字接口MIDI音頻和所述符合樂器數字接口MIDI音樂規律的文字音頻進行合成處理，生成說唱音樂。
2. 根據權利要求1所述的方法，其特征在于，所述對獲得的待轉換的文本文字進行文字韻律分析的步驟具體包括對所述待轉換的文本文字進行分段和分句處理，獲得待轉換文本文字中的段和待轉換文本文字中的句；通過預設的文字詞典數據庫，對所述待轉換的文本文字中的句進行分詞處理，獲得所述待轉換的文本文字中的詞和所述待轉換的文本文字中的字；將所述待轉換的文本文字中的段映射成音樂中的樂段，將所述待轉換的文本文字中的句映射成音樂中的樂句；將所述待轉換的文本文字中的至少一個詞映射成至少一個音節；將所述待轉換的文本文字中的至少一個字映射成至少一個音符。
3. 根據權利要求2所述的方法，其特征在于，所述獲取待播放的樂器數字接口 MIDI音頻的步驟具體包括根據所述待轉換文本中的段、所述待轉換文本中的句、所述待轉換文本中的詞和所述待轉換文本中的字，來確定待播放的樂器數字接口 MIDI音樂的音樂屬性、樂軌屬性、樂段屬性、和小節及音符屬性；根據所述音樂屬性、樂軌屬性、樂段屬性、和小節及音符屬性，來選取待播放的樂器數字接口MIDI音樂；將所述待播放的樂器數字接口 MIDI音樂轉換成所述待播放的樂器數字接口 MIDI音頻。
4. 根據權利要求3所述的方法，其特征在于，所述音樂屬性為聲調、音色、和節奏中的一種或多種；所述樂段屬性為和弦規律；所述樂軌屬性為鼓點屬性、弦樂背景音軌屬性、節奏伴奏音軌屬性、和獨奏SOLO音軌屬性中的一種或多種；所述小節及音符屬性為旋律規則。
5. 根據權利要求3所述的方法，其特征在于，所述對獲取的待轉換的文本文字進行文字韻律分析的步驟還包括對所述文本文字中的詞和所述文本文字中的字進行字詞感情屬性分析，根據字詞感情屬性分析的結果，來確定待播放的MIDI音樂的音樂感情屬性；所述選取待播放的樂器數字接口 MIDI音樂的步驟為根據所述音樂感情屬性，選取所述待播放的MIDI音樂。
6. 根據權利要求5所述的方法，其特征在于，所述感情屬性分析結果為強烈、中性、和抒情中的一種或多種；所述音樂的感情屬性為搖滾、流行、和民謠中的一種或多種。
7. 根據權利要求1所述的方法，其特征在于，所述方法還包括對所述文字音頻和所述MIDI音頻進行合成處理后，再對合成后的音頻文件進行音效處理。
8. —種將文本文字轉換成說唱音樂的裝置，其特征在于，所述裝置包括文字韻律分析模塊，用于對獲取的待轉換的文本文字進行文字韻律分析，得到所述待轉換的文本文字中的詞和所述待轉換文本文字中的字，并對所述待轉換的文本文字中每個詞和所述待轉換的文本文字中的每個字都賦以聲音屬性；文字轉音頻模塊，用于通過預設的文字語音數據庫和所述聲音屬性，將所述待轉換的文本文字中的每個詞和所述待轉換的文本文字中的每個字都轉換成符合樂器數字接口MIDI音樂規律的文字音頻；音頻合成模塊，用于獲取待播放的樂器數字接口 MIDI音頻，并將所述待播放的樂器數字接口 MIDI音頻和所述符合樂器數字接口 MIDI音樂規律的文字音頻進行合成處理，生成說唱音樂。
9. 根據權利要求8所述的裝置，其特征在于，所述裝置還包括MIID音樂生成模塊，用于根據所述待轉換文本中的段、所述待轉換文本中的句、所述待轉換文本中的詞和所述待轉換文本中的字，來確定待播放的樂器數字接口 MIDI音樂的音樂屬性、樂軌屬性、樂段屬性、和小節及音符屬性；MIDI轉音頻模塊，用于將所述待播放的樂器數字接口 MIDI音樂轉換成所述待播放的樂器數字接口MIDI音頻。
10. 根據權利要求9所述的裝置，其特征在于，所述裝置還包括存儲模塊，用于存儲于所述預設的文字語音數據庫。
全文摘要
本發明提供一種將文本文字轉換成說唱音樂的方法及裝置，屬于電數字數據處理技術領域，該方法包括對獲取的待轉換的文本文字進行文字韻律分析，得到待轉換的文本文字中的詞和字；對待轉換的文本文字中的每個詞和每個字都賦以聲音屬性；通過預設的文字語音數據庫和聲音屬性，將待轉換的文本文字中的每個詞和每個字都轉換成符合MIDI音樂規律的文字音頻；獲取待播放的MIDI音頻，并將待播放的MIDI音頻和符合MIDI音樂規律的文字音頻進行合成處理，生成說唱音樂，通過將文本文字以說唱音樂的形式輸出，增加了該文本文字的娛樂性，從而可提高用戶體驗。
文檔編號G10H1/00GK101694772SQ20091023642
公開日2010年4月14日申請日期2009年10月21日優先權日2009年10月21日
發明者呂博學, 艾國申請人:北京中星微電子有限公司;

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：呂博學;艾國
技術所有人：北京中星微電子有限公司
我是此專利的發明人

上一篇：一種無人機遙控器實時傳送高保真語音數據的方法
上一篇：一種基于tda域的自適應窗切換方法

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

圖片文字轉換成文本相關技術