專利名稱:聲音合成裝置、聲音合成方法和程序的制作方法
技術領域:
本發明涉及聲音合成技術,特別地,用于根據文本合成聲音的聲音合 成裝置、聲音合成方法和程序。
背景技術:
最近,隨著計算機高性能化、小型化,聲音合成技術在汽車導航裝置、
移動電話、PC、機器人等各種裝置上安裝并利用。伴隨著對各種裝置的應
用的普及,利用聲音合成裝置的環境多樣化。
現有的一般的聲音合成裝置中,對于發音符號串(含有讀、句法/詞類 信息、語調類型等的文本解析結果),韻律(例如,音調頻率模式、振幅、 持續時長)生成、單位波形(例如,具有從自然聲音中所提取的音調長或 音節時長程度的長度的波形)選擇、波形生成處理結果原則上唯一地決定。 即,聲音合成裝置不管在什么樣的情況和環境中,始終采用同樣的發聲形 式(聲音的大小和發聲速度、韻律、聲調等)進行聲音合成。
但是,實際上如果觀察人類的發聲,即使在講同樣文本的情況下,也 是按照講話者的情況、感情、意圖等來控制發聲形式。因此,始終采用同 樣發聲形式的現有聲音合成裝置未必可以說是充分地有效地利用聲音這 種傳播介質的特征。
為解決聲音合成裝置的這樣的問題,有人進行了按照用戶環境(聲音 合成裝置利用者存在的場所的情況和環境)動態地改變韻律生成/單位波形 選擇,由此產生適合用戶環境的合成聲音,改善用戶使用方便的這種嘗試。 例如,專利文獻1中,公開了按照表示用戶環境明暗和用戶位置等的信息, 選擇音韻/韻律的控制規則的聲音合成系統的構成。
另外,專利文獻2中,公開了根據周圍噪音的能量譜、頻率分布信息, 控制輔音功率、音調頻率、以及取樣頻率的聲音合成裝置的構成。
更迸一步地,專利文獻3中,公幵了根據包含有時間、日期、和星期
的各種計時信息,控制發聲速度、音調頻率、音量、以及音質的聲音合成 裝置。
下面說明構成本發明背景技術的公開了音樂信號的分析、檢索方法的 非專利文獻K3。非專利文獻1,公開了采用分析音樂信號的短時間振幅
頻譜或離散小波(wavelet)變換系數來得到音樂特征(樂器構成、節奏結 構),從而推斷音樂類型的類型推斷方法。
非專利文獻2中,公開了采用樹結構型矢量量化法,根據音樂信號的 Mel頻率推斷音樂類型的音樂類型推斷方法。
非專利文獻3中,公開了采用頻譜的直方圖進行相似度計算、檢索音 樂信號的方法。
專利文獻1:日本特開第3595041號公報
專利文獻2:日本特開平11-15495號公報
專利文獻3:日本特開平11-161298號公報
非專禾lj文獻 1: Tzanetakis, Essl, Cook: "Automatic Musical Genre Classification of Audio Signals", Proceedings of ISMIR 2001, pp.205畫210, 2001.
非專禾U文獻2: Hoashi, Matsumoto, Inoue: "Personalization of User Profiles for Content-based Music Retrieval Based on Relevance Feedback", Proceedings of ACM Multimedia 2003, pp. 110-119, 2003.
非專利文獻3:木村、他「夕、'口一,/"&枝刈D^導入L/i音々映像 O高速探索j ,電子情報通信學會論文誌D-n, Vol. J85-D-n, No. 10, pp.l552-1562,2002年10月
為了吸引聽眾的注意以及讓訊息給聽眾以深刻印象的目的, 一般和自 然聲音一起播送BGM (background music,以下稱為BGM)。例如,電視 和收音機的新聞、信息提供節—目,大多在解說背景中播送BGM。
如果分析該節目,雖然有些是按照說話者的發聲形式選擇BGM,特 別是該BGM屬于的音樂類型,但也能夠發現在說話者方面采用了意識到 BGM的說話方式。例如,天氣預報和交通信息中,伴隨容易傾聽的平穩 曲調的BGM, 一般用平穩語調進行廣播。但是,即使是相同的內容,在
特定節目中和實況轉播等中,常常以有張力的聲音進行廣播。
并且在帶著悲哀朗讀詩的時候,將布魯士舞曲音樂作為BGM使用, 說話者也進行含有感情的朗讀。此外還能夠看出想要演出神秘氣氛的情況 下選擇宗教音樂,快活的語調的情況下選擇流行歌曲音樂這樣的關系。
另一方面,利用上述種類聲音合成裝置的環境多樣化,將含有上述
BGM的各種音樂進行再現的場所(用戶環境)中,盡管輸出合成聲音的
機會變多,包含有上述專利文獻1等中記載的技術方案的現有聲音合成裝 置中,在控制合成聲音的發聲形式方面,由于不能考慮用戶環境中存在的 音樂,存在發聲形式與周圍的音樂不能協調的問題。
發明內容
本發明,是鑒于上述情況而產生的發明,其目的在于,提供聲音合成 裝置、聲音合成方法以及程序,能夠合成與用戶環境中存在的音樂協調的聲音。
根據本發明的第l個觀點,提供一種聲音合成裝置,其特征在于,按 照所輸入的音樂信號自動選擇發聲形式。更具體地,上述聲音合成裝置具
備分析音樂信號并決定適合該音樂信號分析結果的發聲形式的發聲形式 選擇部;和按照上述發聲形式合成聲音的聲音合成部。
根據本發明的第2個觀點,提供一種采用聲音合成裝置產生合成聲音
的聲音合成方法,其特征在于,包含有上述聲音合成裝置分析所輸入的
音樂信號并決定適合該音樂信號的分析結果的發聲形式的步驟;和上述音
樂合成裝置按照上述發聲形式合成聲音的步驟。
根據本發明的第3個觀點,提供一種在構成聲音合成裝置的計算機上
執行的程序和保存該程序的記錄介質,該程序在上述計算機上執行下列處
理分析所輸入的音樂信號,從預先所準備的發聲形式中,決定適合上述
音樂信號分析結果的發聲形式的處理;和按照上述發聲形式合成聲音的處理。
根據本發明,能夠采用同用戶環境BGM等音樂取得協調的發聲形式 而產生合成聲音。結果,能夠輸出可以吸引用戶注意的合成聲音、以及不 破壞BGM具有的氣氛和傾聽BGM的用戶的情緒的合成聲音。
圖1是對涉及本發明第1實施方式的聲音合成裝置的構成進行示意的 框圖。
圖2是對涉及本發明第1實施方式的聲音合成裝置中使用的音樂類型 與發聲形式以及發聲形式參數之間的關系進行定義的表的一個例子。
圖3是用于對涉及本發明第1實施方式的聲音合成裝置的工作進行說 明的流程圖。
圖4是對涉及本發明第2實施方式的聲音合成裝置的構成進行示意的 框圖。
圖5是對涉及本發明第2實施方式的聲音合成裝置中使用的音樂類型 與發聲形式以及發聲形式參數之間的關系進行定義的表的一個例子。
圖6是用于對涉及本發明第2實施方式的聲音合成裝置的工作進行說 明的流程圖。
圖7是對涉及本發明第3實施方式的聲音合成裝置的構成進行示意的 框圖。
圖8是用于對涉及本發明第3實施方式的聲音合成裝置的工作進行說 明的流程圖。
圖9是對涉及本發明第4實施方式的聲音合成裝置的構成進行示意的 框圖。
圖10是用于對涉及本發明第4實施方式的聲音合成裝置的工作進行 說明的流程圖。 符號說明 11韻律生成部 12單位波形選擇部 13波形生成部
15, ~15N韻律生成規則記憶部
16, 16N單位波形數據記憶部 17合成聲音功率調整部
18合成聲音功率計算部
19音樂信號功率計算部
21音樂類型推斷部
23、 27發聲形式選擇部
24、 28發聲形式信息記憶部 31音樂屬性信息檢索部
32音樂屬性信息記憶部 35音樂再現部 36再現音樂信息取得部 37音樂數據記憶部
具體實施例方式
接著,對用于實施本發明的最佳的方式參照附圖進行詳細說明。圖1 是對涉及本發明第1個實施方式的聲音合成裝置的構成進行示意的框圖。
參照圖l,涉及本實施方式的聲音合成裝置具備韻律生成部ll、單位波
形選擇部12、波形生成部13、韻律生成規則記憶部15,至15N、單位波形 數據記憶部16,至16N、音樂類型推斷部21、發聲形式選擇部23和發聲形 式信息記憶部24。
韻律生成部11是用于從基于發聲形式所選擇的韻律生成規則和發音 符號串產生韻律信息的處理部件。
單位波形選擇部12是用于從基于發聲形式所選擇的單位波形數據、 發音符號串和韻律信息選擇單位波形的處理部件。
波形生成部13是用于從韻律信息和單位波形數據產生合成聲音波形 的處理部件。
韻律生成規則記憶部15,至15N中保存通過各發聲形式實現合成聲音 所必需的韻律生成規則(例如,音調頻率模式、振幅、持續時長等)。
同韻律生成規則記憶部的情況相同,單位波形數據記憶部16,至16N
中保存通過各發聲形式實現合成聲音所必需的單位波形數據(例如,具有
從自然聲音中所提取的音調長和音節時間長程度的長度的波形)。
另外,上述韻律生成規則記憶部15,至15N和單位波形數據記憶部16,
至16N中應保存的韻律生成規則和單位波形數據,能夠通過對適合各發聲 形式的自然聲音進行收集、分析而產生。
以下,本實施方式中,作為下列情況進行說明從有活力的聲音所產 生的有活力的聲音的實現所必需的韻律生成規則和單位波形數據保存在 韻律生成規則記憶部15,和單位波形數據記憶部16,中,從平穩的聲音所 產生的平穩的聲音的實現所必需的韻律生成規則和單位波形數據保存在 韻律生成規則記憶部152和單位波形數據記憶部162中,從耳語聲所產生
的韻律生成規則和單位波形數據保存在韻律生成規則記憶部153和單位波 形數據記憶部163中,從標準聲音所產生的韻律生成規則和單位波形數據 保存在韻律生成規則記憶部15w和單位波形數據記憶部16w中。另外,從 自然聲音產生韻律生成規則和單位波形數據的方法,能夠不依賴發聲形 式,采用和從標準聲音產生的情況相同的方法。
音樂類型推斷部21是用于對所輸入的音樂信號屬于的音樂類型進行 推斷的處理部件。
發聲形式選擇部23是用于根據音樂類型決定發聲形式的處理部件, 該音樂類型根據發聲形式信息記憶部24中保存的表所推斷出。
發聲形式信息記憶部24中保存有對圖2中舉例說明的音樂類型同發 聲形式以及發聲形式參數之間的關系進行定義的表。發聲形式參數是指韻 律生成規則記憶部號碼和單位波形數據記憶部號碼,通過將與各號碼對應 的韻律生成規則和單位波形數據進行編組,實現按照特定發聲形式合成聲 音。另外,圖2的例子中,雖然為說明方便定義了發聲形式和發聲形式參 數兩者,但是,由于發聲形式選擇部23中使用的只是發聲形式參數,因 此,能夠省略發聲形式的定義。
相反的,發聲形式信息記憶部24中,只定義音樂類型同發聲形式之 間的關系,發聲形式同韻律生成規則以及單位波形數據之間的對應關系, 能夠采用韻律生成部11和單位波形選擇部12,選擇適合各發聲形式的韻 律生成規則和單位波形數據。
并且,圖2的例子中,雖然準備了多個發聲形式,但是,能夠只準備 1種發聲形式的單位波形數據,根據韻律生成規則的改變進行發聲形式的 轉換。該情況,能夠更加降低聲音合成裝置的記憶容量和處理量。 更進一步地,上述發聲形式信息記憶部24中定義的音樂類型信息同 發聲形式之間的對應關系,也可以按用戶喜好而改變,也可以從預先所準 備的多個對應關系的組合中由用戶按照喜好進行選擇。
繼續地,參照附圖對涉及本實施方式的聲音合成裝置的工作詳細說 明。圖3是對涉及本實施方式的聲音合成裝置的工作進行示意的流程圖。
參照圖3,首先,音樂類型推斷部21,從所輸入的音樂信號,提取頻譜和 倒譜(cepstrum)等的音樂信號的特征量,推斷所輸入的音樂屬于的音樂 類型,向發聲形式選擇部23輸出(步驟A1)。該音樂類型推斷方法能夠 使用之前提出的非專利文獻1、非專利文獻2等中所記載的公知的方法。
另外,在不存在BGM的情況和屬于推斷對象外的音樂類型的音樂被 輸入的情況下,不將特定的類型名,而將"其它"作為音樂類型向發聲形式 選擇部23輸出。
接著,發聲形式選擇部23,根據音樂類型推斷部21所轉達的推斷音 樂類型,從發聲形式信息記憶部24中所記憶的表(參照圖2)選擇相應的 發聲形式,將為實現所選擇的發聲形式所必需的發聲形式參數向韻律生成 部ll和單位波形選擇部12轉達(步驟A2)。
根據圖2,例如,所推斷的音樂類型為流行歌曲的情況,選擇有活力 的聲音作為發聲形式,容易傾聽的情況選擇平穩的聲音,宗教音樂的情況 選擇耳語聲。所推斷的音樂類型在圖2的表中不存在的情況下,同音樂類
型為"其它"的情況相同,選擇標準的發聲形式。
繼續地,韻律生成部ll,參照從發聲形式選擇部23所供給的發聲形 式參數,從韻律生成規則記憶部15i至15N中,選擇具有發聲形式選擇部 23所指定的記憶部號碼的韻律生成規則記憶部。然后,根據所選擇的韻律 生成規則記憶部的韻律生成規則,從所輸入的發音符號串產生韻律信息, 向單位波形選擇部12和波形生成部13轉達(步驟A3)。
繼續地,單位波形選擇部12,參照從發聲形式選擇部23所轉達的發 聲形式參數,從單位波形數據記憶部16,至16n中,選擇具有發聲形式選 擇部23所指定的記憶部號碼的單位波形數據記憶部。然后,根據所輸入 的發音符號串和從韻律生成部11所供給的韻律信息,從所選擇的單位波 形數據記憶部選擇單位波形,向波形生成部13轉達(步驟A4)。
最后,波形生成部13,根據從韻律生成部11所轉達的韻律信息,連
接從單位波形選擇部12所供給的單位波形,輸出合成聲音信號(步驟A5)。 如上所述,根據本實施方式,能夠按照通過與用戶環境BGM取得了 調和的韻律和單位波形實現的發聲形式,產生合成聲音。
另外,上述實施方式中,雖然按發聲形式準備單位波形數據記憶部16, 至16N,但是,還能夠只設置標準聲音的單位波形數據記憶部。該情況下, 雖然只按照韻律生成規則控制發聲形式,但是,單位波形數據與以韻律生 成規則為首的其它的數據相比,數據大小大,因此產生能夠大幅度消減合 成裝置整體的記憶容量的優點。
上述第l實施方式中,合成聲音的功率沒有成為控制對象,不管在釆 用耳語聲輸出合成聲音的情況下,還是在通過有活力的聲音輸出合成聲音 的情況下,功率都是相同的。例如,根據BGM和發聲形式的對應關系, 能夠想到如果合成聲音的音量比背景音樂過大就損壞協調,根據場合的不 同變得刺耳。反過來,能夠想到如果合成聲音的音量比背景音樂過小,則 不僅僅損壞協調,而且變得難以聽見合成聲音。
這里,對于上述加以改良,將合成聲音的功率也追加為控制對象的本 發明的第2實施方式,參照附圖詳細進行說明。圖4是示意涉及本發明第 2實施方式的聲音合成裝置構成的框圖。
參照圖4,本實施方式的聲音合成裝置,對于涉及上述第l實施方式 的聲音合成裝置(參照圖1),再增加了下列部分合成聲音功率調整部 17、合成聲音功率計算部18和音樂信號功率計算部19。而且,按照圖4 所示,本實施方式中,代替上述第1實施方式的發聲形式選擇部23和發 聲形式信息記憶部24,配置有發聲形式選擇部27和發聲形式信息記憶部 28。
發聲形式信息記憶部28中,保存有對圖5中舉例說明的音樂類型同 發聲形式以及發聲形式參數的關系進行定義的表。同上述第1實施方式的 發聲形式信息記憶部24中保持的表(參照圖2)之間的不同點在于增加了 功率比。
該功率比是用合成聲音的功率除以音樂信號的功率的值。g口,如果功 率比大于l.O,則表示合成聲音的功率比音樂信號的功率大。參照圖5,例 如,音樂類型被推斷為流行歌曲的情況,發聲形式是有活力的聲音,功率 比設定為1.2,按照超過音樂信號功率的功率(1.2倍)輸出合成聲音。同 樣地,發聲形式為平穩的聲音時設定功率比為1.0,耳語聲的情況設定為
0.9,標準聲音的情況設定為1.0。
繼續地,對于涉及本實施方式的聲音合成裝置的工作,參照附圖詳細
說明。圖6是示意涉及本實施方式的聲音合成裝置的工作的流程圖。音樂 類型推斷(步驟Al) 波形生成(步驟A5)為止的期間,雖然同上述第1 實施方式大致相同,但是不同點在于,步驟A2中,發聲形式選擇部27根 據從音樂類型推斷部21所轉達的推斷音樂類型,將發聲形式信息記憶部 28中所記憶的功率比向合成聲音功率調整部17轉達(步驟A2)。
步驟A5中,如果波形生成結束,音樂信號功率計算部19,對所輸入 的音樂信號的平均功率進行計算,向合成聲音功率調整部17轉達(步驟 Bl)。如果信號樣本號碼為n、音樂信號為x(n),例如按照下面式子(1) 表示的一次泄漏(!J 一夕/leaky)積分,能夠求出音樂信號的平均功率Pm(n)。
徵1〗
其中,a是一次泄漏積分的時間常數。由于為了防止合成聲音和BGM 的平均音量的差變大而計算功率,最好將a設定為0.9等大的值,計算長 時間平均功率。反過來,如果將a的值設定為0.1這樣的小的值而計算功 率,則合成聲音的音量變化變得頻繁并且大,有可能變得難于聽到合成聲 音。另外,能夠代替上面式子而使用移動平均和輸入信號的所有樣本的平 均值等。
繼續地,合成聲音功率計算部18,計算從波形生成部13所供給的合 成聲音的平均功率,向合成聲音功率調整部17轉達(步驟B2)。合成聲 音功率的計算中,能夠采用同上述音樂信號功率相同的方法。
最后,合成聲音功率調整部17,根據從音樂信號功率計算部19供給 的音樂信號功率、從合成聲音功率計算部18供給的合成聲音功率、從發 聲形式選擇部27供給的發聲形式參數中的功率比,對從波形生成部13供
16
給的合成聲音信號的功率進行調整,并作為功率調整結束聲音合成信號輸 出(步驟B3)。更具體地,合成聲音功率調整部17調整合成聲音的功率, 以使得最終輸出的合成聲音信號的功率和音樂信號功率的比接近從發聲
形式選擇部27所供給的功率比的值。
更直接地,采用音樂信號功率、合成聲音信號功率、功率比求出功率 調整系數,并與合成聲音信號相乘來實現。因此,功率調整系數中,音樂 信號和功率調整結束合成聲音的功率比,有必要使用與從發聲形式選擇部
27所供給的功率比大致一致的值。如果音樂信號功率為Pm,合成聲音功 率為Ps,功率比為r,則音樂調整系數c用下面式子給出。
徵2]
并且,如果功率調整前的合成聲音信號為y,(n),功率調整后的合成聲 音信號》(n)用下面式子給出。 [數3]
h (") = ^1(")
以上那樣,能夠進行細微控制,選擇有活力的聲音的情況下,讓合成 聲音功率比標準聲音稍大,選擇耳語聲的情況下,讓功率稍小,能夠實現 更加同BGM取得協調的發聲形式。
上述第1、第2實施方式中,雖然采用了推定輸入音樂的類型的方案, 但是,如果使用近幾年的探索/對照方法,就能夠更細致地分析輸入音樂。 以下,參照附圖對于本發明的第3實施方式詳細說明,第3實施方式對于 上述加以改良。圖7是對涉及本發明第3實施方式的聲音合成裝置的構成 進行示意的框圖。
參照圖7,涉及本實施方式的聲音合成裝置,對于涉及上述第1實施 方式的聲音合成裝置(參照圖l),增加音樂屬性信息記憶部32的同時,
代替音樂類型推斷部21而配置有音樂屬性信息檢索部31。
音樂屬性信息檢索部31是用于從所輸入的音樂信號提取頻譜等特征
量的處理部件。音樂屬性信息記憶部32中,各種音樂信號的特征量和該
音樂信號的音樂類型單獨地記錄,根據對照特征量,能夠確定音樂并決定 類型。
使用上述特征量的音樂信號的檢索中,能夠使用非專利文獻3中公開
的通過頻譜的直方圖進行相似度計算的方法。
繼續地,對于涉及本實施方式的聲音合成裝置的工作參照附圖詳細說
明。圖8是對涉及本實施方式的聲音合成裝置的工作進行示意的流程圖。 相對于上述第1實施方式,音樂類型推斷(步驟Al)部不同且其他已經 說明完,因此以下對于圖8的步驟D1詳細說明。
首先,音樂屬性信息檢索部31從所輸入的音樂信號提取頻譜等特征 量。接著,音樂屬性信息檢索部31分別計算音樂屬性信息記憶部32中保 存的音樂的全部特征量和所輸入的音樂信號的特征量的相似度。然后,將 具有最高相似度的音樂的音樂類型信息向發聲形式選擇部轉達(步驟D1)。
另外,步驟D1中,相似度的最大值,在低于所預先設定的閾值的情 況下,音樂屬性信息檢索部31,判斷為與所輸入的音樂信號相對應的音樂 沒有記錄在音樂屬性信息記憶部32中,并將"其他"作為音樂類型輸出。
以上那樣,根據本實施方式,由于使用對于各個音樂單獨地記錄了音 樂類型的音樂屬性信息記憶部32,能夠按照比上述第l、第2實施方式更 高的精度確定音樂類型,并反映在發聲形式上。
另外,構筑音樂屬性信息記憶部32時,如果記憶曲名、藝術家名、 作曲者名等的屬性信息,則能夠根據音樂類型以外的屬性信息決定發聲形 式。
而且,如果音樂屬性信息記憶部32中記憶的音樂的種類數目多,則 雖然能夠確定很多的音樂信號的類型,但是,音樂屬性信息記憶部32的 容量變大。根據需要,可以在音樂合成裝置外部配置音樂屬性信息記憶部 32,在計算音樂信號特征量的相似度時,使用有線和無線通信部件對音樂 屬性信息記憶部32進行訪問。
繼續地,對于涉及上述第1實施方式的聲音合成裝置,增加了 BGM
等樂曲再現功能的本發明的第4實施方式,參照附圖詳細說明。 [第4實施方式]
圖9是對涉及本發明第4實施方式的聲音合成裝置的構成進行示意的
框圖。參照圖9,涉及本實施方式的聲音合成裝置,對于涉及上述第l實 施方式的聲音合成裝置(參照圖1),增加音樂再現部35、音樂數據記憶 部37的同時,代替音樂類型推斷部21而配置再現音樂信息取得部36。
音樂數據記憶部37中保存有音樂信號、該音樂的曲號碼和音樂類型。 音樂再現部35,按照包含有曲號碼和音量、再現,停止'倒退,快進等各種命 令的再現指令,通過揚聲器和耳機等,將音樂數據記憶部37中保存的音 樂信號進行輸出。而且,音樂再現部35,對于再現音樂信息取得部36, 供給再現中的音樂的曲號碼。
再現音樂信息取得部36是與上述第1實施方式的音樂類型推斷部21 相同的處理部件,從音樂數據記憶部37取出與從音樂再現部35所供給的 曲號碼相對應的音樂的類型信息,向發聲形式選擇部23轉達。
繼續地,對于涉及本實施方式的聲音合成裝置的工作參照附圖詳細說 明。圖IO是對涉及本實施方式的聲音合成裝置的工作進行示意的流程圖。 由于相對于上述第1實施方式,音樂類型推斷(步驟Al)的部分不同且 其他己經說明完,以下,對于圖10的步驟D2、 D3詳細說明。
音樂再現部35,如果再現所指定的音樂,將該曲號碼向再現音樂信息 取得部36供給(步驟D2)。
再現音樂信息取得部36,從音樂數據記憶部37取出與從音樂再現部 35供給的曲號碼相對應的音樂的類型信息,向發聲形式選擇部23傳達(步 驟D3)。
根據本實施例,音樂類型的推斷處理和檢索處理是不必要的,能夠可 靠地確定再現中的BGM的音樂類型等。當然,在音樂再現部35,能夠將 再現中的音樂的類型信息從音樂數據記憶部37直接取得的情況下,能夠 取消再現音樂信息取得部36,從音樂再現部35向發聲形式選擇部23直接 供給音樂類型。
而且,音樂類型信息沒有記錄在音樂數據記憶部37中的情況下,能 夠使用音樂類型推斷部21代替再現音樂信息取得部36,推斷音樂類型。
而且,如果在音樂數據記憶部37記錄有類型以外的音樂屬性信息, 如上述第3實施方式中說明的那樣,可以改變發聲形式選擇部23以及發 聲形式信息記憶部24,以使得能夠通過類型以外的屬性信息決定發聲形 式。
以上,雖然對本發明各實施方式進行了說明,但本發明的技術范圍, 不限于上述實施方式,能夠按照聲音合成裝置的用途、方法等,加以各種 變形,或者,采用等同物。
權利要求
1. 一種聲音合成裝置,其特征在于具有分析音樂信號并決定適合該音樂信號分析結果的發聲形式的發聲形式選擇部;和根據上述發聲形式合成聲音的聲音合成部,按照所輸入的音樂信號自動選擇發聲形式。
2. 根據權利要求1所述的聲音合成裝置,其特征在于 上述聲音合成部具有根據上述發聲形式產生韻律信息的韻律生成部;和 根據上述發聲形式選擇單位波形的單位波形選擇部。
3. 根據權利要求1所述的聲音合成裝置,其特征在于 上述聲音合成部具有記憶每個發聲形式的韻律生成規則的韻律生成規則記憶部; 按每個發聲形式記憶單位波形的單位波形記憶部;參照根據上述發聲形式所選擇的韻律生成規則,根據發音符號串產生 韻律信息的韻律生成部;從單位波形記憶部中所記憶的單位波形中選擇對應上述發音符號串 和上述韻律信息的單位波形的單位波形選擇部;和根據上述韻律信息合成上述單位波形而產生合成聲音波形的波形生 成部。
4. 根據權利要求1至3的任一個所述的聲音合成裝置,其特征在于 還具有從關聯音樂和其屬性并記憶的音樂屬性信息記憶部,檢索與所輸入的音樂信號的分析結果相對應的數據,推斷上述所輸入的音樂的屬性 的音樂屬性信息檢索部,上述發聲形式選擇部,通過選擇與上述所輸入的音樂的屬性相對應的 發聲形式,來決定上述發聲形式。
5. 根據權利要求1至3的任一個所述的聲音合成裝置,其特征在于具有分析上述音樂信號并推斷上述音樂屬于的音樂類型的音樂類型 推斷部,上述發聲形式選擇部,通過選擇與上述音樂類型相對應的發聲形式, 來決定上述發聲形式。
6. 根據權利要求1至3的任一個所述的聲音合成裝置,其特征在于 還具有關聯音樂信號和屬性信息并記憶的音樂數據記憶部; 對上述音樂數據記憶部中所保存的音樂信號進行再現的音樂再現部;和參照上述音樂數據記憶部,取得所再現的音樂的屬性信息的再現音樂 信息取得部,上述發聲形式選擇部根據上述屬性信息決定發聲形式。
7. 根據權利要求6所述的聲音合成裝置,其特征在于 上述發聲形式選擇部,根據上述屬性信息中包含有的音樂類型決定上述發聲形式。
8. 根據權利要求1至7的任一個所述的聲音合成裝置,其特征在于 還具有按照上述音樂信號的功率,對根據上述發聲形式所產生的上述合成聲音波形的功率進行調整的合成聲音功率調整部。
9. 根據權利要求1至7的任一個所述的聲音合成裝置,其特征在于還具有分析上述音樂信號而求出音樂信號功率的音樂信號功率計算部;和 分析上述合成聲音波形而求出合成聲音的功率的合成聲音功率計算部;禾n '參照預先按每個發聲形式設定的上述音樂信號的功率和上述合成聲 音的功率的比率,從而按照上述音樂信號的功率,對根據上述發聲形式所 產生的上述合成聲音波形的功率進行調整的合成聲音功率調整部。
10. —種聲音合成方法,使用聲音合成裝置而產生合成聲音,包括 上述聲音合成裝置,分析所輸入的音樂信號,決定適合該音樂信號分析結果的發聲形式的步驟;和上述聲音合成裝置根據上述發聲形式合成聲音的步驟。
11. 根據權利要求IO所述的聲音合成方法,其特征在于還包括上述聲音合成裝置根據上述發聲形式產生韻律信息的步驟;和 上述聲音合成裝置根據上述發聲形式選擇單位波形的步驟, 上述聲音合成裝置釆用上述韻律信息和上述單位波形合成聲音。
12. 根據權利要求10所述的聲音合成方法,其特征在于 上述聲音合成裝置根據上述發聲形式合成聲音的步驟,含有, 上述聲音合成裝置,參照從韻律生成規則記憶部中所記憶的韻律生成規則中按照上述發聲形式所選擇的韻律生成規則,根據發音符號串產生韻 律信息的步驟;和上述聲音合成裝置從按上述發聲形式所準備的單位波形中,選擇與上 述發音符號串和上述韻律信息相對應的單位波形的步驟;和上述聲音合成裝置根據上述韻律信息合成上述單位波形并產生合成 聲音波形的步驟。
13. 根據權利要求10至12的任一個所述的聲音合成方法,其特征在于還包括上述聲音合成裝置從關聯音樂和其屬性并記憶的音樂屬性信 息記憶部,檢索與所輸入的音樂信號的分析結果相對應的數據,并對上述 所輸入的音樂的屬性進行推斷的步驟,通過選擇與上述所輸入的音樂信號的屬性相對應的發聲形式,來決定 適合上述音樂信號的分析結果的發聲形式。
14. 根據權利要求10至12的任一個所述的聲音合成方法,其特征在于還包括上述聲音合成裝置分析上述音樂信號并推斷該音樂屬于的音 樂類型的步驟,上述聲音合成裝置通過選擇與上述音樂類型相對應的發聲形式,來決 定適合上述音樂信號的分析結果的發聲形式。
15. 根據權利要求10至12的任一個所述的聲音合成方法,其特征在于還包括上述聲音合成裝置,對關聯音樂信號和屬性信息并記憶的音樂數據記憶部中所保存的音樂信號進行再現的步驟;和上述聲音合成裝置,參照上述音樂數據記憶部,取得所再現的音樂的 屬性信息的步驟,上述聲音合成裝置,代替所輸入的音樂信號的分析,根據上述屬性信 息決定發聲形式。
16. 根據權利要求15所述的聲音合成方法,其特征在于 上述聲音合成裝置,根據上述屬性信息中包含有的音樂類型決定上述發聲形式。
17. 根據權利要求10至16的任一個所述的聲音合成方法,其特征在 于,還包括上述聲音合成裝置,對根據上述發聲形式所產生的上述合成聲音波形 的功率按照上述音樂信號的功率進行調整的步驟。
18. 根據權利要求10至16的任一個所述的聲音合成方法,其特征在于,還包括上述聲音合成裝置分析上述音樂信號并求出音樂信號功率的步驟;上述聲音合成裝置分析上述合成聲音波形并求出合成聲音功率的步驟;禾口上述聲音合成裝置,參照預先按發聲形式所設定的上述音樂信號的功 率和上述合成聲音的功率的比率,對根據上述發聲形式所產生的上述合成 聲音波形的功率按照上述音樂信號的功率進行調整的步驟。
19. 一種程序,在構成聲音合成裝置的計算機上執行,在上述計算機上執行下列處理分析所輸入的音樂信號,從預先準備的發聲形式中決定適合上述音樂信號的分析結果的發聲形式的處理;和 根據上述發聲形式合成聲音的處理。
20. 根據權利要求19所述的程序,其特征在于 經過根據上述發聲形式產生韻律信息的處理;和根據上述發聲形式選擇單位波形的處理后, 使用上述韻律信息和上述單位波形,進行合成聲音的處理。
21. —種權利要求19所述的程序,其特征在于 經過 參照從與上述計算機所連接的韻律生成規則記憶部中所記憶的韻律 生成規則中按照上述發聲形式所選擇的韻律生成規則,根據發音符號串產 生韻律信息的處理;和從上述計算機所連接的單位波形記憶部中按上述發聲形式所準備的 單位波形中,選擇與上述發音符號串和上述韻律信息相對應的單位波形的 處理后,根據上述韻律信息合成上述單位波形,并進行合成聲音的處理。
22. 根據權利要求19至21的任一個所述的程序,其特征在于還包括從關聯音樂和其屬性并記憶的音樂屬性信息記憶部,檢索與 所輸入的音樂信號的分析結果相對應的數據,并推斷上述所輸入的音樂的 屬性的處理,通過選擇與上述所輸入的音樂的屬性相對應的發聲形式,來進行決定 適合上述音樂信號的分析結果的發聲形式的處理。
23. 根據權利要求19至21的任一個所述的程序,其特征在于,還包括分析上述音樂信號并推斷上述音樂屬于的音樂類型的處理;和通過選擇與上述音樂類型相對應的發聲形式,來進行決定適合上述音 樂信號的分析結果的發聲形式的處理。
24. 根據權利要求19至21的任一個所述的程序,其特征在于:還在上述計算機中執行對關聯音樂信號和屬性信息并記憶的音樂數據記憶部中所保存的音樂信號進行再現的處理;和參照上述音樂數據記憶部,取得所再現的音樂的屬性信息的處理, 上述計算機,代替所輸入的音樂信號的分析,根據上述屬性信息決定 發聲形式。
25. 根據權利要求24所述的程序,其特征在于上述計算機,根據上述屬性信息中包含的音樂類型決定上述發聲形式。
26. 根據權利要求19至25的任一個所述的程序,其特征在于還包括對根據上述發聲形式產生的上述合成聲音波形的功率按照上 述音樂信號的功率進行調整的處理。
27.根據權利要求19至25的任一個所述的程序,其特征在于,還包括分析上述音樂信號并求出音樂信號的功率的處理; 分析上述合成聲音波形并求出合成聲音功率的處理;和 參照預先按發聲形式所設定的上述音樂信號的功率和上述合成聲音的功率的比率,對根據上述發聲形式所產生的上述合成聲音波形的功率按照上述音樂信號的功率進行調整的處理。
全文摘要
本發明的目的在于,提供能夠生成合成聲音的裝置、方法,該合成聲音具有同音樂取得協調的發聲形式。聲音合成裝置的音樂類型推斷部21中,推斷所輸入的音樂信號屬于的音樂類型,發聲形式選擇部23中,參照發聲形式信息記憶部24,根據音樂類型決定發聲形式。韻律生成部11中,參照從韻律生成規則記憶部15<sub>1</sub>至15<sub>N</sub>中根據發聲形式所選擇的韻律生成規則記憶部,根據發音符號串產生韻律信息。單位波形選擇部12中,參照從單位波形數據記憶部16<sub>1</sub>至16<sub>N</sub>中根據發聲形式所選擇的單位波形數據記憶部,根據發音符號串和韻律信息選擇單位波形。波形生成部13中,從韻律信息和單位波形數據產生合成聲音波形。
文檔編號G10L13/10GK101379549SQ20078000488
公開日2009年3月4日 申請日期2007年2月1日 優先權日2006年2月8日
發明者加藤正德 申請人:日本電氣株式會社