專利名稱:歌聲合成方法和設備、程序、記錄介質以及機器人設備的制作方法
技術領域:
本發明涉及用于從演奏數據合成歌聲的方法和設備、程序、記錄介質以及機器人設備。
本發明包含與2003年3月20日向日本專利辦公室申請的日本專利申請JP-2003-079150有關的主題,此專利申請的全部內容在本文引作參考。
背景技術:
如專利文獻1所提出的,到目前為止知道例如通過計算機從給定歌唱數據合成歌聲的技術。
在相關技術領域中,MIDI(樂器數字接口)數據是被接受作為實際標準的代表性演奏數據。一般地,通過控制稱作MIDI聲源的數字聲源而用MIDI數據產生音樂聲音,其中,所述MIDI聲源例如為由MIDI數據激發的聲源,如計算機聲源或電子樂器的聲源。歌詞數據可引入到MIDI文件,如SMF(標準MIDI文件),從而,可自動地編制具有歌詞的音樂五線譜。
還已經提出使用由歌聲參數(特殊數據表示)或組成歌聲的音位片段表現的MIDI數據的嘗試。
雖然這些相關技術試圖用MIDI數據的數據形式來表現歌聲,但是,此嘗試僅僅是在控制樂器意義上的控制,而不是利用MIDI自身擁有的歌詞數據。
而且,利用常規技術不糾正MIDI數據就把為樂器編制的MIDI數據譯成歌曲是不可能的。
另一方面,用于大聲讀電子郵件或主頁的聲音合成軟件由包括本受讓人在內的許多制造商銷售。然而,讀的方式是大聲讀文本的常規方式。
使用電氣或磁性操作來執行與包括人類的生命體相似的動作的機械設備稱作機器人。機器人在日本的使用回溯到60年代末。當時使用的大多數機器人是工業機器人,如機械手或運輸機器人,目的是使工廠的生產操作自動化或提供無人操作。
近年來,正在進行應用機器人的開發,所述應用機器人適于支持人類生活,即在我們日常生活的各個方面支持人類活動,作為人類的伙伴。與工業機器人截然不同的是,應用機器人被賦予在我們日常生活的各個方面學習如何使它自己適合有個體差異的操作員或適應變化環境的能力。寵物型機器人或人形機器人正投入實際使用,其中,寵物型機器人模擬四足動物如狗或貓的身體機構或動作,人形機器人以人類用兩條腿直立行走的身體機構或動作為模型進行設計。
與工業機器人截然不同的是,應用機器人設備能執行以娛樂為中心的各種動作。為此,這些應用機器人設備有時稱作娛樂機器人。在此類機器人設備中,有根據外部信息或內部狀態而執行自主動作的機器人。
用于自主機器人設備的人工智能(AI)是智力功能如推理或判斷的人工實現。進一步試圖人工實現諸如感覺或直覺的功能。在借助視覺裝置或自然語言向外部表現人工智能的表現裝置中,有借助聲音的裝置,作為使用自然語言的表現功能的實例。
對于本發明相關技術的出版物,有專利3233036和日本特開平專利出版物H11-95798。
歌聲的常規合成使用特殊類型的數據,或者即使使用MIDI數據,也不能有效地使用嵌入在其中的歌詞數據,或者,不能在哼唱的意義上唱為樂器準備的MIDI數據。
發明內容
本發明的目的是提供一種合成歌聲的新型方法和設備,從而,有可能克服常規技術中固有的問題。
本發明的另一目的是提供一種合成歌聲的方法和設備,從而,有可能通過利用演奏數據如MIDI數據而合成歌聲。
本發明的又一目的是提供一種合成歌聲的方法和設備,其中,由MIDI文件(以SMF為代表)規定的MIDI數據可通過語音合成而歌唱,如果有的話,可直接使用MIDI數據中的歌詞信息,或者,用其它歌詞替代它,缺少歌詞信息的MIDI數據可設置任意的歌詞或歌唱,并且/或者,可以為單獨提供的文本數據賦予旋律,并且,以模仿的方式歌唱得到的數據。
本發明的再一目的是提供一種使計算機執行歌聲合成功能的程序和記錄介質。
本發明的還一目的是提供一種實施上述歌聲合成功能的機器人設備。
根據本發明的歌聲合成方法包括分析步驟,所述分析步驟把演奏數據分析為音調和音長以及歌詞的音樂信息;歌詞賦予步驟,所述歌詞賦予步驟基于被分析音樂信息的歌詞信息而向音符串賦予歌詞,并且,在沒有歌詞信息的情況下,向可選音符串賦予可選歌詞;以及歌聲產生步驟,所述歌聲產生步驟基于賦予的歌詞而產生歌聲。
根據本發明的歌聲合成設備包括分析裝置,所述分析裝置把演奏數據分析為音調和音長以及歌詞的音樂信息;歌詞賦予裝置,所述歌詞賦予裝置基于被分析音樂信息的歌詞信息而向音符串賦予歌詞,并且,在沒有歌詞信息的情況下,向可選音符串賦予可選歌詞;以及歌聲產生裝置,所述歌聲產生裝置基于因此賦予的歌詞而產生歌聲。
利用根據本發明的歌聲合成方法和設備,通過分析演奏數據并通過向音符信息賦予可選歌詞,有可能產生歌聲信息,并基于因此產生的歌聲信息而產生歌聲,其中,所述音符信息基于從分析得到的音調、音長和聲音速度。如果在演奏數據中有歌詞信息,歌詞就可演唱為歌曲。同時,可向演奏數據中的可選音符串賦予可選歌詞。
本發明所用的演奏數據優選是MIDI文件的演奏數據。
在沒有外部的歌詞指令的情況下,歌詞賦予步驟或裝置優選向演奏數據中的可選音符串賦予預定歌詞元素,如‘ら’(發‘ra’音)或‘ぼん’(發‘bon’音)。
優選向包括在MIDI文件的音軌或通道中的音符串賦予歌詞。
在本文中,優選歌詞賦予步驟或裝置可選地選擇音軌或通道。
還優選歌詞賦予步驟或裝置向在演奏數據中首先出現的音軌或通道中的音符串賦予歌詞。
另外優選歌詞賦予步驟或裝置向多個音軌或通道賦予獨立的歌詞。通過這樣做,容易實現二重唱或三重唱中的合唱。
優選保存歌詞賦予的結果。
在歌詞信息中包括表示語音的信息的情況下,希望進一步設置用于在歌詞中插入語音的語音插入步驟或裝置,所述步驟或裝置用合成語言大聲讀語音,以取代在唱歌詞時的歌詞,從而在歌曲中插入語音。
根據本發明的程序允許計算機執行本發明的歌聲合成功能。根據本發明的記錄介質是計算機可讀的,并在其上記錄所述程序。
根據本發明的機器人設備是根據被提供的輸入信息而執行動作的自主機器人設備,所述機器人設備包括分析裝置,所述分析裝置把演奏數據分析為音調和音長以及歌詞的音樂信息;歌詞賦予裝置,所述歌詞賦予裝置基于被分析音樂信息的歌詞信息而向音符串賦予歌詞,并且,在沒有歌詞信息的情況下,向可選音符串賦予可選歌詞;以及歌聲產生裝置,所述歌聲產生裝置基于因此賦予的歌詞而產生歌聲。此配置顯著提高作為娛樂機器人的機器人設備的性質。
圖1為示出根據本發明的歌聲合成設備的系統配置的框圖。
圖2示出分析結果的音符信息的實例。
圖3示出歌聲信息的實例。
圖4為示出歌聲產生單元的結構的框圖。
圖5示出未分配歌詞的音樂五線譜信息的實例。
圖6示出歌聲信息的實例。
圖7為示出根據本發明的歌聲合成設備的操作的流程圖。
圖8為示出根據本發明的機器人設備的外觀的透視圖。
圖9示意性地示出機器人設備的自由度結構的模型。
圖10為示出機器人設備系統結構的示意性框圖。
具體實施例方式
參照附圖詳細解釋本發明的優選實施例。
圖1示出根據本發明的歌聲合成設備的系統配置。盡管預先假定本歌聲合成設備例如用于機器人設備,其中,所述機器人設備至少包括感覺模型、語音合成裝置和發音裝置,但這不應解釋為限制意義的,并且當然,本發明可應用于各種機器人設備以及除機器人之外的各種計算機AI(人工智能)。
在圖1中,演奏數據分析單元2分析以MIDI數據為代表的演奏數據1,分析輸入的演奏數據,把該數據轉換為音樂五線譜信息4,所述音樂五線譜信息4表示包括在演奏數據中的音軌或通道的音調、音長和聲音速度。
圖2示出轉換為音樂五線譜信息4的演奏數據(MIDI數據)的實例。參照圖2,事件從一個音軌寫到下一個音軌并從一個通道寫到下一個通道。事件包括音符事件和控制事件。音符事件具有與產生時間(圖2中的列‘時間’)、音調、長度和強度(速度)有關的信息。因而,音符串或聲音串由音符事件序列定義。控制事件包括表示產生時間的數據、諸如顫音、演奏動態表現和控制內容的控制類型數據。例如,在顫音的情況下,控制內容包括表示聲音脈動大小的‘深度’項、表示聲音脈動周期的‘寬度’項、以及表示從聲音脈動開始時刻(發聲時刻)起的延遲時間的‘延遲’項。用于特定音軌或通道的控制事件用于再現所述音軌或通道的音符串的音樂聲,除非發生用于所述控制類型的新控制事件(控制變化)。而且,在MIDI文件的演奏數據中,可基于音軌而輸入歌詞。在圖2中,在上半部表示的‘あるう日’(‘一天’,發‘a-ru-u-hi’音)是在音軌1中輸入的歌詞的一部分,而在下半部表示的‘あるう日’是在音軌2中輸入的歌詞的一部分。也就是說,在圖2的實例中,歌詞已經嵌入到被分析的音樂信息(音樂五線譜信息)中。
在圖2中,時間用“小節拍分段信號數量”表示,長度用“分段信號數量”表示,速度用數字‘0-127’表示,并且,音調用‘A4’代表440Hz而表示。另一方面,顫音的深度、寬度和延遲分別用數字‘0-64-127’表示。
被轉換的音樂五線譜信息4傳遞給歌詞賦予單元5。歌詞賦予單元5根據音樂五線譜信息4而產生歌聲信息6,歌聲信息6由用于聲音的歌詞以及與音符的長度、音調、速度和聲調有關的信息組成,其中,所述聲音的歌詞與音符相匹配。
圖3示出歌聲信息6的實例。在圖3中,‘song’為表示歌詞信息開始的標簽。標簽‘PP,T10673075’表示10673075μsec的停頓,標簽‘tdyna 110 649075’表示從前端開始10673075μsec的總速度,標簽‘fine-100’表示細微的音調調整,與MIDI的微調相對應,并且,標簽‘vibrato NRPN_dep=64’、‘vibrato NRPN_del=50’以及‘vibrato NRPN_rat=64’分別代表顫音的深度、延遲和寬度。標簽‘dyna 100’代表不同聲音的相對速度,并且,標簽‘G4,T288461あ’代表具有G4音調和288461μsec長度的歌詞元素‘あ’(發‘a’音)。圖3的歌聲信息從圖2所示的音樂五線譜信息(MIDI數據的分析結果)獲得。圖3的歌詞信息從圖2所示的音樂五線譜信息(MIDI數據的分析結果)獲得。
從圖2和3的比較可看出,用于控制樂器的演奏數據,如音樂五線譜信息,完全用于產生歌聲信息。例如,對于歌詞部分‘あるう日’中的組成元素‘あ’,其產生時間、長度、音調和速度包括在控制信息中或包括在音樂五線譜信息的音符事件信息中(參見圖2),并且與除‘あ’之外的歌唱屬性一起直接使用,其中,所述歌唱屬性例如為聲音‘あ’的產生時間、長度、音調或速度,音樂五線譜信息中相同音軌或通道內的下一音符事件信息也直接用于下一歌詞元素‘る’(發‘u’音),等等。
參照圖1,歌聲信息6傳遞給歌聲產生單元7,在此歌聲產生單元7中,歌聲產生單元7基于歌聲信息6而產生歌聲波形8。從歌聲信息6產生歌聲波形8的歌聲產生單元7例如按圖4所示進行配置。
在圖4中,歌聲節奏產生單元7-1把歌聲信息6轉換為歌聲節奏數據。波形產生單元7-2把歌聲節奏數據轉換為歌聲波形8。
作為具體實例,現在解釋把具有音調‘A4’的歌詞元素‘ら’(發‘ra’音)擴展為當前時間長度的情況。在不應用顫音情況下的歌聲節奏數據可按下表1表示表1
在上表中,[標記]代表各個聲音(音位元素)的時間長度。也就是說,聲音(音位元素)‘ra’具有從采樣0到采樣1000的1000個采樣的時間長度,并且,第一聲音‘aa’、下一聲音‘ra’具有從采樣1000到采樣39600的38600個采樣的時間長度。‘音調’代表以點音調表示的音調周期。也就是說,在采樣點0的音調周期為56個采樣。這里,不改變‘ら’的音調,從而,56個采樣的音調周期作用在全部采樣上。另一方面,‘音量’代表各個采樣點每一個上的相對音量。也就是說,對于100%的缺省值,在0采樣點的音量為66%,而在39600采樣點的音量為57%。在40100采樣點的音量為48%,在42600采樣點的音量為3%,等等。這實現‘ら’聲音隨著時間的衰減。
另一方面,如果應用顫音,就編制下表2所示的歌聲節奏數據表2
如上表的列‘音調’所示,在0采樣點的音調周期和在1000采樣點的音調周期都是50個采樣。在此時間間隔中,語音音調沒有變化。從此時刻起,音調周期以大約4000個采樣的周期(寬度)在50±3的范圍內上下擺動,例如2000采樣點上53個采樣的音調周期、4009采樣點上47個采樣的音調周期以及6009采樣點上53個采樣的音調周期。以此方式,實現作為語音音調脈動的顫音。基于與歌聲信息6中相應歌聲元素如‘ら’有關的信息而產生列‘音調’的數據,所述信息具體為諸如A4的音調號、以及諸如標簽vibrato NRPN_dep=64’、‘vibrato NRPN_del=50’以及‘vibrato NRPN_rat=64’的顫音控制數據。
基于以上歌聲音位數據,波形產生單元7-2從未示出的內部波形存儲器讀出采樣而產生歌聲波形8。應指出,適于從歌聲信息6產生歌聲波形8的歌聲產生單元7不局限于以上實施例,從而,可以使用任何適當的已知產生歌聲的單元。
回到圖1,演奏數據1傳遞給MIDI聲源9,MIDI聲源9接著基于演奏數據而產生音樂聲。產生的音樂聲是伴奏波形10。
歌聲波形8和伴奏波形10傳遞給適于使兩個波形互相合成和混合的混合單元11。
混合單元11使歌聲波形8和伴奏波形10合成,并且,把兩個波形疊加在一起,以產生并再現因此疊加的波形。因而,基于演奏數據1,通過歌聲及其附屬的伴奏而再現音樂。
在歌詞賦予單元5基于音樂五線譜信息4而轉換為歌聲信息6的階段中,如果在音樂五線譜信息4中存在歌詞信息,當歌聲信息6被列為優先時,就向該信息賦予所存在的歌詞。如前所述,圖2示出已經被賦予歌詞的音樂五線譜信息4的實例,圖3示出從圖2音樂五線譜信息4產生的歌聲信息6的實例。
此時,它是用于音樂五線譜信息4的音軌或通道的音符串,其中,音軌選擇單元14基于音樂五線譜信息4而選擇所述音符串,歌詞賦予單元5向音符串賦予歌詞。
如果在音樂五線譜信息4中在任何音軌或通道中都沒有歌詞,歌詞賦予單元5就向音軌選擇單元14選擇的音符串賦予歌詞,其中,音軌選擇單元14基于可選歌詞數據12,如‘ら’或‘ぼん’(發‘bon’音)而選擇所述音符串,其中,可選歌詞數據12由操作員通過歌詞選擇單元13事先確定的。
圖5示出未分配歌詞的音樂五線譜信息4的實例,圖6示出與圖5音樂五線譜信息相應的歌聲信息6的實例,在圖6中,‘ら’被登記為可選歌詞元素。
此時,在圖5中,時間用“小節拍分段信號數量”表示,長度用“分段信號數量”表示,速度用數字‘0-127’表示,并且,音調用‘A4’代表440Hz而表示。
參照圖1,操作員通過歌詞選擇單元13把任何可選讀物的歌詞數據的賦予確定為可選歌詞數據12。在操作員沒有指定時,通過可選歌詞數據12的缺省值設定‘ら’。
歌詞選擇單元13能向音軌選擇單元14選擇的音符串賦予歌詞數據15,其中,事先在歌聲合成設備的外部設置歌詞數據15。
歌詞選擇單元13還可通過歌詞產生單元17把文本數據16轉換為讀物,以選擇可選字母/字符串作為歌詞,其中,所述文本數據16例如為在文字處理器上準備的電子郵件或文件。應指出,對由日本漢字-假名混合語句組成的字母/字符串進行轉換的周知技術是‘語素分析’應用。
此時,感興趣的文本可以是在網絡上分配的網上文本18。
根據本發明,如果在歌詞信息中包括表示臺詞(語音或敘述)的信息,就可在說出歌詞時,與合成聲音一起大聲地讀臺詞,以取代歌詞,由此在歌詞中引入臺詞。
例如,如果在MIDI數據中有諸如‘//幸せだな一’(‘我是多么幸運啊!’,發‘shiawase-da-na-’音)的語音標簽,就在歌詞賦予單元5產生的歌聲信息6的歌詞上增加‘SP,T2345696幸せだな一’,作為表示所述歌詞部分是語音的信息。在此情況下,語音部分傳遞給文本聲音合成單元19,以產生語音波形20。很有可能使用諸如‘SP,Tspeech’的標簽在字母/字符串的級別上表達代表語音的信息。
也可借助用于表示語音的時間信息,通過轉而使用歌聲信息中的安靜信息,通過在語音之前增加靜默波形而產生語音波形。
音軌選擇單元14可向操作員建議音樂五線譜信息4中的音軌號、各個音軌中的通道號或歌詞存在與否,以便操作員選擇向音樂五線譜信息4中的哪個音軌或通道賦予哪個歌詞。
在向音軌選擇單元14中的音軌或通道已經賦予歌詞的情況下,音軌選擇單元14選擇被賦予歌詞的音軌或通道。
如果沒有賦予歌詞,就核實在操作員的命令下選擇哪個音軌或通道。當然,操作員可選地向已經被賦予歌詞的音軌或通道賦予可選歌詞。
如果既不賦予歌詞也沒有操作員的命令,就向歌詞賦予單元5缺省通知第一音軌的第一通道,作為感興趣的音符串。
歌詞賦予單元5基于音樂五線譜信息4,使用歌詞選擇單元13選擇的歌詞或使用在音軌或通道中描述的歌詞,為音軌選擇單元14所選音軌或通道表示的音符串產生歌聲信息6。可為各個音軌或通道中的每一個單獨執行此處理。
圖7示出圖1所示歌聲合成設備的總體操作的流程圖。
參照圖7,首先輸入MIDI文件的演奏數據1(步驟S1)。接著分析演奏數據1,并接著輸入音樂五線譜數據4(步驟S2和S3)。隨后向執行設定處理的操作員詢問是選擇音軌或通道作為歌詞主題還是選擇MIDI音軌或通道沉默(步驟S4),其中,所述設定處理例如為選擇歌詞。在操作員還未執行設定的情況下,在后續處理中應用缺省設定。
隨后的步驟S5-S16表示用于增加歌詞的處理。如果已經從外部指定用于感興趣音軌的歌詞(步驟S5),此歌詞就在優先次序中排第一。因而,處理轉移到步驟S6。如果指定的歌詞是文本數據16、18,如電子郵件,文本數據就轉換為讀物(步驟S7),并且,隨后獲得歌詞。如果指定的歌詞不是文本數據而例如是歌詞數據15,就直接獲得從外部指定的歌詞,作為歌詞(步驟S8)。
如果還未從外部指定歌詞,就檢查在音樂五線譜信息4內是否有歌詞(步驟S9)。在音樂五線譜信息中存在的歌詞在優先次序中排第二,從而,如果以上步驟的檢查結果是肯定的,就獲得音樂五線譜信息中的歌詞(步驟S10)。
如果在音樂五線譜信息4中沒有歌詞,就檢查是否已經指定可選歌詞(步驟S11)。當已經指定可選歌詞時,獲得用于可選歌詞的可選歌詞數據12(步驟S12)。
如果可選歌詞判定步驟S11中的檢查結果是否定的,或者在歌詞獲得步驟S8、S10或S12之后,檢查是否已經選擇將被分配歌詞的音軌(步驟S13)。當沒有選擇的音軌時,選擇領先的音軌(步驟S19)。具體地,選擇首先出現的音軌通道。
以上決定將被分配歌詞的音軌和通道,因而,通過使用音軌中的音軌音樂五線譜信息4而從歌詞準備歌聲信息6。
接著檢查是否已經完成對全部音軌的處理(步驟S16)。當還未完成處理時,對下一音軌執行處理,并接著回到步驟S5。
因而,當在多個音軌的每一個上增加歌詞時,歌詞獨立地增加到單獨的音軌上,以編制歌聲信息6。
也就是說,對于圖7所示的歌詞增加處理,如果在被分析的音樂信息中沒有歌詞信息,就在可選的音符串中增加可選歌詞。如果從外部沒有指定歌詞,預設的歌詞元素如‘ら’或‘ぼん’就可賦予可選音符串。包含在MIDI文件的音軌或通道內的音符串也是歌詞賦予的主體。另外,通過操作員設定的處理而可選地選擇被分配歌詞的音軌或通道(S4)。
在增加歌詞的處理之后,處理轉移到步驟S17,在此步驟中,通過歌聲產生單元7從歌聲信息6編制歌聲波形8。
接著,如果在歌聲信息中有語音(步驟S18),就通過文本聲音合成單元19編制語音波形20(步驟S19)。因而,當表示語音的信息已經包括在歌詞信息中時,通過合成的聲音大聲地讀語音,以取代在唱相關歌詞部分時的歌詞,因而在歌曲中引入語音。
接著,檢查是否有靜默的MIDI聲源(步驟S20)。如果有靜默的MIDI聲源,就使相關MIDI音軌或通道靜默(步驟S21)。這使已經被分配歌詞的音軌或通道的音樂聲靜默。接著,通過MIDI聲源9再現MIDI,以編制伴奏波形10(步驟S21)。
通過以上處理,產生歌聲波形8、語音波形20和伴奏波形10。
通過混合單元11合成歌聲波形8、語音波形20和伴奏波形10,并使其疊加在一起,以再現疊加在一起所得到的波形,作為輸出波形3(步驟S23和S24)。此輸出波形3通過未示出的聲音系統輸出,作為聲信號。
在最后的步驟S24中,或在可選的中途步驟中,例如在歌聲波形和語音波形的產生已經結束的階段中,可保存處理結果,如歌詞賦予結果或語音賦予結果。
上述歌聲合成功能例如安裝在機器人設備中。
以本發明實施例示出的用兩條腿行走類型的機器人設備是在我們日常生活各個方面,如在我們的生活環境中,支持人類活動的應用機器人,并且能根據內部狀態如憤怒、悲傷、快樂或幸福而動作。同時,這是能表現人類基本行為的娛樂機器人。
參照圖8,機器人設備60由軀干單元62形成,軀干單元62在預定位置連接到頭部單元63、左右臂單元64R/L以及左右腿單元65R/L,其中,R和L分別代表表示右和左的后綴,以下相同。
在圖9中示意性地示出為機器人設備60設置的關節的自由度結構。支撐頭部單元63的頸關節包括三個自由度,即頸關節偏轉軸101、頸關節俯仰軸102和頸關節翻滾軸103。
組成上肢的臂單元64R/L由肩關節俯仰軸107、肩關節翻滾軸108、上臂偏轉軸109、肘關節俯仰軸110、前臂偏轉軸111、腕關節俯仰軸112、腕關節翻滾軸113和手單元114組成。手單元114實際上是包括多個手指的多關節多自由度結構。然而,由于手單元114的動作只在更低的程度上作用于或者影響機器人設備60的姿勢控制或行走控制,因此,在本文描述中假設手單元具有零自由度。結果,每個臂單元都設置七個自由度。
軀干單元62也具有三個自由度,即,軀干俯仰軸104、軀干翻滾軸105和軀干偏轉軸106。
形成下肢的每個腿單元65R/L都由臀關節偏轉軸115、臀關節俯仰軸116、臀關節翻滾軸117、膝關節俯仰軸118、踝關節俯仰軸119、踝關節翻滾軸120、以及腿單元121組成。在本文描述中,臀關節俯仰軸116和臀關節翻滾軸117的交叉點規定機器人設備60的臀關節位置。盡管實際上人類的腿單元121是包括腳底的結構,其中,腳底具有多個關節和多個自由度,但是,假設機器人設備的腳底是零自由度的。結果,每條腿具有六個自由度。
總之,機器人設備60全部具有總計3+7×2+3+6×2=32個自由度。然而,應指出,娛樂機器人設備的自由度的數量不局限于32,從而,可根據設計或制造中的約束條件或根據要求的設計參數而適當地增加或減少自由度的數量,即,關節數量。
實際上使用執行器來安裝上述機器人設備60擁有的上述自由度。考慮到消除外觀上過度的腫脹以接近人體自然形狀的要求、以及對因兩條腿行走導致的不穩定結構進行姿勢控制的要求,希望執行器尺寸小且重量輕。更優選執行器設計和構造為直接傳動耦合類型的小尺寸AC伺服執行器,其中,伺服控制系統布置為一個芯片并安裝在電動機單元中。
圖10示意性地示出機器人設備60的控制系統結構。參照圖10,控制系統由思維控制模塊200以及動作控制模塊300組成,其中,思維控制模塊200根據用戶輸入而動態地負責情緒判斷或感覺表達,動作控制模塊300控制機器人設備60全部軀體的協同動作,如驅動執行器350。
思維控制模塊200是獨立驅動的信息處理設備,它由執行計算與情緒判斷或感覺表達的CPU(中央處理單元)211、RAM(隨機存取存儲器)212、ROM(只讀存儲器)213、以及外部存儲裝置(如硬盤驅動器)214組成,并且能在模塊內執行自主式處理。
此思維控制模塊200根據外部的刺激,如從圖像輸入裝置251輸入的圖像數據或從聲音輸入裝置252輸入的聲音數據,而決定機器人設備60當前的感覺或意向。圖像輸入裝置251例如包括多個CCD(電荷耦合裝置)照相機,而聲音輸入裝置252包括多個麥克風。
思維控制模塊200基于決定而發出對動作控制模塊300的命令,以便執行動作或行為序列,即四肢的動作。
動作控制模塊300是獨立驅動的信息處理設備,它由控制機器人設備60全部軀體的協同動作的CPU(中央處理單元)311、RAM 312、ROM 313、以及外部存儲裝置(如硬盤驅動器)314組成,并且能在模塊內執行自主式處理。外部存儲裝置314能儲存動作表,包括脫機計算的行走方案以及目標ZMP軌跡。應指出,ZMP是在地板表面上在行走過程中從地板作用的反作用力的力矩等于零的點,而ZMP軌跡是在機器人設備60的行走周期中ZMP移動的軌跡。對于ZMP的概念以及應用ZMP作為行走機器人穩定程度的檢驗標準,參照Miomir Vukobratovic的“有腿移動機器人(Legged LocomotionRobots)”,以及Ichiro KATO等的“行走機器人和人造腿(WalkingRobot and Artificial Legs)”,NIKKAN KOGYO SHIMBUN-SHA出版。
通過總線接口(I/F)301連接到動作控制模塊300的例如有執行器350、姿勢傳感器351、地板接觸確認傳感器352、353、以及電源控制裝置354,其中,執行器350分布在圖9所示機器人設備60的全部軀體上,用于實現自由度;姿勢傳感器351用于測量軀干單元62的傾斜姿勢;地板接觸確認傳感器352、353用于檢測左右腳的腳底的飛躍狀態或站立狀態;電源控制裝置354用于監督諸如電池的電源。例如通過組合加速傳感器和陀螺儀傳感器而形成姿勢傳感器351,同時,地板接觸確認傳感器352、353中的每一個都由近程傳感器或微型開關形成。
思維控制模塊200和動作控制模塊300在公共平臺上形成,并且通過總線接口201、301互連。
動作控制模塊300控制由各個執行器350產生的全部軀體的協同動作,用于實現由思維控制模塊200命令的行為。也就是說,CPU 311從外部存儲裝置314中提取出與思維控制模塊200所命令行為一致的行為方案,或者在內部產生該行為方案。CPU 311根據指定的動作方案而設定腳/腿動作、ZMP軌跡、軀干動作、上肢動作以及水平位置和腰部高度,同時向各個執行器350發送命令值,以命令執行與設定內容一致的動作。
CPU 311還基于姿勢傳感器351的輸出信號而檢測機器人設備60的軀干單元62的姿勢或傾斜,同時,通過地板接觸確認傳感器352、353的輸出信號檢測腿單元65R/L是處于飛躍狀態還是處于站立狀態,以便適應性地控制機器人設備60全部軀體的協同動作。
CPU 311還控制機器人設備60的姿勢或動作,從而,ZMP位置總是指向ZMP穩定區的中心。
動作控制模塊300適于向思維控制模塊200返回已經實現與思維控制模塊200所做決定保持一致的行為的程度,即處理狀態。
以此方式,機器人設備60能基于控制程序而核實自己的狀態和周圍的狀態,以執行自主行為。
在此機器人設備60中,例如在思維控制模塊200的ROM 213中駐留已經實施上述歌聲合成功能的程序,包括數據。在此情況下,用于合成歌聲的程序由思維控制模塊200的CPU 211執行。
通過向機器人設備提供上述歌聲合成功能,新獲得機器人設備對著伴奏唱歌的表現能力,結果是該機器人設備作為娛樂機器人的性質得到增強,進一步密切機器人設備與人類的關系。
本發明不局限于上述實施例,只要不偏離本發明的范圍,就可以希望的方式進行修改。
例如,盡管在上面已經示出和解釋可用于歌聲產生單元7的歌聲信息,但也可以使用各種其它的歌聲產生單元,其中,歌聲產生單元7與在以下語音合成方法和設備中使用的歌聲合成單元和波形產生單元相對應,所述語音合成方法和設備又用于本代理人先前提出的日本專利申請2002-73385的說明書和附圖中公布的歌聲產生方法和設備中。在此情況下,通過各種歌聲產生單元從以上演奏數據當然足以產生包含產生歌聲所需信息的歌聲信息。另外,演奏數據也可以是許多標準的演奏數據,不必局限于MIDI數據。
工業應用對于根據本發明的歌聲合成方法和設備,其中,演奏數據被分析為音調和音長的音樂信息以及歌詞的音樂信息,基于被分析音樂信息的歌詞信息而向音符串賦予歌詞,在沒有歌詞信息時,可向被分析音樂信息中的任意音符串賦予任意歌詞,并且,其中,基于因此賦予的歌詞而產生歌聲,可分析演奏數據,并向音符信息賦予任意歌詞,以產生歌聲信息并基于因此產生的歌聲信息而產生歌聲,其中,所述音符信息由從分析得到的音調、音長和聲音速度而得到。如果在演奏數據中有歌詞信息,就有可能唱出歌詞。另外,可向演奏數據中的可選音符串賦予任意歌詞。因而,由于不必增加在到目前為止只通過樂器聲音而創造或表現音樂時的任何特殊信息而再現歌聲,因此,可較大地提高音樂表現力。
根據本發明的程序允許計算機執行本發明的歌聲合成功能。在根據本發明的記錄介質上記錄此程序,并且,此介質是計算機可讀的。
對于根據本發明的程序和記錄介質,其中,演奏數據被分析為音調和音長的音樂信息以及歌詞的音樂信息,基于被分析音樂信息的歌詞信息而向音符串賦予歌詞,在沒有歌詞信息時,可向被分析音樂信息中的任意音符串賦予任意歌詞,并且,其中,基于因此賦予的歌詞而產生歌聲,可分析演奏數據,并向音符信息賦予任意歌詞,以產生歌聲信息并基于因此產生的歌聲信息而產生歌聲,其中,所述音符信息由從分析得到的音調、音長和聲音速度而得到。如果在演奏數據中有歌詞信息,就有可能唱出歌詞。另外,可向演奏數據中的可選音符串賦予任意歌詞。
根據本發明的機器人設備能實現根據本發明的歌聲合成功能。也就是說,對于根據本發明的基于被提供的輸入信息而執行動作的自主機器人設備,輸入演奏數據被分析為音調和音長的音樂信息以及歌詞的音樂信息,基于被分析音樂信息的歌詞信息而向音符串賦予歌詞,在沒有歌詞信息時,可向被分析音樂信息中的任意音符串賦予任意歌詞,并且,其中,基于因此賦予的歌詞而產生歌聲,可分析輸入的演奏數據,并向音符信息賦予任意歌詞,以產生歌聲信息并基于因此產生的歌聲信息而產生歌聲,其中,所述音符信息由從分析得到的音調、音長和聲音速度而得到。如果在演奏數據中有歌詞信息,就有可能唱出歌詞。另外,可向演奏數據中的可選音符串賦予任意歌詞。結果是可提高機器人設備的表現力,作為娛樂機器人的機器人設備的性質得到增強,進一步密切機器人設備與人類的關系。
權利要求
1.一種用于合成歌聲的方法,包括分析步驟,所述分析步驟把演奏數據分析為音調和音長以及歌詞的音樂信息;歌詞賦予步驟,所述歌詞賦予步驟基于被分析音樂信息的歌詞信息而向音符串賦予歌詞,并且,在沒有歌詞信息的情況下,向可選音符串賦予可選歌詞;以及歌聲產生步驟,所述歌聲產生步驟基于賦予的歌詞而產生歌聲。
2.如權利要求1所述的歌聲合成方法,其中所述演奏數據是MIDI文件的演奏數據。
3.如權利要求1所述的歌聲合成方法,其中在從外部沒有指定具體歌詞的情況下,所述歌詞賦予步驟向可選音符串賦予預定歌詞。
4.如權利要求2所述的歌聲合成方法,其中所述歌詞賦予步驟向包括在所述MIDI文件的音軌或通道中的音符串賦予歌詞。
5.如權利要求4所述的歌聲合成方法,其中所述歌詞賦予步驟任意地選擇所述音軌或通道。
6.如權利要求4所述的歌聲合成方法,其中所述歌詞賦予步驟向在演奏數據中首先出現的音軌或通道的音符串賦予歌詞。
7.如權利要求4所述的歌聲合成方法,其中所述歌詞賦予步驟向多個音軌或通道中的每一個賦予獨立的歌詞。
8.如權利要求2所述的歌聲合成方法,其中所述歌詞賦予步驟儲存歌詞賦予的結果。
9.如權利要求2所述的歌聲合成方法,進一步包括語音插入步驟,在所述歌詞信息中包括表示語音的信息的情況下,所述語音插入步驟通過合成聲音大聲讀語音,以取代在唱歌詞時的所述歌詞,從而在歌曲中引入語音。
10.一種用于合成歌聲的設備,包括分析裝置,所述分析裝置把演奏數據分析為音調和音長以及歌詞的音樂信息;歌詞賦予裝置,所述歌詞賦予裝置基于被分析音樂信息的歌詞信息而向音符串賦予歌詞,并且,在沒有歌詞信息的情況下,向可選音符串賦予可選歌詞;以及歌聲產生裝置,所述歌聲產生裝置基于賦予的歌詞而產生歌聲。
11.如權利要求10所述的歌聲合成設備,其中所述演奏數據是MIDI文件的演奏數據。
12.如權利要求10所述的歌聲合成設備,其中在從外部沒有指定具體歌詞的情況下,所述歌詞賦予裝置向可選音符串賦予預定歌詞。
13.如權利要求11所述的歌聲合成設備,其中所述歌詞賦予裝置向包括在所述MIDI文件的音軌或通道中的音符串賦予歌詞。
14.如權利要求11所述的歌聲合成設備,進一步包括語音插入裝置,在所述歌詞信息中包括表示語音的信息的情況下,所述語音插入裝置通過合成語音大聲讀語音,以取代在唱歌詞時的所述歌詞,從而在歌曲中引入語音。
15.一種使計算機執行預設處理的程序,所述程序包括分析步驟,所述分析步驟把輸入演奏數據分析為音調和音長以及歌詞的音樂信息;歌詞賦予步驟,所述歌詞賦予步驟在被分析音樂信息中沒有歌詞信息的情況下,向任意音符串賦予任意歌詞;以及歌聲產生步驟,所述歌聲產生步驟基于賦予的歌詞而產生歌聲。
16.如權利要求15所述的程序,其中所述演奏數據是MIDI文件的演奏數據。
17.如權利要求16所述的程序,進一步包括語音插入步驟,在所述歌詞信息中包括表示語音的信息的情況下,所述語音插入步驟通過合成語音大聲讀語音,以取代在唱歌詞時的所述歌詞,從而在歌曲中引入語音。
18.一種其上記錄用于使計算機執行預設處理的程序的計算機可讀記錄介質,所述程序包括分析步驟,所述分析步驟把輸入演奏數據分析為音調和音長以及歌詞的音樂信息;歌詞賦予步驟,所述歌詞賦予步驟基于被分析音樂信息的歌詞信息而向音符串賦予歌詞,并且,在沒有歌詞信息的情況下,向可選音符串賦予可選歌詞;以及歌聲產生步驟,所述歌聲產生步驟基于賦予的歌詞而產生歌聲。
19.如權利要求18所述的記錄介質,其中所述演奏數據是MIDI文件的演奏數據。
20.一種根據被提供的輸入信息而執行動作的自主機器人設備,包括分析裝置,所述分析裝置把演奏數據分析為音調和音長以及歌詞的音樂信息;歌詞賦予裝置,所述歌詞賦予裝置基于被分析音樂信息的歌詞信息而向音符串賦予歌詞,并且,在沒有歌詞信息的情況下,向可選音符串賦予可選歌詞;以及歌聲產生裝置,所述歌聲產生裝置基于賦予的歌詞而產生歌聲。
21.如權利要求20所述的機器人設備,其中所述演奏數據是MIDI文件的演奏數據。
全文摘要
本發明涉及歌聲合成方法和設備、程序、記錄介質以及機器人設備,其中具體公開了一種利用諸如MIDI數據的演奏數據而合成歌聲的歌聲合成方法。接收的演奏數據被分析為音調和音長以及歌詞的音樂信息(S2,S3)。如果在被分析的音樂信息中沒有歌詞信息,就向音符串任意賦予歌詞(S9、S11、S12、S15)。基于賦予的歌詞而產生歌聲(S17)。
文檔編號G10H7/00GK1761992SQ20048000757
公開日2006年4月19日 申請日期2004年3月19日 優先權日2003年3月20日
發明者小林賢一郎 申請人:索尼株式會社