計算機生成的頭部的制作方法
【專利摘要】本發明涉及計算機生成的頭部。一種動畫制作計算機生成頭部的方法,頭部具有根據要由頭部輸出的語音動作的嘴部,方法包括:提供與要由嘴唇動作輸出的語音相關的輸入;將輸入分成聲音單元序列;為輸入文本選擇表情特性;使用統計模型將聲音單元序列轉換為圖像矢量序列,其中模型具有描述將聲音單元與圖像矢量相關的概率分布的多個模型參數,圖像矢量包括定義頭部的臉部的多個參數;以及將圖像矢量序列輸出為視頻,這樣頭部的嘴部動作以用選擇的表情模仿與輸入文本相關聯的語音其中將選擇的表情中每個概率分布的預定類型的參數表示為相同類型的參數的加權之和,并且其中所用的權重為表情相關的,其中按簇提供參數,并且每個簇包括至少一個子簇。
【專利說明】計算機生成的頭部
【技術領域】
[0001]本文一般性描述的本發明的實施例涉及計算機生成的頭部和用于動畫制作這種頭部的方法。
【背景技術】
[0002]計算機生成的會說話的頭部能夠用在若干不同的情況下。例如,用于通過公共地址系統提供信息,用于提供信息給計算機的用戶,等等。這種計算機生成的動畫頭部還可以用于計算機游戲,以及使計算機生成的圖形“說話”。
[0003]然而,一直都有讓這種頭部看起來更為真實的需求。
【發明內容】
[0004]在一個實施例中,提供了一種用于動畫制作計算機生成頭部的方法,所述頭部具有根據要由頭部輸出的語音動作的嘴部,
[0005]所述方法包括:
[0006]提供與要由嘴唇動作輸出的語音相關的輸入;
[0007]將所述輸入分成聲音單元序列;
[0008]為輸入文本選擇表情特性;
[0009]使用統計模型將所述聲音單元序列轉換為圖像矢量序列,其中所述模型具有描述將聲音單元與圖像矢量相關的概率分布的多個模型參數,所述圖像矢量包括定義所述頭部的臉部的多個參數;以及
[0010]將所述圖像矢量序列輸出為視頻,這樣所述頭部的嘴部動作以用選擇的表情模仿與輸入文本相關聯的語音。
[0011]其中將所述選擇的表情中每個概率分布的預定類型的參數表示為相同類型的參數的加權之和,并且其中所用的權重為表情相關的,這樣將所述聲音單元序列轉換為圖像矢量序列包括為所述選擇的表情獲取(retrieve)表情相關權值,其中按簇提供所述參數,并且每個簇包括至少一個子簇,其中為每個簇獲取所述表情相關權值,這樣每個子簇有一個權值。
[0012]應該注意到所述嘴部意指嘴的任一部分,例如嘴唇、顎、舌頭等。在另一實施例中,所述嘴唇動作以模仿所述輸入的語音。
[0013]上述頭部能夠根據頭部嘴唇的動作可視地輸出語音。在另一實施例中,所述模型進一步配置為將所述聲音單元轉換為語音矢量,其中所述模型具有描述將聲音單元與語音矢量相關的概率分布的多個模型參數,所述方法進一步包括將所述語音矢量序列輸出為與頭部的嘴唇動作同步的音頻。因此,所述頭部能夠輸出音頻和視頻。
[0014]所述輸入可以是被分成聲音單兀序列的文本輸入。在另一實施例中,所述輸入是作為音頻輸入的語音輸入,所述語音輸入被分成聲音單元序列,并作為音頻隨頭部視頻輸出。一旦劃分成聲音單元,能夠運行所述模型以將從語音輸入導出的聲音單元與圖像矢量相關聯,這樣能夠生成所述頭部以與音頻語音信號一起可視地輸出語音信號。
[0015]在一個實施例中,每個子簇可以包括至少一個決策樹,所述決策樹基于關于語言、語音或韻律差異中至少一種的問題。所述簇的決策樹之間以及子簇內的樹之間可能存在結構差異。可以從高斯分布、泊松分布、伽瑪分布、學生_t分布或拉普拉斯分布中選擇所述概率分布。
[0016]可以從不同情緒、口音或說話風格中的至少一種中選擇所述表情特性。說話時語音的變化時常會導致說話者臉上顯示的表情的微妙變化,而上述方法能用來捕捉這些變化以讓頭部顯得自然。
[0017]在一個實施例中,選擇表情特性包括提供輸入以允許通過所述輸入選擇權重。而且,選擇表情特性包括從要輸出的語音預測應該使用的權重。在另一實施例中,選擇表情特性包括從關于要輸出的語音的外部信息來預測應該使用的權重。
[0018]所述方法還可以適配新的表情特性。例如,選擇表情包括接收包含臉部的視頻輸入并改變權重以模擬所述視頻輸入的臉部的表情特性。
[0019]在輸入數據為包含語音的音頻文件的情況下,能夠從音頻語音輸入獲得用于控制頭部的權重。
[0020]在另一實施例中,選擇表情特性包括從多個預存的權重集中隨機選擇權重集,其中每個權重集包括用于所有子簇的權重。
[0021]所述圖像矢量包括參數,所述參數允許從這些參數重建臉部。在一個實施例中,所述圖像矢量包括允許從模式的加權之和構建臉部的參數,其中所述模式表示臉部或其部分的重建。在另一實施例中,所述模式包括表示臉部的形狀及外觀的模式。相同權重參數可以用于形狀模式及其對應的外觀模式。
[0022]所述模式可以用于表示臉部姿態、臉部區域的變形、眨眼等。可以用固定的形狀和肌理給頭部的靜態特征建模。
[0023]在另一實施例中,提供了一種使用于呈現計算機生成的頭部的系統適配新表情的方法,所述頭部具有根據要由頭部輸出的語音動作的嘴部,
[0024]所述系統包括:
[0025]輸入端,用于接收數據給要由嘴部動作輸出的語音;
[0026]處理器,其被配置為:
[0027]將所述輸入數據分成聲音單元序列;
[0028]允許為輸入文本選擇表情特性;
[0029]使用統計模型將所述聲音單元序列轉換為圖像矢量序列,其中所述模型具有描述將聲音單元與圖像矢量相關的概率分布的多個模型參數,所述圖像矢量包括定義所述頭部的臉部的多個參數;以及
[0030]將所述圖像矢量序列輸出為視頻,這樣所述頭部的嘴部動作以用選擇的表情模仿與輸入文本相關聯的語音,
[0031]其中將所述選擇的表情中每個概率分布的預定類型的參數表示為相同類型的參數的加權之和,并且其中所用的權重為表情相關的,這樣將所述聲音單元序列轉換為圖像矢量序列包括為所述選擇的表情獲取表情相關權值,其中按簇提供所述參數,并且每個簇包括至少一個子簇,其中為每個簇獲取所述表情相關權值,這樣每個子簇有一個權值,[0032]所述方法包括:
[0033]接收新的輸入視頻文件;
[0034]計算施加給所述簇的權值,以最大化生成的圖像與新視頻文件之間的相似度。
[0035]以上方法還可以包括使用所述新視頻文件的數據創建新簇;以及
[0036]計算施加給包含所述新簇的簇的權值,以最大化生成的圖像與新視頻文件之間的相似度。
[0037]在一個實施例中,提供了一種用于呈現計算機生成的頭部的系統,所述頭部具有根據要由頭部輸出的語音動作的嘴部,
[0038]所述系統包括:
[0039]輸入端,用于接收數據給要由嘴部動作輸出的語音;
[0040]處理器,其被配置為:
[0041]將所述輸入數據分成聲音單元序列;
[0042]允許為輸入文本選擇表情特性;
[0043]使用統計模型將所述聲音單元序列轉換為圖像矢量序列,其中所述模型具有描述將聲音單元與圖像矢量相關的概率分布的多個模型參數,所述圖像矢量包括定義所述頭部的臉部的多個參數;以及
[0044]將所述圖像矢量序列輸出為視頻,這樣所述頭部的嘴部動作以用選擇的表情模仿與輸入文本相關聯的語音,
[0045]其中將所述選擇的表情中每個概率分布的預定類型的參數表示為相同類型的參數的加權之和,并且其中所用的權重為表情相關的,這樣將所述聲音單元序列轉換為圖像矢量序列包括為所述選擇的表情獲取表情相關權值,其中按簇提供所述參數,并且每個簇包括至少一個子簇,其中為每個簇獲取所述表情相關權值,這樣每個子簇有一個權值。
[0046]在一個實施例中,提供了一種用于呈現計算機生成的頭部的可適配系統,所述頭部具有根據要由頭部輸出的語音動作的嘴部,所述系統包括:
[0047]輸入端,用于接收數據給要由嘴部動作輸出的語音;
[0048]處理器,其被配置為:
[0049]將所述輸入數據分成聲音單元序列;
[0050]允許為輸入文本選擇表情特性;
[0051]使用統計模型將所述聲音單元序列轉換為圖像矢量序列,其中所述模型具有描述將聲音單元與圖像矢量相關的概率分布的多個模型參數,所述圖像矢量包括定義所述頭部的臉部的多個參數;以及
[0052]將所述圖像矢量序列輸出為視頻,這樣所述頭部的嘴部動作以用選擇的表情模仿與輸入文本相關聯的語音,
[0053]其中將所述選擇的表情中每個概率分布的預定類型的參數表示為相同類型的參數的加權之和,并且其中所用的權重為表情相關的,這樣將所述聲音單元序列轉換為圖像矢量序列包括為所述選擇的表情獲取表情相關權值,其中按簇提供所述參數,并且每個簇包括至少一個子簇,其中為每個簇獲取所述表情相關權值,這樣每個子簇有一個權值,
[0054]所述系統進一步包括存儲器,該存儲器被配置為存儲按簇及子簇提供的所述參數和用于所述子簇的權值,[0055]所述系統進一步被配置為接收新的輸入視頻文件;
[0056]所述處理器被配置為重新計算施加給所述子簇的權值,以最大化生成的圖像與新視頻文件之間的相似度。
[0057]可以用2D或3D呈現上述生成的頭部。對于3D,圖像矢量以三維定義所述頭部。在3D中,在3D數據中補償姿態變化。然而,可以如上所述處理眨眼和靜態特征。
[0058]由于能由軟件實現根據實施例的某些方法,某些實施例涵蓋了任一適當載體介質上的供給通用計算機的計算機代碼。所述載體介質能夠包括任一存儲介質,例如軟盤、CDR0M,磁性裝置或可編程存儲裝置,或者諸如任一信號的任何暫時性介質,比如電、光或微波信號。
【專利附圖】
【附圖說明】
[0059]現在,將參考附圖來描述根據非限制性實施例的系統和方法:
[0060]圖1為用于計算機生成頭部的系統的示意圖;
[0061]圖2為表示根據本發明的實施例的用于呈現(render)動畫制作生成的頭部的基本步驟的流程圖;
[0062]圖3(a)為具有用戶界面的生成的頭部的圖像,圖3(b)為該界面的線條圖;
[0063]圖4為表示表情特性可以如何被選擇的系統的示意圖;
[0064]圖5為圖4系統的變型;
[0065]圖6為圖4系統的另一變型;
[0066]圖7為高斯概率函數的示意圖;
[0067]圖8為根據本發明實施例的方法中所用的簇化數據排列的示意圖;
[0068]圖9為展示根據本發明實施例的訓練頭部生成系統的方法的流程圖;
[0069]圖10為根據本發明的實施例所用的決策樹的示意圖;
[0070]圖11為表示根據本發明實施例的系統的適配的流程圖;以及
[0071]圖12為表示根據本發明另一實施例的系統適配的流程圖;
[0072]圖13為表示在分解權重的情況下訓練用于頭部生成系統的系統的流程圖;
[0073]圖14為詳細表示圖13流程圖的步驟之一的子步驟的流程圖;
[0074]圖15為詳細表示圖13流程圖的步驟之一的子步驟的流程圖;
[0075]圖16為表示參考圖13描述的系統適配的流程圖;
[0076]圖17為能夠與根據本發明實施例的方法及系統一起使用的圖像模型;
[0077]圖18(a)為圖17模型的變型;
[0078]圖18(b)為圖18(a)模型的變型;
[0079]圖19為表不訓練圖18(a)和(b)的I旲型的流程圖;
[0080]圖20為表不參考圖19描述的訓練基礎的不意圖;
[0081]圖21(a)為誤差相對于參考圖17、18(a)和(b)描述的圖像模型中所用的模式數目的曲線圖,圖21(b)為訓練所用的句子數目相對于訓練模型中測量到的誤差的曲線圖;
[0082]圖22(a)到⑷為用于測試數據中顯示的情緒的混淆矩陣;以及
[0083]圖23為表示對圖像模型變型的偏好(preference)的表。【具體實施方式】
[0084]圖1為用于計算機生成能夠說話的頭部的系統的示意圖。系統I包括執行程序5的處理器3。系統I進一步包括存儲裝置或存儲器7。存儲裝置7存儲了由程序5用來在顯示器19上呈現頭部的數據。文本到語音系統I進一步包括輸入模塊11和輸出模塊13。輸入模塊11連接到數據的輸入端,該數據與將要由頭部輸出的語音和將要隨文本輸出的情緒或表情有關。輸入數據的類型可以采取后面將更詳述的許多形式。輸入端15可以是允許用戶直接輸入數據的界面。另選地,該輸入端可以是用于從外部存儲介質或網絡接收數據的接收器。
[0085]連接到輸出模塊13的輸出端為視聽輸出端17。輸出端17包括將顯示生成的頭部的顯不器19。
[0086]在使用中,系統I通過數據輸入端15接收數據。在處理器3上執行的程序5將輸入數據轉換為將要由頭部輸出的語音和頭部將要顯示的表情。該程序訪問存儲裝置以基于輸入數據選擇參數。該程序呈現頭部。所述頭部在被動畫制作時,根據將要輸出的語音移動其嘴唇并顯示期望的表情。所述頭部還具有輸出包含所述語音的音頻信號的音頻輸出端。所述音頻語音與頭部的嘴唇動作同步。
[0087]圖2為用于動畫制作并呈現所述頭部的基本過程的示意圖。在步驟S201,接收與將要由說話的頭部輸出的語音相關的輸入,該輸入還會包含與在頭部說文本時應該展現的表情相關的彳目息。
[0088]在這個特定的實施例中,與語音相關的輸入為文本。在圖2中,該文本與表情輸入分離。然而,與語音相關的輸入不一定是文本輸入,它可以是使頭部能夠輸出語音的任一類型信號。例如,能夠從語音輸入、視頻輸入、合成語音及視頻輸入中選擇所述輸入。另一可能的輸入可以是與已經生成的臉部/語音集、或預定義的文本/表情相關的任意形式的索弓I,例如使系統說“請”或“對不起”的圖標。
[0089]為免生疑問,應該注意到,通過輸出語音,頭部嘴唇根據要輸出的語音而動作。然而,音頻輸出的音量可以靜音。在一個實施例中,在通過嘴唇動作而在視覺上輸出話語的情況下,就存在頭部模仿單詞發聲的視覺表現。在另外的實施例中,這可以或不伴以話語的音頻輸出。
[0090]當文本作為輸入而被接收時,其然后被轉換為聲音單元的序列,聲音單元可以是音素、字素(grapheme)、上下文相關音素或字素以及單詞或其部分。
[0091]在一個實施例中,在輸入中給出額外信息以允許在步驟S205選擇表情。接著,這允許在步驟S207導出表情權值(weight),將結合圖9更詳細描述表情權值。
[0092]在某些實施例中,合并步驟S205和S207。這可以若干不同方式實現。例如,圖3表示了用于選擇表情的界面。此處,用戶例如使用鼠標在屏幕上拖放點、使用鍵盤輸入數字(figure)等來直接選擇權重(weighting)。在圖3(b)中,包括鼠標、鍵盤等的選擇單元251使用顯示器253選擇權重。在這個實例中,顯示器253具有顯示權重的雷達圖。用戶能夠使用選擇單元251來通過雷達圖改變各個簇的主導地位。本領域技術人員將理解可以在界面中使用其它顯示方法。在某些實施例中,用戶可以直接輸入文本,情緒的權值,音高、速度(speed)及深度(depth)的權值。
[0093]當音高變得太高或太低且以類似的方式改變深度隨大人和小孩的嗓音而變化時,臉部動作會不同,因此音高和深度能夠影響臉部動作。通過持續時間分布修改被分配給每個模型的幀數,能夠將速度作為額外參數進行控制。
[0094]圖3(a)表示了具有生成的頭部的整個單元。所述頭部被部分顯示為沒有肌理的網狀結構。正常使用時,所述頭部將布滿肌理。
[0095]在另一實施例中,所述系統設置有保存預定權重矢量集的存儲器。每個矢量可以被設計為允許使用不同的表情通過頭部輸出文本。所述表情由頭部顯示,還在音頻輸出中體現。能從高興、悲傷、中性(neutral)、憤怒、害怕、溫和等中選擇表情。在另外的實施例中,表情能夠關于用戶的說話風格,例如,低語、叫喊等,或者用戶的口音。
[0096]圖4示出了根據這一實施例的系統。此處,顯示器253示出了可由選擇單元251選擇的不同表情。
[0097]在另一實施例中,用戶沒有單獨輸入關于表情的信息,此處,如圖2所示,在S207中導出的表情權重是直接從步驟S203中的文本導出的。
[0098]圖5顯示了這一系統。例如,該系統可能需要經說話的頭部輸出對應于被識別為命令或問題的文本的語音。該系統可以被配置為輸出電子書。該系統可以從文本(例如,從引號)識別何時相對于敘述者的書中角色在說某事,并改變權重以引入將要在輸出中使用的新表情。類似地,該系統可以被配置為識別是否重復所述文本。在這一情形下,可以為第二輸出改變嗓音(voice)特性。進一步,該系統可以被配置為識別所述文本是否指的是高興時刻或焦急時刻,并使用適當的表情輸出文本。步驟S211中示意性示出了這一情況:直接從文本預測表情權值。
[0099]在圖5所示的上述系統中,提供了存儲器261,其存儲了要在文本中檢查的屬性和規則。所述輸入文本由單元263提供給存儲器261。檢查所述文本的規則,接著將關于表情類型的信息傳給選擇單元265。選擇單元265然后查找所選擇的表情的權重。
[0100]在游戲中的角色說話的情況下,上述系統及注意事項還可以應用于計算機游戲中所用的系統。
[0101]在另一實施例中,該系統接收關于頭部應該如何從另一個源輸出語音的信息。圖6示出了這一系統的實例。例如,在電子書的情況下,該系統可以接收指示文本的某些部分應該如何被輸出的輸入。
[0102]在計算機游戲中,該系統將能夠從所述游戲判定正在說話的角色是否受傷,躲起來因此不得不低語,努力吸引某人的注意,成功完成了游戲的一個階段,等等。
[0103]在圖6的系統中,從單元271接收關于頭部應該如何輸出語音的進一步信息。單元271接著發送這一信息給存儲器273。存儲器273然后獲取(retrieve)關于應該如何輸出嗓音的信息,并將此發送給單元275。單元275接著獲取用于頭部期望輸出的權重。
[0104]另一實施例中,在步驟209直接輸入語音。此處,步驟S209可以包括三個子塊:從所述語音中檢測文本的自動語音識別器(ASR),同步文本和語音的校準器(aligner),以及自動表情識別器。在S207,將識別的表情轉換為表情權值。所識別的文本接著流入文本輸入203。這一安排允許音頻輸入到生成視聽輸出的說話頭部系統。例如,這允許有真實表情的語音,并由此為它合成適合的臉部。
[0105]在另一實施例中,對應于語音的輸入文本能夠被用來通過去除或簡化ASR子模塊的工作來改進模塊S209的性能。[0106]在步驟S213,將文本及表情權值輸入到聲音模型,其在這一實施例中為簇適配訓練 HMM 或 CAT-HMM。
[0107]然后將文本轉換為聲音單元的序列。這些聲音單元可以是音素或字素。這些單元可以是上下文相關的,例如三音素、五音素等,不僅要考慮已選擇的音素,還要考慮前后音素、單詞中音素的位置、音素所屬單詞中的音節數,等等。使用本領域公知的技術將文本轉換為聲音單元的序列,此處將不做進一步解釋。
[0108]有許多可用于生成臉部的模型。就例如關鍵點/特征、肌肉結構等而言,其中的一些模型取決于臉部的參數化。
[0109]因此,能夠根據這種臉部模型中所用參數的“臉部”矢量來定義臉部,以生成臉部。這類似于從語音矢量生成輸出語音的語音合成的情形。在語音合成中,語音矢量具有與聲音單元相關的概率,而不是一一對應。類似地,臉部矢量僅有與聲音單元相關的概率。因此,能夠以與對待語音矢量類似的方式操縱臉部矢量,以生成能夠輸出角色說話的語音及視覺表示的說話頭部。因而,可以與對待語音矢量相同的方式處理臉部矢量,并根據相同數據訓練它。
[0110]查找將聲音單元與圖像參數相關的概率分布。在這一實施例中,所述概率分布會是由均值和方差定義的高斯分布。但是可以使用其它分布,例如泊松、學生-t、拉普拉斯或伽瑪分布,其中某些分布由均值及方差之外的變量定義。
[0111]在這一實施例中,起初只考慮圖像處理,每個聲音單元沒有與使用本領域術語的“臉部矢量”或“觀測(observation)”明確的一一對應。由參數矢量構成的所述臉部矢量,定義了在給定幀處的臉部姿態。許多聲音單元以類似的方式發音,并受周圍的聲音單元、它們在單詞或句子中位置的影響,或者取決于說話者的表情、情緒狀態、口音、說話風格等以不同方式發音。因此,每個聲音單元僅有與臉部矢量相關的概率,文本到語音系統計算許多概率,并在給定聲音單元序列的情況下選擇最有可能的觀測序列。
[0112]圖7示出了高斯分布。圖7能被認為是與臉部矢量相關的聲音單元的概率分布。例如,示為X的語音矢量具有對應于音素或其它聲音單元的概率P1,其具有圖7所示分布。
[0113]所述高斯的形狀和位置由其均值和方差定義。這些參數在系統訓練期間確定。
[0114]然后在步驟S213中將這些參數用在稱作“頭部模型”的模型中。“頭部模型”為語音合成中所用的聲音模型的視覺或視聽版本。在本說明書中,所述頭部模型為隱藏馬爾可夫模型(HMM)。然而,還能夠使用其它模型。
[0115]說話頭部系統的存儲器將存儲許多概率密度函數,其將聲音單元(即音素、字素、單詞或其部分)與語音參數相關。由于通常使用高斯分布,這些概率密度函數通常稱作高斯或分量。
[0116]在隱藏馬爾可夫模型或其它類型的頭部模型中,必須考慮關于特定聲音單元的所有可能臉部矢量的概率。然后,考慮最有可能對應于聲音單元序列的臉部矢量序列。這意味著序列的所有聲音單元的全局優化要考慮兩個單元相互影響的方式。因此,當考慮聲音單元序列時,有可能用于特定聲音單元的最有可能的臉部矢量不是最優的臉部矢量。
[0117]在圖2的流程圖中,示出了用于將圖像矢量建模為“壓縮表情視頻模型”的一個流(stream)。在某些實施例中,會有多個分別用高斯建模的不同狀態。例如,在一個實施例中,所述說話頭部系統包括多個流。這些流可能表示僅用于嘴部,或僅用于舌頭或眼睛等的參數。所述流還可以進一步劃分成諸如靜音(sil)、短停頓(Pau)和說話(spe)等的類。在一個實施例中,會使用HMM給每個流及類的數據建模。所述HMM可以包括不同數量的狀態,例如,在一個實施例中,可以使用5態HMM給某些上述流及類的數據建模。為每個HMM狀態確
定高斯分量。
[0118]上述集中在頭部可視地輸出話語。然而,除了所述可視輸出外,所述頭部還可以輸出音頻。返回圖3,“頭部模型”用于通過一個或多個流生成圖像矢量,此外還通過一個或多個流生成語音矢量。圖2、3中示出了音頻流,其為頻譜、LogR)和BAP /
[0119]簇適配訓練為隱藏馬爾可夫模型文本到語音(HMM-TTS)的擴展。HMM-TTS為語音合成的參數方法,其使用具有有限數量(通常為5)的發射狀態的HMM對上下文相關語音單元(⑶SU)建模。連接(Concatenate)HMM并從中采樣來生成參數集,該參數集然后能被重新合成為合成語音。通常,使用決策樹來簇化CDSU以處理訓練數據中的稀疏。對于任一給定的⑶SU,可以使用決策樹查找要用在HMM中的均值和方差。
[0120]CAT使用多個決策樹來捕獲風格或情緒相關信息。在從步驟S207導出權重入的情況下,這通過根據加權參數之和表示每個參數來進行。如圖8所示,合并所述參數。
[0121]因而,在一個實施例中,將具有(用于語音或臉部參數的)選擇表情的高斯均值表示為高斯的獨立均值的加權之和。
[0122]
【權利要求】
1.一種動畫制作計算機生成頭部的方法,所述頭部具有根據要由頭部輸出的語音動作的嘴部, 所述方法包括: 提供與要由嘴唇動作輸出的語音相關的輸入; 將所述輸入分成聲音單兀序列; 為輸入文本選擇表情特性; 使用統計模型將所述聲音單元序列轉換為圖像矢量序列,其中所述模型具有描述將聲音單元與圖像矢量相關的概率分布的多個模型參數,所述圖像矢量包括定義所述頭部的臉部的多個參數;以及 將所述圖像矢量序列輸出為視頻,這樣所述頭部的嘴部動作以用選擇的表情模仿與輸入文本相關聯的語音, 其中將所述選擇的表情中每個概率分布的預定類型的參數表示為相同類型的參數的加權之和,并且其中所用的權重為表情相關的,這樣將所述聲音單元序列轉換為圖像矢量序列包括為所述選擇的表情獲取表情相關權值,其中按簇提供所述參數,并且每個簇包括至少一個子簇,其中為每個簇獲取所述表情相關權值,這樣每個子簇有一個權值。
2.根據權利要求1的方法,其中所述模型進一步配置為將所述聲音單元轉換為語音矢量,其中所述模型具有描述將聲音單元與語音矢量關聯的概率分布的多個模型參數,所述方法進一步包括將所述語音矢量序列輸出為與頭部的嘴唇動作同步的音頻。
3.根據權利要求1的方法,其中所述輸入為被分成聲音單元序列的文本輸入。
4.根據權利要求1的方法,其中所述輸入為語音輸入,該語音輸入被分成聲音單兀序列并作為音頻隨頭部的視頻輸出。
5.根據權利要求1的方法,其中每個子簇包括至少一個決策樹,所述決策樹基于關于語言、語音或韻律差異中至少一種的問題。
6.根據權利要求1的方法,其中從不同情緒、口音或說話風格中的至少一種中選擇表情特性。
7.根據權利要求1的方法,其中選擇表情特性包括提供輸入以允許通過所述輸入選擇權重。
8.根據權利要求1的方法,其中選擇表情特性包括從要輸出的語音預測應該使用的權重。
9.根據權利要求1的方法,其中選擇表情特性包括從關于要輸出的語音的外部信息預測應該使用的權重。
10.根據權利要求1的方法,其中選擇表情包括接收包含臉部的視頻輸入,并改變所述權重以模擬所述視頻輸入的臉部的表情特性。
11.根據權利要求1的方法,其中選擇表情特性包括接收包含要輸出的語音的音頻輸入,以及從音頻語音輸入獲得所述權重。
12.根據權利要求1的方法,其中選擇表情特性包括從多個預存的權重集中隨機選擇權重集,其中每個權重集包括用于所有子簇的權重。
13.根據權利要求1的方法,其中所述圖像矢量包括允許從模式的加權之和構建臉部的參數,并且其中所述模式表示臉部或其部分的重建。
14.根據權利要求13的方法,其中所述模式包括表示臉部的形狀和外觀的模式。
15.根據權利要求14的方法,其中相同權重參數用于形狀模式及其對應的外觀模式。
16.根據權利要求13的方法,其中至少一個模式表示臉部的姿態。
17.根據權利要求13的方法,其中多個模式表示臉部區域的變形。
18.根據權利要求13的方法,其中至少一個所述模式表示眨眼。
19.根據權利要求13的方法,其中用固定的形狀和肌理給頭部的靜態特征建模。
20.一種使用于呈現計算機生成的頭部的系統適配新表情的方法,所述頭部具有根據要由頭部輸出的語音動作的嘴部, 所述系統包括: 輸入端,用于接收數據給要由嘴部動作輸出的語音; 處理器,其被配置為: 將所述輸入數據分成聲音單元序列; 允許為輸入文本選擇表情特性; 使用統計模型將所述聲音單元序列轉換為圖像矢量序列,其中所述模型具有描述將聲音單元與圖像矢量相關的概率分布的多個模型參數,所述圖像矢量包括定義所述頭部的臉部的多個參數;以及 將所述圖像矢量序列輸出為視頻,這樣所述頭部的嘴部動作以用選擇的表情模仿與輸入文本相關聯的語音, 其中將所述選擇的表情中每個概率分布的預定類型的參數表示為相同類型的參數的加權之和,并且其中所用的權重為表情相關的,這樣將所述聲音單元序列轉換為圖像矢量序列包括為所述選擇的表情獲取表情相關權值,其中按簇提供所述參數,并且每個簇包括至少一個子簇,其中為每個簇獲取所述表情相關權值,這樣每個子簇有一個權值, 所述方法包括: 接收新的輸入視頻文件; 計算施加給所述簇的權值,以最大化生成的圖像與新視頻文件之間的相似度。
21.根據權利要求20的方法,進一步包括: 使用所述新視頻文件的數據創建新簇;以及 計算施加給包含所述新簇的簇的權值,以最大化生成的圖像與新視頻文件之間的相似度。
22.一種用于呈現計算機生成的頭部的系統,所述頭部具有根據要由頭部輸出的語音動作的嘴部, 所述系統包 括: 輸入端,用于接收數據給要由嘴部動作輸出的語音; 處理器,其被配置為: 將所述輸入數據分成聲音單元序列; 允許為輸入文本選擇表情特性; 使用統計模型將所述聲音單元序列轉換為圖像矢量序列,其中所述模型具有描述將聲音單元與圖像矢量相關的概率分布的多個模型參數,所述圖像矢量包括定義所述頭部的臉部的多個參數;以及將所述圖像矢量序列輸出為視頻,這樣所述頭部的嘴部動作以用選擇的表情模仿與輸入文本相關聯的語音, 其中將所述選擇的表情中每個概率分布的預定類型的參數表示為相同類型的參數的加權之和,并且其中所用的權重為表情相關的,這樣將所述聲音單元序列轉換為圖像矢量序列包括為所述選擇的表情獲取表情相關權值,其中按簇提供所述參數,并且每個簇包括至少一個子簇,其中為每個簇獲取所述表情相關權值,這樣每個子簇有一個權值。
23.一種用于呈現計算機生成的頭部的可適配系統,所述頭部具有根據要由頭部輸出的語音動作的嘴部,所述系統包括: 輸入端,用于接收數據給要由嘴部動作輸出的語音; 處理器,其被配置為: 將所述輸入數據分成聲音單元序列; 允許為輸入文本選擇表情特性; 使用統計模型將所述聲音單元序列轉換為圖像矢量序列,其中所述模型具有描述將聲音單元與圖像矢量相關的概率分布的多個模型參數,所述圖像矢量包括定義所述頭部的臉部的多個參數;以及 將所述圖像矢 量序列輸出為視頻,這樣所述頭部的嘴部動作以用選擇的表情模仿與輸入文本相關聯的語音, 其中將所述選擇的表情中每個概率分布的預定類型的參數表示為相同類型的參數的加權之和,并且其中所用的權重為表情相關的,這樣將所述聲音單元序列轉換為圖像矢量序列包括為所述選擇的表情獲取表情相關權值,其中按簇提供所述參數,并且每個簇包括至少一個子簇,其中為每個簇獲取所述表情相關權值,這樣每個子簇有一個權值, 所述系統進一步包括存儲器,該存儲器被配置為存儲按簇及子簇提供的所述參數和用于所述子簇的權值, 所述系統進一步被配置為接收新的輸入視頻文件; 所述處理器被配置為重新計算施加給所述子簇的權值,以最大化生成的圖像與新視頻文件之間的相似度。
24.一種載體介質,包括被配置為使計算機執行權利要求1的方法的計算機可讀代碼。
25.—種載體介質,包括被配置為使計算機執行權利要求20的方法的計算機可讀代碼。
【文檔編號】G10L21/10GK103971393SQ201410050837
【公開日】2014年8月6日 申請日期:2014年1月29日 優先權日:2013年1月29日
【發明者】J·拉多勒-馬丁內茲, V·P·L·萬, B·斯騰格爾, R·安德森, R·滋波拉 申請人:株式會社東芝