基于化身的傳輸協議、圖標生成和玩偶動畫的制作方法
【技術領域】
[0001] 各個實施例一般地涉及化身。更具體地,各個實施例涉及基于化身的傳輸協議、圖 標生成和玩偶動畫。
【背景技術】
[0002] 可以在虛擬世界(諸如游戲環境中)使用化身。最近化身技術的發展可以作為視頻 內容封裝、傳輸和處理化身數據,這可能導致高帶寬花費。此外,各種技術方案可以在實時 傳輸協議(RTP)信道中傳輸化身數據,這依賴于遠程對等體中的專用化身支持。
【附圖說明】
[0003] 通過閱讀下面的說明書和所附的權利要求并且通過參考附圖,實施例的各種優點 對于本領域技術人員來說將變得清楚,其中: 圖1是根據實施例的化身傳輸協議的示例的框圖; 圖2是根據實施例的管理化身的方法的示例的流程圖; 圖3是根據實施例的化身圖標消息傳送方案的示例的框圖; 圖4是根據實施例的施行化身圖標消息傳送的方法的示例的流程圖; 圖5是根據實施例的基于化身的玩偶動畫方案的示例的框圖; 圖6是根據實施例的施行基于化身的玩偶動畫的方法的示例的流程圖; 圖7A和7B是根據實施例的客戶端設備的示例的框圖; 圖8是根據實施例的處理器的示例的框圖; 圖9是根據實施例的系統的示例的框圖。
【具體實施方式】
[0004] 現在轉向圖1,示出了化身傳輸協議的示例,其中對象10 (例如個體、人、用戶等) 分別被攝像機22和麥克風24在視覺上和可聽見地捕獲。圖示的對象10展示被反映在視 頻信號26中的一個或多個面部表情(例如嘴部形狀、頭部轉動、點頭、眨眼、皺眉、微笑、使 眼色)并且同時說出被反映在音頻信號28中的可聽見的內容30 (例如,單詞、短語、聲音)。 視頻信號26和音頻信號28可以由消息傳送系統/應用32處理,消息傳送系統/應用32 被配置為在視頻信號26中標識對象20的一個或多個面部表情并且基于該一個或多個面部 表情生成化身動畫數據34。如將被更詳細討論的,化身動畫數據34可以促進在視覺上和可 聽見地模仿對象10的化身的生成,而不揭示對象10的真實身份或肖像。
[0005] 另外,消息傳送系統32可以把音頻信號28編碼(例如壓縮)成音頻文件36并且把 化身動畫數據34合并到音頻文件36中。尤其要注意的是,把圖示的化身動畫數據34合并 到音頻文件36中使得化身動畫數據34能夠跨網絡38 (例如因特網、內聯網)被傳輸而不 會導致高帶寬花費或依賴于遠程對等體(例如遠程客戶端設備)中的專用化身支持。圖示的 音頻文件36和化身動畫數據34被用于呈現化身動畫40,該化身動畫40模仿對象20的面 部表情和由對象20說出的可聽見的內容30,而不揭示對象10的真實身份或肖像。
[0006] 在一個示例中,化身動畫數據34包括加時間戳的面部運動數據。面部運動數據可 以包括表示面部特征和/或表情(諸如例如對象眼睛、嘴、臉頰、牙齒、眼眉等的位置、頭部 轉動、點頭、眨眼、皺眉、微笑、使眼色等)的各種參數。向面部運動數據加時間戳可以促進在 化身動畫40的呈現期間把動畫面部表情與可聽見的內容30同步。此外,加時間戳的面部 運動數據可以被存儲到音頻文件36的空數據字段。例如,核心音頻格式(CAF)文件格式可 以被用于指定面部運動數據的量以及面部運動數據自身,如下面表I中所說明的。 表I。
[0007] 在另一示例中,化身動畫數據34包括到面部運動數據的鏈接(例如統一資源定位 符),其中該鏈接可以被存儲在音頻文件36的聲音元數據字段中(例如,如果使用不具有空 數據字段的音頻文件格式(諸如因特網低比特率編解碼器/iLBC、高級音頻編碼/AAC等)的 話)。因此,可以在這種情況下使用如表II中的文件格式。 表I。
[0008] 現在轉向圖2,示出了管理化身的方法42。方法42可以在客戶端設備中實施為 存儲在機器或計算機可讀介質(諸如隨機存取存儲器(RAM)、只讀存儲器(ROM)、可編程ROM (PR0M)、閃速存儲器等)中的邏輯指令和/或固件的集合;實施在可配置邏輯中,可配置 邏輯諸如例如是可編程邏輯陣列(PLA)、現場可編程門陣列(FPGA)、復雜可編程邏輯器件 (CPLD);實施在使用電路技術的固定功能邏輯硬件中,電路技術諸如例如是專用集成電路 (ASIC)、互補金屬氧化物半導體(CMOS)或晶體管-晶體管邏輯(TTL)技術;或者實施在它 們的任何組合中。例如,用于執行方法42中示出的操作的計算機程序代碼可以用一種或多 種編程語言的任何組合來編寫,該編程語言包括:面向對象的編程語言,諸如C++等;和常 規過程編程語言,諸如"C"編程語言或類似的編程語言。此外,方法42可以使用任何上面 提到的電路技術來實施。
[0009] 所圖示的處理方框44規定在本地客戶端設備(例如本地對等體)處在視頻信號中 標識對象的一個或多個面部表情。化身動畫數據可以在方框46處基于所述一個或多個面 部表情生成,其中圖示的方框50把該化身動畫數據合并到與視頻信號相關聯的音頻文件 中。如已經討論的,把化身動畫數據合并到音頻文件中可以包括:在音頻文件的空數據字段 中存儲加時間戳的面部運動數據;把到加時間戳的面部運動數據的鏈接存儲在音頻文件的 聲音元數據字段中,等等。面部運動數據可以描述由視頻信號捕獲的對象的諸如嘴部動作、 眼睛位置、眼眉位置等之類的面部運動。因此,面部運動數據可以描述眼睛張開的程度、嘴 部張開的程度、嘴唇、鼻尖、頭部轉動的位置等。
[0010] 加時間戳的面部運動數據可以包括例如針對視頻信號的每個幀的16位浮點數 據。尤其要注意的是,具有面部運動數據的10秒聲音剪輯(每秒25幀和50%的壓縮率)可 以產生大約20KB的音頻文件大小,而常規10秒的視頻剪輯可能導致幾兆字節的文件大小。 在方框52,音頻文件可以被發送到遠程客戶端設備(例如遠程對等體)。在一個示例中,音頻 文件經由消息傳送應用和/或系統通過網絡連接被發送。
[0011] 圖示的方框54規定在遠程客戶端設備處接收音頻文件。該音頻文件可以在方框 56被用于獲得化身動畫數據,其中化身動畫可以在方框58基于音頻文件和化身動畫數據 被呈現。在一個示例中,獲得化身動畫數據涉及從音頻文件的空數據字段取回加時間戳的 面部運動數據。在另一示例中,獲得化身動畫數據涉及從存儲在音頻文件的聲音元數據字 段中存儲的鏈接取回加時間戳的面部運動數據。呈現化身動畫可以涉及把加時間戳的面部 運動數據與音頻文件同步。
[0012] 化身圖標生成 尤其可以受益于本文描述的技術的一種類型的應用是在消息傳送環境中的化身圖標 生成。例如,對于朋友和/或熟人可能經常發生以在線設置(諸如社交網絡、虛擬論壇、焦點 小組等)彼此共享消息。已經討論的化身傳輸協議可以被容易地應用于這樣的設置中以便 促進化身圖標連同共享的消息的生成和傳輸。
[0013] 圖3示出了圖標消息傳送方案的示例,其中由攝像機22捕獲對象60,并且消息傳 送系統/應用62在視頻信號26中標識對象60的一個或多個面部表情,如已經討論的。對 象60的面部表情也可以在靜止圖像27中由攝像機22捕獲。所圖示的消息傳送系統62基 于面部表情生成一個或多個化身圖標64 (例如,響應于用戶請求周期性地進行等),一個或 多個化身圖標64可以被添加到圖標列表66。
[0014] 圖標列表66因此可以包含具有不同面部特征/表情的一組化身,其反映由對象在 視頻信號26和/或靜止圖像27的捕獲期間做出的面部特征/表情。在此方面,消息傳送系 統62可以在將化身圖標64添加到圖標列表66之前確認化身圖標64不是副本。圖標列表 66可以繼而經由用戶接口(UI) 68被呈示給對象60,其中從圖標列表66對化身圖標70的 用戶選擇可以連同消息74 (例如,即時消息/IM、發布、短消息傳送服務/SMS、電子郵件等) 通過網絡38被發送到遠程客戶端設備。所選擇的化身圖標70也可以通過網絡38在音頻 文件中被傳輸,如已經討論的。
[0015] 在圖示的示例中,消息74包括由對象60輸入的文本72。化身圖標64可以在用戶 正在輸入文本72時