本發明涉及數字人表情生成,具體是一種基于語音驅動的ai數字人自動表情生成系統。
背景技術:
1、隨著社會的發展,ai行業也隨之發展,其中就包括數字人。數字人是將現實世界的真人或主觀創作出來的虛擬人物,通過計算機技術生成轉化為三維或二維圖像數據,以計算機代碼的形式存儲和應用,并根據所接入的ai算法、知識圖譜、驅動系統等能力或系統的不同,部分或充分地完成傳達信息、表達情感、與他人交流互動、解決問題等人類行為的數字化人物。
2、但是,現在的數字人無法根據帶有特定表情的語音在驅動下流暢的生成自動表情,計算量較大,從而導致無法驅動數字人表情更細微地表現出來,因此,我們提出了一種基于語音驅動的ai數字人自動表情生成系統來解決上述所提到的問題。
技術實現思路
1、本發明的目的在于提供一種基于語音驅動的ai數字人自動表情生成系統,以解決上述背景技術中提出的問題。
2、為實現上述目的,本發明提供如下技術方案:
3、一種基于語音驅動的ai數字人自動表情生成系統,包括語音表情生成模塊、人臉表情數據庫、表情特征提取模塊、人臉三維重建模塊;所述語音表情生成模塊中的語音表情通過語音合成技術,利用音調、語速、節奏多種聲學特征來表達情感或態度;所述人臉表情數據庫通過獲取具有大量的人臉表情,對收集到的人臉表情根據表情語義的傳達進行分類,從而獲取到每種表情的集合;所述表情特征提取模塊包括主動形狀模型法和主動外觀模型法對人臉特征進行提取;所述人臉三維重建模塊根據單個視角的圖像或者多個視角的圖像來重建模型的三維信息。
4、作為本發明進一步的方案:所述語音表情生成模塊中語音表情生成的具體方法為通過手動制定規則來控制語音合成參數,生成帶有特定表情的語音,規則的設計需要考慮情感、語義多種因素;利用帶有情感標簽的大量語音數據訓練模型,學習語音與情感之間的關系,并在新的文本上生成表情豐富的語音。
5、作為本發明進一步的方案:所述語音表情生成模塊包括情感特征提取單元和情感感知模型單元;所述情感特征提取單元利用語音信號分析技術提取語音中的韻律、語調、聲學參數與情感相關的特征,運用統計模型、機器學習算法對提取的特征進行建模和分類,識別不同情感類別,結合詞匯學、語義學多種文本信息分析,增強情感識別準確性;所述情感感知模型單元探索多模態情感感知模型,融合音頻、文本、視覺多種信息,全面感知說話者的情感狀態,采用深度神經網絡、變分自動編碼器多種先進機器學習方法,構建情感感知模型,提升識別準確性和泛化能力,通過訓練和優化模型參數,提高模型對不同說話者、情感語境和噪音背景的適應性。
6、作為本發明進一步的方案:所述主動形狀模型法的實現過程中包含訓練和搜索,所述訓練過程中對n個人臉圖像樣本進行手動的特征標記,每個人臉圖像采用68個特征點來擬合臉部形狀模型,同時用這些特征點的位置來組成圖像的形狀向量;利用求解變化矩陣方法對n個形狀向量的訓練集進行歸一化或者對齊操作,消除人臉圖像中因為姿勢變換、角度不同、距離遠近多種外界因素造成的影響;然后對訓練集中對齊后的形狀向量進行pca主成分分析,任何一個用于訓練的形狀向量都采用平均形狀向量和主成分分析得到的參數來決定,建立每個特征點的局部特征,在每次迭代過程中為每個特征點尋找新的位置。
7、作為本發明進一步的方案:所述搜索包括局部紋理模型和全局統計模型分別實現局部搜索和全局約束,局部搜索當某些特征點陷入局部極值或者出現較大偏差時,全局統計模型會對這種情況進行調整。
8、作為本發明進一步的方案:所述主動外觀模型法對人臉的形狀信息和紋理信息綜合分析,建立混合模型,分為建模和特征匹配;所述建模指建立具有形狀信息和紋理信息的混合模型;所述特征匹配指通過混合模型和輸入圖像的均方差來表示能量函數,通過算法計算來更新模型參數,并生成新的特征點位置,將以上的過程進行反復迭代,得到最終的特征點位置。
9、作為本發明進一步的方案:所述人臉三維重建模塊包括基于多視角信息的三維人臉重建單元、基于形變統計模型的三維人臉重建單元、基于明暗恢復形狀的三維人臉重建單元。
10、作為本發明進一步的方案:所述基于多視角信息的三維人臉重建單元的步驟包括,首先在相機視角恢復利用計算機視覺技術來估計沒一個拍攝人臉圖像的相機參數,同時恢復了輸入人臉對象臉部特征點的三維坐標;然后在散亂點插值階段通過上面估計的特征點的三維坐標并利用插值算法來計算剩余點的三維坐標;最后在形狀重新定位階段,在保持相機視角固定的情況下通過明確臉部特征點和圖像坐標之間額外的對應關系來提高形狀擬合的精度。
11、作為本發明進一步的方案:所述基于形變模型的三維人臉重建單元的步驟包括,在形變模型給出新的人臉圖像后,將人臉圖像與模型進行匹配結合,修改模型相應的參數,將模型進行形變,直到模型與人臉圖像的差異減到最小,同時對紋理進行優化調整,即可完成人臉建模。
12、作為本發明再進一步的方案:所述基于明暗恢復形狀的三維人臉重建單元中,明暗恢復形狀是利用單張圖像或者多張圖像中物體表面的明暗變化來恢復其表面各點的相對高度、表面法線方向、表面梯度和傾斜度多種參數值,從而重建物體模型。
13、與現有技術相比,本發明的有益效果是:
14、通過設置語音表情生成模塊,通過手動制定規則來控制語音合成參數,生成帶有特定表情的語音,利用帶有情感標簽的大量語音數據訓練模型,學習語音與情感之間的關系,并在新的文本上生成表情豐富的語音,使得數字人能夠根據帶有特定表情的語音在人臉表情數據庫、表情特征提取模塊、人臉三維重建模塊的配合下驅動更加的流暢,減少了計算量了,驅動數字人表情時能夠更細微地表現出來,有利于使用。
1.一種基于語音驅動的ai數字人自動表情生成系統,其特征在于,包括語音表情生成模塊、人臉表情數據庫、表情特征提取模塊、人臉三維重建模塊;所述語音表情生成模塊中的語音表情通過語音合成技術,利用音調、語速、節奏多種聲學特征來表達情感或態度;所述人臉表情數據庫通過獲取具有大量的人臉表情,對收集到的人臉表情根據表情語義的傳達進行分類,從而獲取到每種表情的集合;所述表情特征提取模塊包括主動形狀模型法和主動外觀模型法對人臉特征進行提取;所述人臉三維重建模塊根據單個視角的圖像或者多個視角的圖像來重建模型的三維信息。
2.根據權利要求1所述的一種基于語音驅動的ai數字人自動表情生成系統,其特征在于,所述語音表情生成模塊中語音表情生成的具體方法為通過手動制定規則來控制語音合成參數,生成帶有特定表情的語音,規則的設計需要考慮情感、語義多種因素;利用帶有情感標簽的大量語音數據訓練模型,學習語音與情感之間的關系,并在新的文本上生成表情豐富的語音。
3.根據權利要求2所述的一種基于語音驅動的ai數字人自動表情生成系統,其特征在于,所述語音表情生成模塊包括情感特征提取單元和情感感知模型單元;所述情感特征提取單元利用語音信號分析技術提取語音中的韻律、語調、聲學參數與情感相關的特征,運用統計模型、機器學習算法對提取的特征進行建模和分類,識別不同情感類別,結合詞匯學、語義學多種文本信息分析,增強情感識別準確性;所述情感感知模型單元探索多模態情感感知模型,融合音頻、文本、視覺多種信息,全面感知說話者的情感狀態,采用深度神經網絡、變分自動編碼器多種機器學習方法,構建情感感知模型,提升識別準確性和泛化能力,通過訓練和優化模型參數,提高模型對不同說話者、情感語境和噪音背景的適應性。
4.根據權利要求1所述的一種基于語音驅動的ai數字人自動表情生成系統,其特征在于,所述主動形狀模型法的實現過程中包含訓練和搜索,所述訓練過程中對n個人臉圖像樣本進行手動的特征標記,每個人臉圖像采用68個特征點來擬合臉部形狀模型,同時用這些特征點的位置來組成圖像的形狀向量;利用求解變化矩陣方法對n個形狀向量的訓練集進行歸一化或者對齊操作,消除人臉圖像中因為姿勢變換、角度不同、距離遠近多種外界因素造成的影響;然后對訓練集中對齊后的形狀向量進行pca主成分分析,任何一個用于訓練的形狀向量都采用平均形狀向量和主成分分析得到的參數來決定,建立每個特征點的局部特征,在每次迭代過程中為每個特征點尋找新的位置。
5.根據權利要求4所述的一種基于語音驅動的ai數字人自動表情生成系統,其特征在于,所述搜索包括局部紋理模型和全局統計模型分別實現局部搜索和全局約束,局部搜索當某些特征點陷入局部極值或者出現較大偏差時,全局統計模型會對這種情況進行調整。
6.根據權利要求1所述的一種基于語音驅動的ai數字人自動表情生成系統,其特征在于,所述主動外觀模型法對人臉的形狀信息和紋理信息綜合分析,建立混合模型,分為建模和特征匹配;所述建模指建立具有形狀信息和紋理信息的混合模型;所述特征匹配指通過混合模型和輸入圖像的均方差來表示能量函數,通過算法計算來更新模型參數,并生成新的特征點位置,將以上的過程進行反復迭代,得到最終的特征點位置。
7.根據權利要求1所述的一種基于語音驅動的ai數字人自動表情生成系統,其特征在于,所述人臉三維重建模塊包括基于多視角信息的三維人臉重建單元、基于形變統計模型的三維人臉重建單元、基于明暗恢復形狀的三維人臉重建單元。
8.根據權利要求7所述的一種基于語音驅動的ai數字人自動表情生成系統,其特征在于,所述基于多視角信息的三維人臉重建單元的步驟包括,首先在相機視角恢復利用計算機視覺技術來估計沒一個拍攝人臉圖像的相機參數,相機參數包括位置、方向和焦距,同時恢復了輸入人臉對象臉部特征點的三維坐標;然后在散亂點插值階段通過上面估計的特征點的三維坐標并利用插值算法來計算剩余點的三維坐標;最后在形狀重新定位階段,在保持相機視角固定的情況下通過明確臉部特征點和圖像坐標之間額外的對應關系來提高形狀擬合的精度。
9.根據權利要求7所述的一種基于語音驅動的ai數字人自動表情生成系統,其特征在于,所述基于形變模型的三維人臉重建單元的步驟包括,在形變模型給出新的人臉圖像后,將人臉圖像與模型進行匹配結合,修改模型相應的參數,將模型進行形變,直到模型與人臉圖像的差異減到最小,同時對紋理進行優化調整,即可完成人臉建模。
10.根據權利要求7所述的一種基于語音驅動的ai數字人自動表情生成系統,其特征在于,所述基于明暗恢復形狀的三維人臉重建單元中,明暗恢復形狀是利用單張圖像或者多張圖像中物體表面的明暗變化來恢復其表面各點的相對高度、表面法線方向、表面梯度和傾斜度多種參數值,從而重建物體模型。