本發(fā)明涉及數(shù)據(jù)處理,具體涉及一種基于人工智能的動(dòng)漫素材數(shù)據(jù)采集方法及系統(tǒng)。
背景技術(shù):
1、動(dòng)漫素材為動(dòng)漫制作和內(nèi)容創(chuàng)作者提供了必要的原始材料,這些素材可以用于為創(chuàng)作者們提供參考或靈感,制作新的動(dòng)漫作品或動(dòng)漫相關(guān)產(chǎn)品,或者用于進(jìn)行二次創(chuàng)作,促進(jìn)動(dòng)漫以及動(dòng)漫相關(guān)產(chǎn)業(yè)的發(fā)展和多樣化;動(dòng)漫片段常常用于動(dòng)漫視頻的二次創(chuàng)作中,構(gòu)建動(dòng)漫片段素材庫可以便于創(chuàng)作者進(jìn)行素材的檢索和使用,提高創(chuàng)作效率。
2、構(gòu)建動(dòng)漫片段素材庫需要對(duì)動(dòng)漫視頻進(jìn)行分段,通常利用人工智能進(jìn)行畫面識(shí)別對(duì)視頻進(jìn)行分段時(shí),獲得的識(shí)別結(jié)果可能不準(zhǔn)確,并且僅考慮畫面進(jìn)行分段,可能出現(xiàn)連續(xù)情節(jié)切換鏡頭被截?cái)嗟那闆r,導(dǎo)致分段結(jié)果并不合理,進(jìn)而導(dǎo)致構(gòu)建出的動(dòng)漫片段素材庫質(zhì)量低。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于人工智能的動(dòng)漫素材數(shù)據(jù)采集方法及系統(tǒng),以解決現(xiàn)有的動(dòng)漫片段分段結(jié)果不合理的問題。
2、本發(fā)明的一種基于人工智能的動(dòng)漫素材數(shù)據(jù)采集方法及系統(tǒng)采用如下技術(shù)方案:
3、本發(fā)明一個(gè)實(shí)施例提供了一種基于人工智能的動(dòng)漫素材數(shù)據(jù)采集方法,該方法包括以下步驟:
4、獲取原始動(dòng)漫視頻,原始動(dòng)漫視頻包括若干幀畫面,獲取原始動(dòng)漫視頻每幀畫面對(duì)應(yīng)的聲音頻率;
5、根據(jù)原始動(dòng)漫視頻中每幀與其他幀在各顏色通道的變化情況以及畫面信息的差異,獲取每幀與其他幀的畫面相似性;根據(jù)每幀與相鄰上一幀的畫面相似性,獲取若干關(guān)鍵幀;
6、根據(jù)每幀的聲音頻率以及每個(gè)關(guān)鍵幀附近的若干幀的聲音頻率的變化,獲取每個(gè)關(guān)鍵幀的音頻向前關(guān)聯(lián)性以及音頻向后關(guān)聯(lián)性;根據(jù)每個(gè)關(guān)鍵幀的音頻向前關(guān)聯(lián)性以及音頻向后關(guān)聯(lián)性,獲取每個(gè)關(guān)鍵幀的音頻權(quán)重;
7、根據(jù)每個(gè)關(guān)鍵幀與其他每幀的畫面相似性,獲取每個(gè)關(guān)鍵幀與其他每幀的畫面相似基數(shù);根據(jù)每個(gè)關(guān)鍵幀的音頻權(quán)重和附近的若干幀的畫面相似基數(shù),以及每個(gè)關(guān)鍵幀附近音頻方面的連續(xù)程度,獲取每個(gè)關(guān)鍵幀與其他每幀的片段連續(xù)性;根據(jù)每個(gè)關(guān)鍵幀與其他每幀的片段連續(xù)性進(jìn)行裁切,獲取若干動(dòng)漫素材片段,實(shí)現(xiàn)基于人工智能的動(dòng)漫素材數(shù)據(jù)采集。
8、進(jìn)一步地,所述獲取每幀與其他幀的畫面相似性,包括:
9、第i幀與除第i幀外的第j幀的畫面相似性gi,j的計(jì)算方法為:
10、
11、式中:ni.j表示第i幀與第j幀的差分權(quán)重,di,j表示第i幀與第j幀的語義特征向量的歐式距離,gi,r表示第i幀所有像素點(diǎn)在第r個(gè)通道的值的平均值,gj,r表示第j幀所有像素點(diǎn)在第r個(gè)通道的值的平均值,r表示通道數(shù)量;|?|表示取絕對(duì)值函數(shù),exp()表示以自然常數(shù)為底的指數(shù)函數(shù)。
12、進(jìn)一步地,所述差分權(quán)重以及語義特征向量的具體獲取方法為:
13、利用預(yù)訓(xùn)練的用于畫面語義識(shí)別的人工智能模型對(duì)原始動(dòng)漫視頻的每一幀進(jìn)行語義識(shí)別,獲取原始動(dòng)漫視頻中每一幀的語義特征向量;通過幀間差分技術(shù)獲取兩幀之間的二值差分圖像,將二值差分圖像中的白色區(qū)域像素點(diǎn)的數(shù)量記為差分權(quán)重。
14、進(jìn)一步地,所述獲取若干關(guān)鍵幀,包括:
15、預(yù)設(shè)特征閾值,將與相鄰上一幀的畫面相似性小于特征閾值的所有幀記為關(guān)鍵幀。
16、進(jìn)一步地,所述獲取每個(gè)關(guān)鍵幀的音頻向前關(guān)聯(lián)性以及音頻向后關(guān)聯(lián)性,包括:
17、預(yù)設(shè)頻率閾值以及間隔上限,將所有聲音頻率大于頻率閾值的幀記為高頻幀,以每個(gè)關(guān)鍵幀為起點(diǎn)向前取間隔上限數(shù)量的幀記為每個(gè)關(guān)鍵幀的向前間隔幀;
18、第t個(gè)關(guān)鍵幀的音頻向前關(guān)聯(lián)性st的計(jì)算方法為:
19、
20、式中:vt表示第t個(gè)關(guān)鍵幀的向前間隔幀中高頻幀的數(shù)量,ft表示第t個(gè)關(guān)鍵幀的所有向前間隔幀的聲音頻率的方差;
21、獲取第t個(gè)關(guān)鍵幀的音頻向后關(guān)聯(lián)性,所述第t個(gè)關(guān)鍵幀的音頻向后關(guān)聯(lián)性的計(jì)算方法與第t個(gè)關(guān)鍵幀的音頻向前關(guān)聯(lián)性的計(jì)算方法相同。
22、進(jìn)一步地,所述獲取每個(gè)關(guān)鍵幀的音頻權(quán)重,包括:
23、第t個(gè)關(guān)鍵幀的音頻權(quán)重lt的計(jì)算方法為:
24、lt=sigmoid(st×s′t×|st―s′t|)
25、式中:st表示第t個(gè)關(guān)鍵幀的音頻向前關(guān)聯(lián)性,s′t表示第t個(gè)關(guān)鍵幀的音頻向后關(guān)聯(lián)性;|?|表示取絕對(duì)值函數(shù),sigmoid()表示sigmoid函數(shù)。
26、進(jìn)一步地,所述獲取每個(gè)關(guān)鍵幀與其他每幀的畫面相似基數(shù),包括:
27、第t個(gè)關(guān)鍵幀向前第m幀的畫面相似基數(shù)zt,m的計(jì)算方法為:
28、
29、式中:gt,k表示第t個(gè)關(guān)鍵幀與第t個(gè)關(guān)鍵幀向前第k幀的畫面相似性,m表示第t個(gè)關(guān)鍵幀向前的第m幀,k表示第t個(gè)關(guān)鍵幀向前幀數(shù)間隔為k的幀,sigmoid[]表示sigmoid函數(shù)。
30、進(jìn)一步地,所述獲取每個(gè)關(guān)鍵幀與其他每幀的片段連續(xù)性,包括:
31、第t個(gè)關(guān)鍵幀向前第m幀的片段連續(xù)性ft,m的計(jì)算方法為:
32、
33、式中:lt表示第t個(gè)關(guān)鍵幀的音頻權(quán)重,st表示第t個(gè)關(guān)鍵幀的音頻向前關(guān)聯(lián)性,ft,m表示第t個(gè)關(guān)鍵幀向前第m幀的聲音頻率,表示第t個(gè)關(guān)鍵幀向前第m幀到第t個(gè)關(guān)鍵幀之間所有幀的聲音頻率的均值,zt,m表示第t個(gè)關(guān)鍵幀向前第m幀的畫面相似基數(shù),|?|表示取絕對(duì)值函數(shù),sigmoid[]表示sigmoid函數(shù)。
34、進(jìn)一步地,所述獲取若干動(dòng)漫素材片段,包括:
35、預(yù)設(shè)連續(xù)閾值,以每個(gè)關(guān)鍵幀為每個(gè)初始片段,當(dāng)?shù)趖個(gè)關(guān)鍵幀向前第1幀的片段連續(xù)性大于等于連續(xù)閾值時(shí),將第t個(gè)關(guān)鍵幀向前第1幀加入第t個(gè)關(guān)鍵幀所在的初始片段,當(dāng)?shù)趖個(gè)關(guān)鍵幀向前第2幀的片段連續(xù)性大于等于連續(xù)閾值時(shí),將第t個(gè)關(guān)鍵幀向前第2幀加入第t個(gè)關(guān)鍵幀所在的初始片段,當(dāng)?shù)趖個(gè)關(guān)鍵幀向前第3幀的片段連續(xù)性大于等于連續(xù)閾值時(shí),將第t個(gè)關(guān)鍵幀向前第3幀加入第t個(gè)關(guān)鍵幀所在的初始片段,以此類推,直至出現(xiàn)常數(shù)c,使得第t個(gè)關(guān)鍵幀向前第c幀的片段連續(xù)性小于連續(xù)閾值的幀或第t個(gè)關(guān)鍵幀向前第c幀為視頻邊界,停止第t個(gè)關(guān)鍵幀向前的延伸,將第t個(gè)關(guān)鍵幀向前第c幀到第t個(gè)關(guān)鍵幀向前第1幀的所有幀記為第t個(gè)關(guān)鍵幀的向前分段結(jié)果;
36、根據(jù)獲取第t個(gè)關(guān)鍵幀的向前分段結(jié)果的方法,獲取第t個(gè)關(guān)鍵幀的向后分段結(jié)果,將第t個(gè)關(guān)鍵幀的向前分段結(jié)果和向后分段結(jié)果以及第t幀構(gòu)成的視頻片段,記為第t個(gè)關(guān)鍵幀的分段結(jié)果;獲取所有關(guān)鍵幀的分段結(jié)果,當(dāng)若干個(gè)關(guān)鍵幀的分段結(jié)果存在交集時(shí),將若干個(gè)存在交集的分段結(jié)果合并,獲得所有動(dòng)漫素材片段。
37、一種基于人工智能的動(dòng)漫素材數(shù)據(jù)采集系統(tǒng),包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)所述一種基于人工智能的動(dòng)漫素材數(shù)據(jù)采集方法的步驟。
38、本發(fā)明的技術(shù)方案的有益效果是:根據(jù)原始動(dòng)漫視頻中每幀與其他幀在各顏色通道的變化情況以及畫面信息的差異,獲取每幀與其他幀的畫面相似性,結(jié)合語義特征向量以及每兩幀畫面之間在各個(gè)通道的差異計(jì)算每兩幀之間的畫面相似性,從多個(gè)畫面參數(shù)進(jìn)行分析,獲得的畫面相似性結(jié)果更可靠;根據(jù)每幀的聲音頻率以及每個(gè)關(guān)鍵幀附近的若干幀的聲音頻率的變化情況,獲取每個(gè)關(guān)鍵幀的音頻向前關(guān)聯(lián)性以及音頻向后關(guān)聯(lián)性,取每個(gè)關(guān)鍵幀前后若干幀分析每個(gè)關(guān)鍵幀音頻的前后關(guān)聯(lián)性,根據(jù)每個(gè)關(guān)鍵幀的音頻向前關(guān)聯(lián)性以及音頻向后關(guān)聯(lián)性,獲取每個(gè)關(guān)鍵幀的音頻權(quán)重,以音頻權(quán)重反映每個(gè)關(guān)鍵幀附近是對(duì)白中切換鏡頭的連續(xù)情節(jié)的可能性,避免連續(xù)情節(jié)切換鏡頭被截?cái)嗟那闆r;根據(jù)每個(gè)關(guān)鍵幀與其他每幀的畫面相似性,獲取每個(gè)關(guān)鍵幀與其他每幀的畫面相似基數(shù),通過每幀到其對(duì)應(yīng)關(guān)鍵幀之間所有幀的畫面相似性的加權(quán)累和獲取畫面相似基數(shù),反映每幀與其對(duì)應(yīng)關(guān)鍵幀之間所有幀的整體畫面相似情況;根據(jù)每個(gè)關(guān)鍵幀的音頻權(quán)重和附近的若干幀的畫面相似基數(shù),以及每個(gè)關(guān)鍵幀附近音頻方面的連續(xù)程度,獲取每個(gè)關(guān)鍵幀與其他每幀的片段連續(xù)性,根據(jù)片段連續(xù)性進(jìn)行每個(gè)關(guān)鍵幀所在初始片段的延伸,并將包含重復(fù)幀的片段進(jìn)行合并,獲得更準(zhǔn)確的動(dòng)漫素材片段分段結(jié)果。