本發(fā)明涉及視頻生成,尤其涉及一種智能視頻生成系統(tǒng)。
背景技術(shù):
1、隨著社交媒體和短視頻平臺(tái)的興起,人們開始用視頻分享自己的生活,用視頻制作新聞短訊,制作產(chǎn)品或公司的宣傳片。從大量的視頻中選取需要的視頻內(nèi)容需要花費(fèi)大量的時(shí)間,而視頻內(nèi)容的編輯和視頻效果的優(yōu)化通常需要專業(yè)的視頻編輯軟件和技能,這對(duì)于普通用戶來說是耗時(shí)且困難的。
2、主流的視頻生成系統(tǒng),以人臉識(shí)別為基礎(chǔ)來生成視頻集錦,是視頻片段的簡(jiǎn)單拼接,生成的視頻不具有藝術(shù)美感。同時(shí)應(yīng)用場(chǎng)景限制比較多,主要應(yīng)用于旅游景點(diǎn)、游樂場(chǎng)、體育館、博物館等地方,用來生產(chǎn)游客游覽參觀的視頻集錦。在沒有捕捉到人臉的時(shí)候也不能生成最終的視頻集錦。
3、因此,需要一種智能視頻生成系統(tǒng)來解決上述技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提供的一種智能視頻生成系統(tǒng),包括視頻內(nèi)容智能分析單元、智能音頻單元、智能文案單元、智能特效單元和智能視頻片段挑選單元;其中,
2、視頻內(nèi)容智能分析單元:用于對(duì)視頻文件或視頻流進(jìn)行內(nèi)容智能分析,通過協(xié)同智能音頻單元,提取視頻文件或視頻流中的人物信息存入數(shù)據(jù)庫中;其中,包括人臉識(shí)別模塊、人臉表情分析模塊、人體姿勢(shì)識(shí)別模塊、文字識(shí)別模塊和物體識(shí)別模塊;
3、智能音頻單元:用于提供語音-文字轉(zhuǎn)換、文字-語音轉(zhuǎn)換和音頻節(jié)奏提取服務(wù);其中,包括語音轉(zhuǎn)文字模塊、文字轉(zhuǎn)語音模塊和音頻節(jié)奏分析模塊;
4、智能文案單元:用于提供文案關(guān)鍵詞提取和智能文案擴(kuò)寫服務(wù);其中,包括文案關(guān)鍵詞提取模塊和智能文案擴(kuò)寫模塊;
5、智能特效單元:用于提供特效信息查詢服務(wù);其中,特效信息包括特效聲音、視頻特技和視頻過渡特技,并分別存儲(chǔ)在特效聲音庫、視頻特技庫和視頻過渡特技庫中;
6、智能視頻片段挑選單元:協(xié)同視頻內(nèi)容智能分析單元、智能音頻單元、智能文案單元和智能特效單元,根據(jù)用戶選擇的挑選模式挑選對(duì)應(yīng)的視頻文件片段或視頻流片段;將各視頻文件片段或視頻流片段進(jìn)行時(shí)間軸對(duì)齊后,裁切為若干視頻片,為各視頻片段添加特效聲音、視頻特技和視頻過渡特技,并按照時(shí)間線將各視頻片段串聯(lián)為完整視頻進(jìn)行輸出。
7、作為更進(jìn)一步的解決方案,所述視頻內(nèi)容智能分析單元通過如下步驟對(duì)視頻文件或視頻流進(jìn)行內(nèi)容智能分析:
8、對(duì)視頻文件或視頻流抽幀進(jìn)行抽幀操作,得到若干幀圖片,并附上各幀圖片對(duì)應(yīng)的時(shí)間戳;
9、通過文字識(shí)別模塊對(duì)各幀圖片進(jìn)行文字識(shí)別,將識(shí)別得到的文字信息、所在幀的圖片信息和對(duì)應(yīng)時(shí)間戳進(jìn)行組合,得到視頻文字信息并存入數(shù)據(jù)庫中;
10、通過物體識(shí)別模塊對(duì)各幀圖片進(jìn)行物體識(shí)別,將識(shí)別得到的物體信息、所在幀的圖片信息和對(duì)應(yīng)時(shí)間戳進(jìn)行組合,得到視頻物體信息并存入數(shù)據(jù)庫中;
11、通過人臉識(shí)別模塊對(duì)各幀圖片進(jìn)行人臉識(shí)別,并記錄人臉特征信息;
12、通過人臉表情分析模塊對(duì)各幀圖片進(jìn)行人臉表情分析,并記錄人臉表情信息;
13、通過人體姿勢(shì)識(shí)別模塊對(duì)各幀圖片進(jìn)行人體姿勢(shì)識(shí)別,并記錄人體姿勢(shì)信息。
14、作為更進(jìn)一步的解決方案,所述視頻內(nèi)容智能分析單元從視頻文件或視頻流中分離出音頻信息,并將音頻信息發(fā)送至智能音頻單元;所述智能音頻單元協(xié)同進(jìn)行音頻信息處理,通過語音轉(zhuǎn)文字模塊進(jìn)行語音-文字轉(zhuǎn)換,將轉(zhuǎn)換得到的語音文字信息、所在幀的圖片信息和對(duì)應(yīng)時(shí)間戳進(jìn)行組合,得到視頻語音信息并存入數(shù)據(jù)庫中。
15、作為更進(jìn)一步的解決方案,所述視頻內(nèi)容智能分析單元通過將視頻文字信息、視頻物體信息、人臉特征信息、人臉表情信息、人體姿勢(shì)信息和視頻語音信息進(jìn)行組合,得到視頻文件或視頻流的人物信息并存入數(shù)據(jù)庫中。
16、作為更進(jìn)一步的解決方案,還定義有消極表情和不文明姿勢(shì),并將數(shù)據(jù)庫中存在消極表情和/或不文明姿勢(shì)的人物信息剔除。
17、作為更進(jìn)一步的解決方案,所述智能特效單元通過如下步驟進(jìn)行特效信息查詢:
18、智能視頻片段挑選單元將視頻片段對(duì)應(yīng)的視頻文字信息、視頻物體信息和視頻語音信息傳入智能特效單元;
19、通過文字段內(nèi)容分別對(duì)視頻文字信息、視頻物體信息和視頻語音信息進(jìn)行信息歸類整理,將具備相似或相同文字段內(nèi)容歸為同一信息類;
20、按照同類信息數(shù)量對(duì)各信息類進(jìn)行數(shù)量排序,選舉出同類信息數(shù)量最多的信息類;
21、將得到的信息類分別在特效聲音庫、視頻特技庫和視頻過渡特技庫進(jìn)行查詢,判斷是否查詢到對(duì)應(yīng)的特效聲音、視頻特技或視頻過渡特技;
22、若查詢到對(duì)應(yīng)的特效聲音、視頻特技或視頻過渡特技,則輸出對(duì)應(yīng)的特效信息;若未查詢到,則選擇同類信息數(shù)量次多的信息類再次進(jìn)行查詢;
23、若遍歷查詢完所有信息類或者特效聲音、視頻特技或視頻過渡特技均完成特效信息輸出,則結(jié)束查詢并將輸出的特效信息返回給智能視頻片段挑選單元。
24、作為更進(jìn)一步的解決方案,當(dāng)挑選模式設(shè)置為人物模式時(shí),所述智能視頻片段挑選單元執(zhí)行如下處理步驟:
25、s101:用戶設(shè)置需要進(jìn)行視頻生成的人物照片;
26、s102:通過視頻內(nèi)容智能分析單元對(duì)人物照片進(jìn)行內(nèi)容智能分析,提取人物照片中的人物特征信息;
27、s103:將人物特征信息和數(shù)據(jù)庫中的人物信息進(jìn)行特征比對(duì);遍歷數(shù)據(jù)庫中所有人物信息,將特征相似度達(dá)到挑選閾值的人物信息進(jìn)行輸出;
28、s104:匯總輸出的人物信息并按照所對(duì)應(yīng)時(shí)間戳進(jìn)行先后排序,得到人物挑選片段信息序列;
29、s105:提取人物挑選片段信息序列所對(duì)應(yīng)的視頻文件片段或視頻流片段,將各視頻文件片段或視頻流片段進(jìn)行時(shí)間軸對(duì)齊后,裁切為若干視頻片段并送入智能特效單元進(jìn)行特效信息查詢;
30、s106:智能特效單元返回各視頻片段的特效信息,將各視頻片段按照特效信息,添加對(duì)應(yīng)的特效聲音、視頻特技和視頻過渡特技,得到若干特效視頻片段;
31、s107:將特效視頻片段按照裁切順序排列,在裁切位置處進(jìn)行首尾拼接,串聯(lián)為完整視頻進(jìn)行輸出。
32、作為更進(jìn)一步的解決方案,當(dāng)挑選模式設(shè)置為文案模式時(shí),所述智能視頻片段挑選單元執(zhí)行如下處理步驟:
33、s201:用戶設(shè)置需要進(jìn)行視頻生成的文案內(nèi)容;
34、s202:智能文案單元根據(jù)用戶設(shè)置判斷是否進(jìn)行文案擴(kuò)寫;若是,則通過智能文案擴(kuò)寫模塊對(duì)文案內(nèi)容進(jìn)行擴(kuò)寫優(yōu)化;若否,則直接進(jìn)行下一步操作;
35、s203:智能音頻單元通過文字轉(zhuǎn)語音模塊對(duì)文案內(nèi)容進(jìn)行文字-語音轉(zhuǎn)換,得到文案音頻文件;
36、s204:智能文案單元通過文案關(guān)鍵詞提取模塊對(duì)文案內(nèi)容進(jìn)行關(guān)鍵詞提取,得到文案關(guān)鍵詞信息并存入數(shù)據(jù)庫中;
37、s205:文案關(guān)鍵詞信息和數(shù)據(jù)庫中人物信息的視頻文字信息、視頻物體信息和視頻語音信息進(jìn)行文字段內(nèi)容匹配;遍歷數(shù)據(jù)庫中所有人物信息,將文字段內(nèi)容匹配度達(dá)到挑選閾值的人物信息進(jìn)行輸出;
38、s206:匯總輸出的人物信息并按照所對(duì)應(yīng)文案關(guān)鍵詞在文案內(nèi)容中出現(xiàn)的先后順序進(jìn)行排序,得到文案挑選片段信息序列;
39、s207:提取文案挑選片段信息序列所對(duì)應(yīng)的視頻文件片段或視頻流片段,將各視頻文件片段或視頻流片段進(jìn)行時(shí)間軸對(duì)齊后,裁切為若干視頻片段并送入智能特效單元進(jìn)行特效信息查詢;
40、s208:智能特效單元返回各視頻片段的特效信息,將各視頻片段按照特效信息,添加對(duì)應(yīng)的特效聲音、視頻特技和視頻過渡特技,得到若干特效視頻片段;
41、s209:將特效視頻片段按照裁切順序排列,在裁切位置處進(jìn)行首尾拼接,串聯(lián)為完整視頻進(jìn)行輸出。
42、作為更進(jìn)一步的解決方案,當(dāng)挑選模式設(shè)置為人物文案模式時(shí),所述智能視頻片段挑選單元執(zhí)行如下處理步驟:
43、s301:根據(jù)用戶設(shè)置需要進(jìn)行視頻生成的人物照片,執(zhí)行步驟s101-s104,得到人物挑選片段信息序列;根據(jù)用戶設(shè)置需要進(jìn)行視頻生成的文案內(nèi)容,執(zhí)行步驟s201-s206,得到文案挑選片段信息序列;
44、s302:將人物挑選片段信息序列和文案挑選片段信息序列中,時(shí)間相互重合或者時(shí)間連續(xù)的視頻文件片段或視頻流片段挑選出來;
45、s303:將挑選出來的各視頻文件片段或視頻流片段進(jìn)行時(shí)間軸對(duì)齊后,裁切為若干視頻片段并送入智能特效單元進(jìn)行特效信息查詢;
46、s304:智能特效單元返回各視頻片段的特效信息,將各視頻片段按照特效信息,添加對(duì)應(yīng)的特效聲音、視頻特技和視頻過渡特技,得到若干特效視頻片段;
47、s305:將特效視頻片段按照裁切順序排列,在裁切位置處進(jìn)行首尾拼接,串聯(lián)為完整視頻進(jìn)行輸出。
48、作為更進(jìn)一步的解決方案,所述智能視頻片段挑選單元在進(jìn)行視頻片段裁切時(shí);
49、若有背景音樂,則通過智能音頻單元的音頻節(jié)奏分析模塊,對(duì)背景音樂進(jìn)行音頻節(jié)奏提取得到音頻節(jié)奏信息,根據(jù)音頻節(jié)奏信息確定對(duì)應(yīng)的音頻節(jié)奏點(diǎn),并從音頻節(jié)奏點(diǎn)處裁切視頻片段;若無背景音樂,則直接通過各視頻文件片段或視頻流片段對(duì)應(yīng)的人物信息,提取人物信息中存在的時(shí)間戳并進(jìn)行前后時(shí)間排序,并從時(shí)間戳處裁切視頻片段。
50、與相關(guān)技術(shù)相比較,本發(fā)明提供的一種智能視頻生成系統(tǒng)具有如下有益效果:
51、本發(fā)明通過視頻內(nèi)容智能分析單元對(duì)用戶上傳的視頻文件或視頻流進(jìn)行內(nèi)容智能分析,提取其中所記錄的人臉特征信息、人臉表情信息、人體姿勢(shì)信息、視頻文字信息和視頻物體信息,再協(xié)同智能音頻單元提取視頻語音信息,并一并組合成人物信息存入數(shù)據(jù)庫中;智能視頻片段挑選單元?jiǎng)t先根據(jù)用戶選擇的挑選模式,挑選對(duì)應(yīng)的視頻文件片段或視頻流片段,再進(jìn)行時(shí)間軸對(duì)齊后裁切為若干視頻片,最后再通過智能特效單元為各視頻片段添加特效聲音、視頻特技和視頻過渡特技,并按照時(shí)間線將各視頻片段串聯(lián)為完整視頻。本發(fā)明能動(dòng)態(tài)生成不同形式、不同內(nèi)容、不同剪輯、不同特效的視頻,且這些不同均和視頻的人物信息相關(guān),其生成的視頻和內(nèi)容之間存在內(nèi)在關(guān)聯(lián),能避免單一依靠人臉來生成視頻的固定性、單一性和同質(zhì)化的問題。