本技術涉及人工智能,尤其涉及一種視頻處理方法、裝置、電子設備、存儲介質及計算機程序產品。
背景技術:
1、生成解說視頻的目標是根據目標解說文本對影片視頻進行剪輯合成,得到符合解說文本的視頻。但是,相關技術中,存在解說視頻中的文字或音頻與視頻畫面不匹配的問題。
技術實現思路
1、為解決相關技術問題,本技術實施例提供一種及存儲介質。
2、本技術實施例的技術方案是這樣實現的:
3、本技術實施例提供了一種視頻處理方法,應用于電子設備,所述方法包括:
4、根據解說文本中每個文本段的特征信息和所述解說文本對應的視頻中每個視頻段的特征信息,確定每個文本段匹配的視頻段;
5、根據每個文本段匹配的視頻段,生成解說視頻。
6、上述方案中,所述根據解說文本中每個文本段的特征信息和所述解說文本對應的視頻中每個視頻段的特征信息,確定每個文本段匹配的視頻段,包括:
7、確定第一文本段對應的候選集,候選集為空集或候選集中包含視頻段;
8、根據第一文本段的特征信息和對應候選集中的視頻段的特征信息之間的相似度,確定第一文本段匹配的視頻段;或者
9、在候選集為空集的情況下,根據第一信息確定第一文本段匹配的視頻段;所述第一信息包括第一文本段在所述解說文本中的位置,和/或,第一文本段的上下文匹配的視頻段。
10、上述方案中,所述確定第一文本段對應的候選集,包括:
11、根據第一文本段的特征信息和所述視頻中視頻段的特征信息,確定第一文本段對應的候選集,候選集為空集或候選集中包含至少一個視頻段;或者
12、根據第一數值和第一數量,確定第一文本段對應的候選集,候選集中包含至少一個視頻段;其中,
13、所述第一數值表征第一文本段在所述解說文本中的占比,所述第一數量表征所述視頻中視頻段的總數。
14、上述方案中,所述根據第一文本段的特征信息和所述視頻中視頻段的特征信息,確定第一文本段對應的候選集,包括:
15、根據第一數值和第一數量,確定第一候選集;
16、根據第一文本段的特征信息和第一視頻段的特征信息,確定第二候選集;第一視頻段包括第一候選集中的所有視頻段或所述視頻中的所有視頻段;
17、將第一候選集與第二候選集的交集,確定為第一文本段對應的候選集。
18、上述方案中,所述第一數值根據第一文本段的序號和第二數量確定,所述第二數量表征所述解說文本中文本段的總數。
19、上述方案中,所述根據第一文本段的特征信息和第一視頻段的特征信息,確定第二候選集,包括:
20、將第三候選集和/或第四候選集和/或第五候選集的交集,確定為所述第二候選集;其中,
21、所述第三候選集由與第一文本段具有相同人物的第一視頻段構成;所述第四候選集根據第一文本段的第一特征向量與第一視頻段的第一特征向量之間的相似度確定,第一特征向量表征物品維度的特征信息;所述第五候選集根據第一文本段的第二特征向量與第一視頻段的第二特征向量之間的相似度確定,第二特征向量表征動作維度的特征信息。
22、上述方案中,所述方法還包括:
23、根據第一文本段的第一特征向量和第一視頻段的第一特征向量,確定第一相似度;在第一相似度大于或等于設定門限的情況下,將第一視頻段添加至所述第四候選集;和/或
24、根據第一文本段的第二特征向量和第一視頻段的第二特征向量,確定第二相似度;在第二相似度大于或等于設定門限的情況下,將第一視頻段添加至所述第五候選集。
25、上述方案中,在第一文本段位于所述解說文本的首部的情況下,第一文本段匹配的視頻段位于所述視頻的首部;或者
26、在第一文本段位于所述解說文本的尾部的情況下,第一文本段匹配的視頻段位于所述視頻的尾部。
27、上述方案中,所述根據第一信息確定第一文本段匹配的視頻段,包括:
28、在第一文本段的上下文中,確定第二文本段;其中,第二文本段表征第一句子或第二句子中具有匹配的視頻段的文本段,第一句子表征第一文本段屬于的句子,第一句子位于兩個第二句子之間,且兩個第二句子距離第一句子最近;
29、根據第二文本段匹配的視頻段,確定第一文本段匹配的視頻段。
30、上述方案中,在第二文本段屬于第一句子的情況下,第一文本段匹配的視頻段的序號與第二文本段匹配的視頻段的序號連續,或者,第一差值與第二差值相同;和/或
31、在第二文本段屬于第二句子,且第一句子中的所有文本段均沒有匹配的視頻段的情況下,第一文本段或第三文本段匹配的視頻段的序號與第四文本段匹配的視頻段的序號為等差序列;其中,
32、第一差值表征第一文本段匹配的視頻段的序號與第二文本段匹配的視頻段的序號之間的差值,第二差值表征第一文本段的序號與第二文本段的序號之間的差值;第三文本段屬于第一句子,且第三差值與第四差值相同;第三差值表征第一文本段匹配的視頻段的序號與第三文本段匹配的視頻段的序號之間的差值,第四差值表征第一文本段的序號與第三文本段的序號之間的差值;第四文本段表征第二句子中的首個文本段,或者第四文本段在第二句子中的位置與第一文本段或第三文本段在第一句子中的位置相同。
33、上述方案中,所述根據第一文本段的特征信息和對應候選集中的視頻段的特征信息之間的相似度,確定第一文本段匹配的視頻段,包括:
34、根據第一文本段的特征信息的特征向量和候選集中視頻段的特征信息的特征向量,確定第三相似度;
35、將最大的第三相似度對應的視頻段,確定為第一文本段匹配的視頻段。
36、上述方案中,所述根據每個文本段匹配的視頻段,生成解說視頻之前,所述方法還包括:
37、對第一文本段匹配的視頻段進行去重。
38、上述方案中,特征信息包括以下一個或多個維度的信息:
39、人物;
40、動作;
41、物品;
42、關鍵幀的畫面描述信息。
43、上述方案中,人物維度的信息包括以下一項或多項:
44、人名;
45、人物在所述視頻中的別名或別稱;
46、人物在所述視頻中的代號。
47、本技術實施例還提供了一種視頻處理裝置,包括:
48、確定單元,用于根據解說文本中每個文本段的特征信息和所述解說文本對應的視頻中每個視頻段的特征信息,確定每個文本段匹配的視頻段;
49、生成單元,用于根據每個文本段匹配的視頻段,生成解說視頻。
50、本技術實施例還提供了一種電子設備,包括:處理器及通信接口;其中,
51、所述處理器,用于根據解說文本中每個文本段的特征信息和所述解說文本對應的視頻中每個視頻段的特征信息,確定每個文本段匹配的視頻段;還用于根據每個文本段匹配的視頻段,生成解說視頻。
52、本技術實施例還提供了一種通信設備,包括處理器和用于存儲能夠在處理器上運行的計算機程序的存儲器,
53、其中,所述處理器用于運行所述計算機程序時,執行上述任一視頻處理方法的步驟。
54、本技術實施例還提供了一種存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現上述任一視頻處理方法的步驟。
55、本技術實施例還提供了一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現上述任一視頻處理方法的步驟。
56、在本技術實施例提供的視頻處理方法、裝置、電子設備、存儲介質及計算機程序產品中,根據解說文本中每個文本段的特征信息和所述解說文本對應的視頻中每個視頻段的特征信息,確定每個文本段匹配的視頻段;根據每個文本段匹配的視頻段,生成解說視頻。上述方案,通過將解說文本的每個文本段的特征信息和解說文本對應的視頻的每個視頻段的特征信息進行匹配分析,增強了對解說文本和解說文本對應的視頻的深度理解,提升了生成的解說視頻中文字或音頻與視頻畫面的匹配度,并且以解說文本的文本段為基礎,確定每個文本段匹配的視頻段,使得最后生成的解說視頻中的視頻畫面與解說文本的匹配度更高,進一步提高了生成的解說視頻與解說文本的匹配度,提升了解說視頻的質量。