一種視頻數據的挖掘方法和裝置的制造方法
【技術領域】
[0001]本發明涉及數據處理技術領域,特別是涉及一種視頻數據的挖掘方法和一種視頻數據的挖掘裝置。
【背景技術】
[0002]隨著網絡技術的不斷發展和個性化需求的不斷提高,視頻網站中用戶的參與度得到極大提升,用戶生成內容(User Generated Content,UGC)呈爆炸式增長。
[0003]通常,視頻網站上的UGC視頻均具有數量龐大、復雜多樣、極其分散的特點,UGC視頻中具有大量的優質視頻,同時也混雜著大量劣質視頻,如何挖掘出散落在海量UGC視頻中滿足長尾需求(Long-tail)的、優質的視頻成為一種需求。
[0004]目前,盡管某些網站允許用戶建立個人專輯,但由于用戶自身的隨意性和資源的不完整性,大部分專輯的質量不高、視頻內容混亂,導致這些專輯都缺乏實際的可用性,同時,由于UGC視頻的數量過于龐大,通過人工的方式來挖掘優質視頻也變的不切實際,成本過尚。
【發明內容】
[0005]鑒于上述問題,提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種視頻數據的挖掘方法和相應的一種視頻數據的挖掘裝置。
[0006]為了解決上述問題,本發明實施例公開了一種視頻數據的挖掘方法,包括:
[0007]采用預先訓練的頻道分類器對待挖掘視頻數據進行頻道分類,獲得頻道視頻集;
[0008]針對各個所述頻道視頻集,過濾掉不滿足預設過濾條件的視頻數據;
[0009]對各個所述頻道視頻集中的視頻數據進行聚類,獲得視頻聚類集合;
[0010]獲取各個所述視頻聚類集合的視頻集關鍵短語;
[0011 ]針對各個所述視頻聚類集合,提取包含所述視頻集關鍵短語的視頻數據,形成新的視頻聚類集合;
[0012]對各個所述新的視頻聚類集合進行去重處理;
[0013]計算各個所述新的視頻聚類集合的平均相似度;
[0014]保留平均相似度大于或等于預設閾值的新的視頻聚類集合。
[0015]優選的,所述獲取各個所述視頻聚類集合的視頻集關鍵短語的步驟包括:
[0016]獲取各個所述視頻聚類集合中視頻數據的第一視頻文本;
[0017]根據所述第一視頻文本獲取分詞關鍵短語;
[0018]根據所述第一視頻文本獲取模板關鍵短語;
[0019]將所述分詞關鍵短語和所述模板關鍵短語進行融合,獲得視頻集關鍵短語。
[0020]優選的,所述根據所述第一視頻文本獲取分詞關鍵短語的步驟包括:
[0021]對所述第一視頻文本進行分詞處理,獲得視頻文本分詞;
[0022]統計各個所述視頻文本分詞在相應視頻聚類集合中的出現頻率;
[0023]提取出現頻率高于第一預設頻率值的視頻文本分詞作為關鍵分詞;
[0024]將各個所述視頻聚類集合中的關鍵分詞組合成符合自然語言表達的分詞關鍵短語。
[0025]優選的,所述根據所述第一視頻文本獲取模板關鍵短語的步驟包括:
[0026]加載預置關鍵短語模板;
[0027]將與所述預置關鍵短語模板匹配的第一視頻文本作為候選模板關鍵短語;
[0028]統計各個所述候選模板關鍵短語在相應視頻聚類集合中的出現頻率;
[0029]提取出現頻率高于第二預設頻率值的候選模板關鍵短語作為模板關鍵短語。
[0030]優選的,所述頻道分類器通過以下方式訓練:
[0031 ]確定各個頻道下的視頻樣本數據;
[0032]獲取各個頻道下的視頻樣本數據的第二視頻文本;
[0033]采用所述第二視頻文本訓練頻道分類器。
[0034]優選的,所述對各個所述新的視頻聚類集合進行去重處理的步驟包括:
[0035]獲取各個所述新的視頻聚類集合中視頻數據的第三視頻文本;
[0036]針對各個所述新的視頻聚類集合,提取視頻數據的第三視頻文本中的量詞;
[0037]針對各個所述新的視頻聚類集合,對具有相同量詞的多個視頻數據,只保留其中一個視頻數據。
[0038]優選的,還包括:
[0039]采用視頻文本中的量詞,對各個所述新的視頻聚類集合中的視頻數據進行排序。
[0040]優選的,所述計算各個所述新的視頻聚類集合的平均相似度的步驟包括:
[0041]計算各個所述新的視頻聚類集合中的視頻數據兩兩之間的相似度;
[0042]將所計算獲得的相似度累加,獲得總和相似度;
[0043]統計所計算獲得的相似度的個數;
[0044]將所述總和相似度與所述相似度的個數的比值作為平均相似度。
[0045]本發明實施例還公開了一種視頻數據的挖掘裝置,包括:
[0046]頻道分類模塊,用于采用預先訓練的頻道分類器對待挖掘視頻數據進行頻道分類,獲得頻道視頻集;
[0047]過濾模塊,用于針對各個所述頻道視頻集,過濾掉不滿足預設過濾條件的視頻數據;
[0048]聚類模塊,用于對各個所述頻道視頻集中的視頻數據進行聚類,獲得視頻聚類集合;
[0049]視頻集關鍵短語獲取模塊,用于獲取各個所述視頻聚類集合的視頻集關鍵短語;
[0050]新的視頻聚類集合生成模塊,用于針對各個所述視頻聚類集合,提取包含所述視頻集關鍵短語的視頻數據,形成新的視頻聚類集合;
[0051]去重模塊,用于對各個所述新的視頻聚類集合進行去重處理;
[0052]平均相似度計算模塊,用于計算各個所述新的視頻聚類集合的平均相似度;
[0053]挖掘結果確定模塊,用于保留平均相似度大于或等于預設閾值的新的視頻聚類集入口 ο
[0054]優選的,所述視頻集關鍵短語獲取模塊包括:
[0055]第一視頻文本獲取子模塊,用于獲取各個所述視頻聚類集合中視頻數據的第一視頻文本;
[0056]分詞關鍵短語獲取模塊,用于根據所述第一視頻文本獲取分詞關鍵短語;
[0057]模板關鍵短語獲取模塊,用于根據所述第一視頻文本獲取模板關鍵短語;
[0058]視頻集關鍵短語獲取模塊,用于將所述分詞關鍵短語和所述模板關鍵短語進行融合,獲得視頻集關鍵短語。
[0059]本發明實施例包括以下優點:
[0060]本發明實施可以采用預先訓練的頻道分類器對待挖掘視頻數據進行頻道分類,獲得頻道視頻集,針對各個頻道視頻集,過濾掉不滿足預設過濾條件的視頻數據,對各個頻道視頻集中的視頻數據進行聚類,獲得視頻聚類集合,獲取各個視頻聚類集合的視頻集關鍵短語,針對各個視頻聚類集合,提取包含視頻集關鍵短語的視頻數據,形成新的視頻聚類集合,對各個新的視頻聚類集合進行去重處理,計算各個新的視頻聚類集合的平均相似度,保留平均相似度大于或等于預設閾值的新的視頻聚類集合,最終所獲得的新的視頻聚類集合中的視頻數據具有高度的趨同性,進而實現了從海量的UGC視頻中挖掘出優質的UGC視頻,并將這些優質的UGC視頻進行歸類,提高了優質視頻的挖掘效率,避免了人工挖掘優質視頻的成本過高的問題。
【附圖說明】
[0061 ]圖1是本發明的一種視頻數據的挖掘方法實施例的步驟流程圖;
[0062]圖2是本發明的一種視頻數據的挖掘裝置實施例的結構框圖。
【具體實施方式】
[0063]為使本發明的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖和【具體實施方式】對本發明作進一步詳細的說明。
[0064]本發明實施例的核心構思之一在于,本發明實施可以采用預先訓練的頻道分類器對待挖掘視頻數據進行頻道分類,獲得頻道視頻集,針對各個頻道視頻集,過濾掉不滿足預設過濾條件的視頻數據,對各個頻道視頻集中的視頻數據進行聚類,獲得視頻聚類集合,獲取各個視頻聚類集合的視頻集關鍵短語,針對各個視頻聚類集合,提取包含視頻集關鍵短語的視頻數據,形成新的視頻聚類集合,對各個新的視頻聚類集合進行去重處理,計算各個新的視頻聚類集合的平均相似度,保留平均相似度大于或等于預設閾值的新的視頻聚類集合,最終所獲得的新的視頻聚類集合中的視頻數據具有高度的趨同性,進而實現了從海量的UGC視頻中挖掘出優質的UGC視頻,并將這些優質的UGC視頻進行歸類,提高了優質視頻的挖掘效率,避免了人工挖掘優質視頻的成本過高的問題。
[0065]參照圖1,示出了本發明的一種視頻數據的挖掘方法實施例的步驟流程圖,具體可以包括如下步驟:
[0066]步驟101,采用預先訓練的頻道分類器對待挖掘視頻數據進行頻道分類,獲得頻道視頻集;
[0067]在本發明實施例中,待挖掘視頻數據主要是指用戶生成(Generated Content,UGC)的視頻數據,即UGC視頻數據,這些UGC視頻通常由