專利名稱:用于視頻概要的方法和系統的制作方法
技術領域:
本發明涉及圖像處理,而且,在具體實施例中,本發明涉及用于視頻概要(videosummarization)的方法和系統。
背景技術:
數字視頻的快速發展已經帶來了許多新的應用,因此,極需研究并開發新技術,用來降低視頻歸檔、編目和索引的成本并且提高已存儲視頻的有效性、可用性和可訪問性。在所有可能的研究領域中,一個重要的主題是:怎樣才能迅速瀏覽大量視頻數據,以及怎樣實現有效的內容訪問和表現。為了處理這些問題,近年來,視頻摘要(video abstraction)技術已經出現并且吸引了越來越多的研究興趣。視頻摘要有兩種類型:視頻概要(video su_ary)和視頻縮略(video skimming)。視頻概要,也稱作靜態摘要(still abstract),是從原始視頻序列所選取或重建的一組顯著圖像(salient image)。視頻縮略,也稱作運動摘要(moving abstract),是來自原始視頻序列的圖像序列與對應音頻的集合。視頻縮略也稱作原始視頻的預覽,并且可分成兩個子類型:精彩場景(highlight)和概要序列。精彩場景含有視頻中最有趣且最有吸引力的部分,而概要序列則表現整個視頻的內容給人的印象。在所有類型的視頻摘要中,概要序列傳達原始視頻的內容的最聞語義。—種現有技術方法是對幀進行均勻采樣以縮減視頻大小,同時丟失音頻部分,這類似于在許多數字視頻播放器中所見到的快速轉發功能。通過使用幀丟棄(framedropping)和音頻采樣,時間壓縮方法可同時壓縮音頻和視頻以使兩者同步。然而,在一些情況下,壓縮率可能受到語音失真的限制。巾貞層縮略(Frame-level skimming)主要依靠用戶注意力模型(user attention model)來計算顯著性曲線,但這種方法不能保持視頻結構,尤其是長視頻的結構。鏡頭聚類(Shot clustering)是視頻摘要中的中層方法,但是其可讀性常被忽略。語義層縮略(Semantic level skimming)是試圖理解視頻內容的方法,但是由于“語義鴻溝”難題,可能難以實現語義層縮略的目標。
發明內容
根據一項實施例,一種方法包括:將視頻劃分成多個視頻鏡頭;對來自多個視頻鏡頭的一個視頻鏡頭中的每個幀進行分析;確定視頻鏡頭的每個幀的顯著性;基于視頻鏡頭的每個幀的顯著性確定視頻鏡頭的關鍵幀;從關鍵幀提取視覺特征;以及基于視覺特征對多個視頻鏡頭執行鏡頭聚類以確定概念模式(concept pattern)。所述方法進一步包括:使用顯著性調諧(aliency tuning)方法來融合不同的概念模式,以及基于全局優化方法生成視頻的概要。根據另一項實施例,一種系統包括:提取單元,所述提取單元從視頻中提取多個視頻鏡頭;分析器,所述分析器確定來自多個視頻鏡頭的一個視頻鏡頭的每個幀的顯著性;關鍵幀確定器,所述關鍵幀確定器基于視頻鏡頭中的每個幀的顯著性來確定視頻鏡頭的關鍵幀;視覺特征提取器,所述視覺特征提取器從關鍵幀中提取視覺特征;鏡頭聚類塊,所述鏡頭聚類塊基于視覺特征對多個視頻鏡頭執行鏡頭聚類以確定概念模式。所述系統進一步包括:顯著性調諧塊,所述顯著性調諧塊使用顯著性調諧方法來執行對不同概念模式的融合;概要生成器,所述概要生成器基于全局優化方法來生成視頻概要。上文相當寬泛地概述了本發明的實施例的特征,目的是讓人能更好地理解下文對本發明的詳細描述。下文中將描述本發明的實施例的額外特征和優點,其形成本發明的權利要求書的標的物。所屬領域的技術人員應了解,所揭示的概念和具體實施例可容易地用作用于修改或設計用于實現本發明的相同目的的其它結構或過程的基礎。所屬領域的技術人員還應意識到,此類等效構造不脫離所附權利要求書中所闡述的本發明的精神和范圍。
為更完整地理解本發明及其優點,現在參考以下結合附圖進行的描述,在附圖中:圖1所示為實施例視頻概要系統的流程圖;圖2所示為根據一項實施例的視頻場景、鏡頭和幀的分級結構;圖3所示為根據一項實施例的生成相對運動詞的過程;圖4所示為音頻詞的實施例顯著性掩蔽;圖5所示為怎樣基于不同攝影機運動來對多個視圖的縮放因子(scalingfactor)進行設定的實施例方法;圖6所示為根據一項實施例的用于動態規劃解決方案的子結構;以及圖7所示為根據一項實施例的可用來實施視頻概要方法的計算機系統的簡化方框圖。
具體實施例方式下文詳細論述當前優選實施例的制作和使用。但是應了解,本發明提供可實施于廣泛的各種具體環境中的許多可應用的發明概念。所論述的具體實施例僅僅說明用以制作和使用本發明的具體方式,而不限制本發明的范圍。視頻縮略是將視頻縮短成在時間上壓縮后的版本的一項任務,觀看者通過這個版本仍可理解原始視頻的情節。這項技術允許觀看者迅速瀏覽大型多媒體庫,因此有助于進行快速視頻瀏覽、視頻索引和檢索等任務。視頻概要主要表現在以下兩個方面,即,視頻精彩場景和信息概要。視頻概要使觀看者能夠從較短的概要版本迅速且有效地領會視頻所描述或呈現的內容。為了滿足這個需求,直觀的方式是從原始視頻中提取主要梗概,把主要梗概當做一組視頻精彩場景,并且將這組視頻精彩場景保留在概要視頻中。視頻梗概可被視為按時間順序進行排列的具有某種語義含意的概念模式隊列或場景序列。此處,概念模式的層級沒有通過人為干預所得知的真實語義概念高。在此項技術中,概念模式對鏡頭(將一個鏡頭定義為一組連續的類似視頻幀,且將兩個連續的鏡頭之間的過渡稱作鏡頭邊界)的語義進行編碼,代表鏡頭群組,所述鏡頭群組描繪了一致的語義設定且一般可以作為標記或明顯的提示,所述標記或提示暗示了原始視頻的形成。只要對所有概念模式進行了傳達,觀看者就可能僅通過看和聽少數鏡頭來復原情節。通常,視頻接連地描繪依序發生或同時發生的故事。在故事中,鏡頭本身并沒有太多含義,但是鏡頭通常被當作視頻作品的基本單元。事實上,故事的基礎單元可以是場景,場景被定義為相互關聯且在時間上相鄰的鏡頭的序列,所述鏡頭描繪并傳達共同的語義線索。觀看者一般很需要視頻的概要。在視頻中,通常可能存在對整個故事進行說明的幾個場景以及傳達相同概念模式的不同鏡頭。當對傳達概念模式的代表性鏡頭進行選取時,會偏愛于對人的注意力產生最大刺激的鏡頭,這樣,所得的概要視頻不僅含有整合的概念模式,而且還謹慎地選取了用豐富的信息來反映概念模式的鏡頭。此外,從耗時長的場景中選取更多鏡頭也是合理的,所述耗時長的場景通常突出重要的故事單元。雖然視頻精彩場景和鏡頭概念模式實例對領會視頻中的有趣內容來說是必不可少的,但是連續觀看在時間上相隔很久的視頻精彩場景通常會使觀看者感到不適。因此,包含幾個過渡鏡頭以填補相隔視頻精彩場景之間的信息鴻溝是合理的,這種做法可以克服邏輯性故事說明中的突然跳轉并且保留對全部信息的適當覆蓋。主要通過基于聚類的方法生成的概念模式未必執行以下準則:已發現的概要可以突出視頻的不同方面。鏡頭或子鏡頭(SUbshot)等視頻段的不均勻統計分布可能容易使對視頻精彩場景進行了最優選取的概要結果有所偏差。因此,在以保留視頻概要的多樣性為目標的優化中,需要一種稱作信息覆蓋的準則。在目標函數中,此準則可用于橫跨整個視頻并均勻地分布在整個視頻上。圖1所示為實施例視頻概要系統的流程圖。可在如圖1中所示的系統中實施上一段中所描述的方法。實施例視頻概要系統可包含提取單元102、分析單元104以及概要單元106。提取單元102經配置以在幀層級上提取視覺和音頻特征。分析單元104經配置以對鏡頭概念模式和場景結構進行分析。概要單元106經配置以從鏡頭序列重組的角度對原始視頻進行概括。提取單元102從每個鏡頭中的采樣幀中提取視覺、運動和音頻特征。所述視覺和音頻特征包含完整視頻巾貞中的尺度不變特征變換(Scale Invariant Feature Transform ;SIFT)特征、運動對象的運動矢量,以及每個鏡頭中重疊的短期音頻段的匹配追蹤(Matching Pursuit ;MP)分解。分析單元104對原始視頻的高層概念和結構進行分析。按照如下方式對具有類似內容的視頻鏡頭進行分組以形成鏡頭概念模式;提取單元102從上一步驟中已經提取的視覺、運動和音頻特征中提取每個鏡頭的詞袋(Bag-of-Words ;BoW)描述符(基于SIFT的視覺BoW描述符、局部運動BoW描述符以及基于匹配追蹤的音頻BoW描述符),隨后通過譜聚類法將所述三種類型的BoW描述符分別聚類成若干群組。每個概念模式(集群)代表具有類似的視覺、運動或音頻內容的一組視頻鏡頭。此外,在場景過渡圖(STG)中,按照位置或戲劇性事件進行統一的若干相互聯系的鏡頭構成一個視頻場景。分析單元104可使每個鏡頭與其語義標簽(例如,視覺概念模式)相關聯,隨后辨別長度最小且含有復現標簽的標簽子序列。概要單元106從鏡頭序列重組的角度對原始視頻進行概括。通過對不僅含有最大可實現顯著性累積而且橫跨整個視頻并均勻地分布在整個視頻上的一組鏡頭進行連接,概要單元106生成壓縮后的視頻摘錄,其具有所需的縮略長度。以前的準則試圖保留視頻精彩場景,例如,有趣的視頻場景以及鏡頭概念模式,而后來的準則試圖對整個視頻進行良好的信息覆蓋。為了滿足上述準則,概要單元106制定了全局優化框架以處理鏡頭選取問題,并且通過動態規劃方法來解決這個問題。圖2所示為根據一項實施例的視頻場景、鏡頭和幀的分級結構。如圖2中所圖示,一般來說,視頻202可按照分級形式分解為“視頻一場景一鏡頭一子鏡頭一關鍵幀”。換句話說,視頻202可劃分成多個場景204。場景204可進一步劃分成多個鏡頭206。每個鏡頭(例如,鏡頭206)可包括多個子鏡頭208。每個子鏡頭可包括多個關鍵幀210。場景204定義為在語義上相關且在時間上相鄰的鏡頭的集合,所述集合描繪并傳達高層概念。鏡頭206 (視頻作品的基本單元)是單個攝影機所記錄的不間斷片段。子鏡頭208是鏡頭(例如,鏡頭206)之內的段,對應于獨特的攝影機運動,例如搖鏡頭(panning) /傾斜、變焦以及靜止。關鍵幀210是能最好地表現鏡頭(例如,鏡頭206)或子鏡頭(例如,子鏡頭208)內容的幀。根據一項實施例,使用鏡頭檢測來實現對視頻串流的時間分段。使用基于方差差異(variance-difference)的方法來檢測鏡頭改變,并穩健地檢測各場景之間的場景切換以及淡入淡出。計算一個幀的方差,并且記錄與前一個幀的方差增量Dvar。根據一項實施例,Dvar開始新鏡頭所用的準則是:a.Dvar (當前)〈Thl (穩定性要求)b.最大Dvar (開始至當前)_最小Dvar (開始至當前)>Th2 (公差要求)c.當前鏡頭中的幀數〉Th3 (鏡頭長度要求)在替代性實施例中,可使用其它技術。例如,使用基于顏色直方圖的方法或光流運動特征也可以發現鏡頭邊界。為方便處理,在一些實施例中,將視頻數據分成片段,其中每個片段的邊界與其在時間軸上處于同一位置的視頻鏡頭同步。子鏡頭208是在鏡頭206之內的段。一般來說,將子鏡頭208定義成含有獨特的攝影機運動。因此,子鏡頭分段可通過攝影機運動估計來完成。例如,考慮攝影機做如下運動的鏡頭(例如,鏡頭206):拉遠鏡頭(zoom out),隨后從左向右搖鏡頭,并且向著指定對象推進鏡頭(zoom in),最后停止。隨后可將這個鏡頭劃分成三個子鏡頭,包含一個鏡頭拉遠、一個搖鏡頭以及一個鏡頭拉近。通過估計二維剛性變換,可計算出兩個相鄰幀之間的攝影機運動,所述估計是基于兩個幀上的對應的卡內得-盧卡斯-托馬西特征跟蹤器(Kanade-Lucas-Tomasi Feature Tracker ;KLT)關鍵點跟蹤。有關KLT的具體細節參見史(JShi)和托馬西(C Tomasi) (1994 年)所著的“追蹤有效特征(Good Features to Track)”,這篇文章出自《IEEE國際計算機視覺與模式識別會議(IEEE Conference on ComputerVision and Pattern Recognition)》,第593至600頁,并且以引入的方式并入本文本中。假設KLT關鍵點位于幀t中的(x,y)處,在幀(t+Ι)中的(x’,y’)處跟蹤對應的KLT關鍵點,從(X,y)到(X’,y’)的變換可表達成
權利要求
1.一種方法,包括: 將視頻劃分成多個視頻鏡頭; 對來自所述多個視頻鏡頭的一個視頻鏡頭中的每個幀進行分析; 確定所述視頻鏡頭的每個幀的顯著性; 基于所述鏡頭的每個幀的所述顯著性確定所述視頻鏡頭的關鍵幀; 從所述關鍵巾貞中提取視覺特征; 基于所述視覺特征對所述多個視頻鏡頭執行鏡頭聚類以確定概念模式; 使用顯著性調諧方法來融合不同的概念模式;以及 基于全局優化方法生成所述視頻的概要。
2.根據權利要求1所述的方法,進一步包括基于動態規劃方法生成所述視頻的所述概要。
3.根據權利要求1所述的方法,進一步包括從所述視頻鏡頭中提取音頻特征,所述提取音頻特征包括: 確定來自所述視頻鏡頭的音頻詞 ;以及 對所述音頻詞執行聚類。
4.根據權利要求3所述的方法,所述確定音頻詞包括: 獲得第一組音頻詞;以及 計算所述音頻詞中的每個音頻詞的顯著性度量。
5.根據權利要求4所述的方法,其中使用匹配追蹤分解方法把音頻詞分解成一連串重疊的短時間音頻段。
6.根據權利要求4所述的方法,進一步包括執行顯著性掩蔽,所述顯著性掩蔽包括對所述顯著性度量與閾值進行比較,以及對顯著性度量在所述閾值的一側的音頻詞進行消除。
7.根據權利要求1所述的方法,進一步包括使用動態規劃方法來確定所述視頻鏡頭的每個幀的所述顯著性。
8.根據權利要求1所述的方法,所述確定所述關鍵幀包括在所述視頻鏡頭中選取使內容精彩場景與信息覆蓋之間得到平衡的幀。
9.根據權利要求1所述的方法,所述提取視覺特征包括基于所提取的視覺特征確定視覺詞的集合。
10.根據權利要求9所述的方法,進一步包括通過提取每個鏡頭的視覺、運動和音頻特征將所述視頻劃分成多個鏡頭。
11.根據權利要求1所述的方法,其中執行鏡頭聚類包括 進行聚類以在多個鏡頭中確定概念模式;以及 對鏡頭進行分組以形成概念種類。
12.—種系統,包括: 提取單元,所述提取單元從視頻中提取多個視頻鏡頭; 分析器,所述分析器確定來自所述多個視頻鏡頭的一個視頻鏡頭的每個幀的顯著性;關鍵幀確定器,所述關鍵幀確定器基于所述視頻鏡頭中的每個幀的所述顯著性來確定所述視頻鏡頭的關鍵幀;視覺特征提取器,所述視覺特征提取器從所述關鍵幀中提取視覺特征; 鏡頭聚類塊,所述鏡頭聚類塊基于所述視覺特征對所述多個視頻鏡頭執行鏡頭聚類以確定概念模式; 顯著性調諧塊,所述顯著性調諧塊使用顯著性調諧方法來執行對不同概念模式的融合;以及 概要生成器,所述概要生成器基于全局優化方法來生成視頻概要。
13.根據權利要求12所述的系統,進一步包括: 音頻特征確定塊,所述音頻特征確定塊從所述視頻鏡頭確定音頻特征; 音頻顯著性確定塊,所述音頻顯著性確定塊確定所述已確定的音頻特征的顯著性; 音頻詞聚類塊,所述音頻詞聚類塊對已確定的音頻特征進行聚類;以及 音頻和視頻概念,所述音頻和視頻概念使音頻與視頻概念種類對齊。
14.根據權利要求12所述的系統,進一步包括: 視頻概要生成器,所述視頻概要生成器基于動態規劃方法生成視頻概要。
15.根據權利要求12所述的系統,進一步包括: 視頻概要生成器,所述視頻概要生成器基于最大可實現的顯著性與視頻信息覆蓋之間的平衡來生成視頻概要。
16.根據權利要求12所述的系統,進一步包括: 視頻概要生成器,所 述視頻概要生成器生成視頻概要以保留內容精彩場景和視頻信息覆蓋。
17.一種存儲有可執行程序的非瞬時計算機可讀媒體,其中所述程序命令微處理器執行以下步驟: 對來自多個視頻鏡頭的一個視頻鏡頭中的每個幀進行分析,分析包括確定所述視頻鏡頭的每個幀的顯著性; 基于所述鏡頭的每個幀的所述顯著性確定所述視頻鏡頭的關鍵幀; 從所述關鍵幀提取視覺特征; 基于所述視覺特征對所述多個視頻鏡頭執行鏡頭聚類以確定概念模式; 使用顯著性調諧方法來融合不同的概念模式;以及 基于全局優化方法生成所述視頻概要。
18.根據權利要求17所述的非瞬時計算機可讀媒體,其中所述程序命令所述微處理器進一步執行以下步驟: 確定所述視頻鏡頭的音頻特征; 確定所述音頻特征的顯著性; 對已確定的音頻特征進行聚類;以及 使音頻與視頻概念種類對齊。
19.根據權利要求17所述的非瞬時計算機可讀媒體,其中所述程序命令所述微處理器進一步執行以下步驟:基于所述全局優化方法生成視頻概要。
20.根據權利要求17所述的非瞬時計算機可讀媒體,其中所述程序命令所述微處理器進一步執行以下步驟:基于動態規劃方法生成視頻概要。
全文摘要
一種視頻概要方法包括將視頻(202)劃分成多個視頻鏡頭(206);對來自多個視頻鏡頭(206)的一個視頻鏡頭(206)中的每個幀進行分析;確定視頻鏡頭的每個幀的顯著性;基于視頻鏡頭(206)的每個幀的顯著性確定視頻鏡頭(206)的關鍵幀(210);從關鍵幀(210)中提取視覺特征;以及基于視覺特征對多個視頻鏡頭(206)執行鏡頭聚類以確定概念模式。所述方法進一步包括使用顯著性調諧方法來融合不同的概念模式,以及基于全局優化方法生成視頻的概要。
文檔編號H04N9/73GK103210651SQ201180054662
公開日2013年7月17日 申請日期2011年11月15日 優先權日2010年11月15日
發明者高濟舟, 黃浴, 虹·希瑟·郁 申請人:華為技術有限公司