專利名稱:基于層次化結構的視頻素材庫管理方法
技術領域:
本發明涉及一種基于層次化結構的視頻素材庫管理方法,這種方法可以層次化的 管理視頻素材,支持視頻的層次化結構索引以及注釋索引。在視頻素材數量大,來源豐富的 情況下,能夠有效的支持視頻素材檢索,支持視頻素材的高效查詢、編輯、標注等功能。
背景技術:
隨著數字視頻數據量的海量增長,視頻素材在越來越多的應用中發揮作用。視頻 素材具有真實感強,素材來源豐富的特點,已經成為虛擬場景構建的重要資源。視頻素材的 數量不斷增長,增加了我們從中找到真正需要的素材的難度。與文字內容相比,視頻數據具 有非結構化、海量以及蘊涵語義豐富等特點,如何高效地對它們進行組織、表達、存儲、管理 和檢索,是對傳統信息檢索和數據庫技術提出的挑戰。為了有效的管理視頻素材資源,比如 視頻中提取的相關場景以及對象,我們需要一個有效的視頻素材管理方法。基于層次化結 構的視頻素材庫管理方法主要從層次化數據模型、視頻結構化索引這兩個方面進行分析。數據模型是數據庫系統的核心及基礎,數據庫系統的性能與數據模型直接相關。 數據庫模型的不斷發展及完善的過程,也就是數據庫系統發展的歷史。傳統的文本數據庫 系統,由于其數據類型及關系比較簡單,所以其數據模型也較為簡單。在視頻數據庫領域, 目前還沒有完善的可普遍使用的數據模型。在建立視頻模型時,雖然可能借助其他方面的 研究成果,但是表示視頻數據的統一理論以及方法都還沒有形成。目前研究者各自從不同 的方向對視頻數據模型進行探討,所建立的視頻數據模型一般也只能反映或者強調視頻數 據的某一類特性,其應用也側重于某一領域。因為受目前圖像理解、計算機視覺、人工智能 等學科發展水平的限制,視頻數據自動地分段以及抽取視頻的高級語義特征還存在不少困 難,因此目前應以建立有限自動化并且應用于某些特定領域的模型為目標。作為最普遍且最有效的一種交流媒介,視頻中包含了其它類型媒體,內容豐富,因 而在如何有效使用和管理上也最有挑戰性。視頻數據本身并不支持用戶交互,很大程度上 視頻使用是一個單向體驗過程,瀏覽者只是一個被動角色。雖然視頻內部存在豐富的未開 發內容和知識,這種未結構化的數據已經證明很難系統管理。有效的視頻管理需要像圖書 館系統那樣以某種自動方式提取視頻中蘊涵的那些未開發的內容和知識,提供一個類似卡 片索引目錄的工具來完成視頻歸檔并借此尋找所需內容。即視頻必須伴隨一個結構化內容 索引,通過創建視頻內容的豐富索引,釋放視頻庫中豐富的知識資源,把視頻轉換成基于索 引對內容進行精細顆粒度存取和控制的容易管理的有用信息。
發明內容
本發明涉及一種基于層次化結構的視頻素材庫管理方法,這種方法通過定義場景 實體、情節實體、特別是對象實體,有效的表示結構化后的視頻的層次結構。層次化數據模 型為高效的視頻數據庫的索引以及檢索提供了一個基礎,使得用戶可以快速地定位視頻對 象素材,用以進行視頻融合,虛擬場景構建等工作。此外,數據模型也支持視頻的層次化語義注釋,以便用戶在不同的視頻結構層進行語義的瀏覽或者搜索。基于層次化結構的視頻素材庫管理方法,包括如下具體步驟1)建立層次化數據模型;層次化數據模型能夠反映視頻數據的層次化結構,而且 反映視頻數據結構之間聯系以及主要特征,是支持視頻素材結構化以及高效的視頻索引及 檢索的基礎;2)視頻結構化;視頻結構化就是對視頻流中的連續幀序列進行切分,按其內容展 開的不同,把一個連續視頻流分成若干語義段落單元,主要包括下面三個步驟;2. 1)視頻 結構化首先要通過基于鏡頭邊緣檢測的方法,視頻數據流被切分成很多個情節;2. 2)視頻 結構化其次要提取情節的特征,代表幀以及對象;2. 3)視頻結構化最后要根據情節語義的 不同,聚類成不同場景;3)視頻索引和檢索,包括基于視頻結構的結構索引以及注釋索引;其中,視頻結 構的結構索引指對于已經結構化的視頻,我們可以建立一個索引結構,來有效的組織和管 理視頻資源,方便用戶的檢索和訪問;注釋索引指基于一個視頻序列至少可以從三個方面 進行注釋視頻拍攝地點、視頻中發生的事件、以及視頻中的對象,我們分別對這三個實體 進行視頻注釋索引;4)基于層次化數據模型、視頻結構化以及視頻的索引和檢索,設計視頻數據庫中 的各種表,實現索引的建立。和傳統的視頻素材管理方法相比,基于層次化結構的視頻素材庫管理方法有如下 特點1.方法基于層次化的視頻數據關系模型。該模型有效的表示了結構化的視頻素材 以及一個與層次化的視頻結構相對應的注釋結構。2.在層次化視頻數據模型的基礎上,建立了樹狀索引結構,該結構索引支持自頂 向下訪問、自底向上訪問以及同一層次的對象間相互訪問。此外,建立了注釋索引,能夠在 不同的層次上加強語義解釋的快速訪問。3.在我們的層次化視頻素材管理方法中,視頻對象作為重要的一層進行管理。有 效支持視頻對象的插入及編輯。
下面結合附圖和實例對本發明作進一步說明。圖1是本發明所使用方法中的數據模型。圖2是本方法中視頻結構化的流程圖。圖3是基于視頻結構化的視頻索引與檢索的結構4是基于結構索引樹的示例圖。圖5是基于層次化視頻素材庫管理方法的數據庫設計圖。
具體實施例方式
參照附圖,本發明的基于層次化結構的視頻素材庫管理方法,按以下步驟進行
1.建立圖1所示的層次化視頻數據關系模型。本模型中引入了三大基本視頻 數據對象視頻文檔(Video Document),對應著服務器上的視頻數據;幀序列(Frame
5Sequence),是視頻流中由一系列幀構成的區間,幀序列的大小可以從一個獨立幀到全部視 頻文檔;注釋(Annotation),可為每一幀序列分配有關內容的文字描述,以支持基于內容 的檢索。幀序列可以細化為場景(Scene),情節(Story)以及素材對象(Object)這三類, 且子類之間呈現層次關系。視頻文檔從視頻素材中抽取某些描述其內容的注釋,注釋可劃 分為三類有關對象的注釋,有關事件的注釋以及有關地點的注釋。此外,注釋可以細分 為由描述這些語義內容的詞匯組成,分別為對象相關詞匯(Object-Term),事件相關詞匯 (Event-Term)以及地點相關詞匯(Location-Term)。2.如圖2流程圖所示,對視頻進行結構化。視頻結構化就是對視頻流中的連續幀 序列進行切分,按其內容展開的不同,把一個連續視頻流分成若干語義段落單元。在流程圖 中可以看到,幀序列細分為三種實體場景、情節、以及對象。3.視頻結構化首先要進行鏡頭邊緣檢測。鏡頭之間有多種類型的過渡方式,最常 見的是“突變”,表現為相鄰兩幀間發生的突變性的鏡頭轉換。此外,還存在一些較復雜的過 渡方式,如淡入、淡出等。視頻切分的技術有很多種,我們利用相鄰鏡頭間的一組幀之間的 差異性,采用固定幀數的窗口在連續的視頻上“滑動”,從而判別鏡頭的分割點。我們采用加 以改進的可以判別漸變的鏡頭變換的切分方法。通過鏡頭切分后的視頻就形成了情節。4.對象采用Video SnapCut算法,采用多核加速以及Cuda加速進行對象快速提 取。采用情節的第一幀作為情節的關鍵幀。5.視頻結構分析的過程,就是將語義相關的情節組合、聚類的過程。這里,我們將 具有相同語義的情節進行聚類成同一種類別的場景的過程定義為“場景分類”。6.視頻的索引和檢索主要有五種方法包括基于元數據的方法、基于文本的方 法、基于音頻的方法、基于內容的方法以及綜合的方法。本方法主要綜合基于元數據的方 法、基于文本的方法和基于內容的方法三者的綜合,也就是屬于綜合的方法。我們的綜合 索引和檢索方法是基于視頻結構化的,我們主要研究基于視頻結構的結構索引以及注釋索 引,如圖3所示。7.結構索引常表示為樹結構,索引樹中的中間節點是它們子節點的抽象。一個索 引樹既可以自底向上通過抽象來構造,也可以自頂向下通過分類來構造。系統中,我們采用 的索引結構結合了自頂向下訪問、自底向上訪問以及同層之間訪問這三種方法,如圖4所 示。索引樹中有三種類型的指針第N層指向第N-1層的指針、第N層指向從第0層到第 N-1層的指針、第三層的節點指向其兄弟節點之間指針。8.注釋一個視頻序列至少可以從三個方面進行視頻拍攝地點、視頻中發生的事 件、以及視頻中的對象。這三個方面正好可以與我們的數據模型對應起來,即數據模型中的 場景、情節以及對象。因此,視頻注釋可以分別對應著這三個實體,并且這三種層次上的注 釋是相關的,是有語義聯系的,可以最終組合成視頻的注釋,比較完整地描述視頻。9.基于本章提出的層次化視頻數據關系模型以及視頻的索引、檢索以及結構化 技術,我們的數據庫設計如圖5所示。圖中,表VIDE0(視頻表)、表SCENE(場景表)、表 STORY(情節表)以及表OBJECT(對象表)是數據模型中的幀序列對象。為了避免過強的 耦合性,我們分別用四張表對這些對象進行存儲。類似的,表L0CATI0NTERMS (地點注釋詞 匯)、表EVENTTERMS(事件注釋詞匯)以及表0BJECTTERMS (對象注釋詞匯)對應著數據 模型中的注釋詞匯,分別用三張表進行存儲。同樣場景類型也有一個表(SCENEGENRE表)單獨存儲,目的是當場景類型更新時,不用對SCENE表中的每一列進行更新。其中,可以看 到場景的表中有一個表項項GID,作為表示場景類型的外鍵對應著場景類型表SCENEGENRE 的主鍵GID。此外,通過表與表之間的連線可以看出各個表之間的索引關系,滿足我們前 面提出的樹的結構。例如,在STORY表通過OBJECTINCLUDED與所有包含在此情節中的對 象聯系,表示了從上往下的索引結構;在OBJECT表通過VIDEOREFID,ST0RYREFID,以及 SCENEREFID分別與表VIDEO,STORY,以及SCENE表關聯,表示了一種從下往上的索引結構; 通過OBJECTRELATEDID與同一場景中的對象進行關聯,表示了同層之間的索引結構。
應該理解到的是上述實施例只是對本發明的說明,而不是對本發明的限制,任何 不超出本發明實質精神范圍內的發明創造,均落入本發明的保護范圍之內。
權利要求
基于層次化結構的視頻素材庫管理方法,其特征在于包括如下具體步驟1)建立層次化數據模型;2)視頻結構化對視頻流中的連續幀序列進行切分,按其內容展開的不同,把一個連續視頻流分成若干語義段落單元,主要包括下面三個步驟2.1)通過基于鏡頭邊緣檢測的方法,視頻數據流被切分成很多個情節;2.2)提取情節的特征,代表幀以及對象;2.3)根據情節語義的不同,聚類成不同場景;3)視頻索引和檢索,包括基于視頻結構的結構索引以及注釋索引;其中,視頻結構的結構索引指對于已經結構化的視頻,建立一個索引結構,來有效的組織和管理視頻資源,方便用戶的檢索和訪問;注釋索引指基于一個視頻序列至少可以從三個方面進行注釋視頻拍攝地點、視頻中發生的事件、以及視頻中的對象,分別對這三個實體進行視頻注釋索引。4)基于層次化數據模型、視頻結構化以及視頻的索引和檢索,設計視頻數據庫中的各種表,實現索引的建立。
2.如權利要求1所述的基于層次化結構的視頻素材庫管理方法,其特征在于在步驟1) 中,基本視頻數據對象包括1.1)視頻文檔(Video Document),對應著服務器上的視頻數 據;1.2)幀序列(Frame Sequence),是視頻流中由一系列幀構成的區間,幀序列的大小從 一個獨立幀到全部視頻文檔;1.3)注釋(Annotation),為每一幀序列分配有關內容的文字 描述,以支持基于內容的檢索。
3.如權利要求1所述的基于層次化結構的視頻素材庫管理方法,其特征在于在步驟 2. 1)中,利用相鄰鏡頭間的一組幀之間的差異性,采用固定幀數的窗口在連續的視頻上滑 動,從而判別鏡頭的分割點。
4.如權利要求1所述的基于層次化結構的視頻素材庫管理方法,其特征在于在步驟 2.2)中,對象采用Video SnapCut算法,采用多核加速以及Cuda加速進行對象快速提取,并 采用情節的第一幀作為情節的關鍵幀。
5.如權利要求1所述的基于層次化結構的視頻素材庫管理方法,其特征在于在步驟 2. 3)中,將具有相同語義的情節進行聚類成同一種類別,將語義相關的情節組合、聚類成不 同的場景。
6.如權利要求1所述的基于層次化結構的視頻素材庫管理方法,其特征在于在步驟3) 中,視頻索引和檢索的方法包括基于元數據的方法、基于文本的方法、基于音頻的方法、基 于內容的方法以及綜合的方法。
7.如權利要求1所述的基于層次化結構的視頻素材庫管理方法,其特征在于在步驟3) 中,結構索引表示為樹結構,索引樹中的中間節點是它們子節點的抽象;一個索引樹自底向 上通過抽象來構造,或者自頂向下通過分類來構造;索引樹中有三種類型的指針第N層指 向第N-1層的指針、第N層指向從第0層到第N-1層的指針、第三層的節點指向其兄弟節點 之間指針。
8.如權利要求1所述的基于層次化結構的視頻素材庫管理方法,其特征在于在步驟3) 中,注釋一個視頻序列至少從三個方面進行視頻拍攝地點、視頻中發生的事件、以及視頻 中的對象,這三個方面與數據模型中的場景、情節以及對象分別對應。
9.如權利要求1所述的基于層次化結構的視頻素材庫管理方法,其特征在于在步驟4)中,采用表VIDEO、表SCENE、表STORY以及表OBJECT對數據模型中的幀序列對象進行存儲, 采用表L0CATI0NTERMS、表EVENTTERMS以及表0BJECTTERMS對數據模型中的注釋詞匯進行 存儲,采用一個表SCENEGENRE對場景類型進行單獨存儲,其中,表SCENEGENRE中有一個表 項項GID,作為表示場景類型的外鍵對應著場景類型表SCENEGENRE的主鍵GID ;通過表與表 之間的連線表示各個表之間的索引關系。
全文摘要
本發明公開了一種基于層次化結構的視頻素材庫管理方法,包括如下具體步驟1)建立層次化數據模型;2)頻結構化;3)視頻索引和檢索;4)基于層次化數據模型、視頻結構化以及視頻的索引和檢索,設計視頻數據庫中的各種表,實現索引的建立。這種方法可以層次化的管理視頻素材,支持視頻的層次化結構索引以及注釋索引。在視頻素材數量大,來源豐富的情況下,能夠有效的支持視頻素材檢索,支持視頻素材的高效查詢、編輯、標注等功能。
文檔編號G06F17/30GK101799827SQ20101012208
公開日2010年8月11日 申請日期2010年3月11日 優先權日2010年3月11日
發明者王慧昱, 童若峰 申請人:浙江大學