專利名稱:一種基于譜分割理論的鏡頭聚類方法
技術領域:
本發明屬于視頻內容分析與檢索領域,具體涉及一種對鏡頭進行聚類的方法。
技術背景視頻鏡頭是指語義上不間斷的一段視頻內容,是視頻信息檢索的基本結構和語義單元, 對這些代表視頻語義的單元進行聚類是視頻語義分析的基礎。當前的聚類算法可以大致分 為有監督和無監督兩種。有監督聚類通過給定的樣本集對分類器進行訓練,分類準確,但 需要人工標注樣本集。無監督聚類算法具有自學習功能,無需訓練樣本,但面臨著最優化 分類個數很難確定,分類結果對初始劃分較敏感等難題。近年來,關于鏡頭聚類方法的研究有很多。目前在視頻鏡頭聚類算法中常用的估計最 優化分類個數的方法有以下幾種(1)基于探索模式的評判準則,該方法基于一種合適的 信息準則評判標準,遍歷所有可能出現的分類個數情況,得到最優化的分類個數;(2)基 于融合的估計方法,首先選取一個遠大于最優分類個數的分類數進行聚類,聚類的結果根 據信息熵最小損失原則相互融合以得到最優的分類個數;(3)基于k-means的迭代聚類, 對每個聚類的結果迭代執行k-means算法,采用合適的信息準則判斷是否終止,當所有迭 代終止時得到最優的分類個數。第一種方法是最簡單的,得到的結果也是最客觀的,但是這種方法計算復雜度較高, 且在沒有先驗知識的情況下的搜索范圍必須足夠大。第二種方法分類過程每次融合后需重 新計算融合的信息熵損失,收斂速度慢,計算復雜度高,并且無法對初始分類糾錯。第三 種方法以X-means為代表,具有收斂速度快,計算復雜度小等優點,但k-means算法只考 慮了類間關系,可能會出現將一個類割裂的錯誤,并且沒有針對這種錯誤的糾錯功能。 發明內容本發明要解決的技術問題克服現有技術的不足,提供一種基于譜分割理論的鏡頭聚類 方法,該方法可以在低復雜度情況下聚類算法中難以估計最優化的分類個數,利甩精確二 分類的譜分割,提高了聚類結果的査全率和査準率;提出的全局融合操作,具有對分類錯 誤的糾錯功能,避免了局部最優解問題。本發明的目的是這樣實現的 一種基于譜分割理論的鏡頭聚類方法,包括以下步驟(1) 對每個待分類的鏡頭提取其特征向量;(2) 根據提取的特征向量,計算每兩類間的相似度;(3) 將鏡頭集構造為一有權的無向圖,根據每兩鏡頭類之間的相似度,使用譜分割將 每個鏡頭類二分為兩個鏡頭類;(4) 用貝葉斯信息準則判定此分割是否有效;有效分割的鏡頭子類迭代分割操作,無 效分割的鏡頭類為終止節點;(5) 對譜分割最終輸出的結果,使用貝葉斯信息準則判斷兩分類是否連通,根據連通 性進行融合,最終得到最優聚類數和聚類結果。所述步驟(1)中的特征向量的提取采用HSV顏色直方圖,并計算整個鏡頭所有幀的平 均顏色直方圖作為該鏡頭的特征向量。所述步驟(2)中計算每兩鏡頭類之間的相似度計算公式為e" = e 2tr2其中^表示兩類鏡頭/、 /之間的相似度,/f,,7^分別為鏡頭&,^顏色直方圖,o"為常數。所述步驟(3)中的方法為譜分割的結果{^4, 5}滿足下式在全局范圍內取得最小值<formula>formula see original document page 5</formula>其中<formula>formula see original document page 5</formula>將鏡頭集S表示為一有權的無向圖G = (F,£), ^點代表鏡頭S,, ^表示鏡頭!'、 J'之間的相似度。所述步驟(3)中的譜分割過程通過計算特征向量來獲得的實現步驟如下首先計算 ATxiV對稱矩陣£ ,各元素為^ , 表示鏡頭/ 、 _/之間的相似度,根據£得到對角矩陣£>(£),《=2]^,構建矩陣"五),= 1/21/2,選擇丄(五)中最大特征向量,根據特征向量每維的符號位確定分割的結果。所述步驟(4)的BIC信息準則采用高斯球狀模型,能夠最優化擬合給定的樣本數據集; BIC計算可選模型后驗概率,并以此為作為衡量模型適合性的標準,比以計算兩種模型分布 之間的距離作為衡量標準的一般信息準則判斷更加有效。所述步驟(5)中使用貝葉斯信息準則對產生的分類進行融合,即對任意兩類進行BIC 模型判定其是否屬于兩類,如果屬于一類更佳,則定義這兩類是連通的,最后對所有連通 的分類進行融合,得到最后的最佳聚類數和聚類的結果。本發明現有技術相比的優點在于 (1)現有的聚類方法多采用的類別距離作為分類的標準,效果依賴于提供的經驗參數, 很難提供一種通用、普遍的解決方法,但鏡頭聚類是一種不確定類別個數的聚類,在聚類 前很難準確的估計出類別個數及各類別中心。本發明將譜圖理論及貝葉斯信息準則用于鏡 頭聚類,對每個待分類的鏡頭提取其特征向量,根據提取出的特征向量,計算每兩類間的 相似度,然后將鏡頭集構造為一有權的無向圖,根據每兩鏡頭類之間的相似度,將使用譜 分割每個鏡頭類二分為兩個鏡頭類,再用貝葉斯信息準則判定此分割是否有效,有效分割 的鏡頭子類迭代分割操作,無效分割的鏡頭類為終止節點。本發明利用精確二分類的譜分 割,同時采用基于后驗概率的貝葉斯信息準則作為分類停止的準則更加準確,提高了聚類 結果的查全率和查準率。(2)本發明與傳統的鏡頭聚類方法相比,本發明在分割操作結束時,對譜分割最終輸 出的結果,使用貝葉斯信息準則判斷兩分類是否連通,根據連通性進行融合,最終得到最 優聚類數和聚類結果,解決了在低復雜度情況下聚類算法中難以估計最優化的分類個數的 難題;提出的全局融合操作,具有對分類錯誤的糾錯功能,避免了局部最優解問題。
圖1為本發明基于譜分割理論聚類的流程示意圖。
具體實施方式
如圖1所示,本發明具體包括以下步驟 1.鏡頭類特征向量提取提取全部鏡頭的特征向量,計算特征向量的平均值作為鏡頭類的特征向量。本發明中 采用HSV顏色直方圖來描述圖像的特征,即計算其全部幀的平均顏色直方圖作為該鏡頭的 顏色特征。顏色特征是最能體現圖像視覺特征的一種底層物理特征,顏色特征與圖像中所包含的 物體或場景具有較高的相關性,并且同其他視覺特征相比,顏色特征對圖像本身的尺寸、 方向、視角的依賴性較小,具有較高的魯棒性。顏色直方圖是在圖像檢索系統中被廣泛釆 用的顏色特征,它描述了不同色彩在整幅圖像中的概率分布。雖然無法描述圖像中的對象 和物體的空間位置,但仍為一種高效的描述方法。HSV (Hue Saturation Value)顏色空間最符合人們對顏色相似性的主觀判斷,本文采 用HSV顏色直方圖來描述圖像的特征。對于每個鏡頭,計算其全部幀的平均顏色直方圖作 為該鏡頭的顏色特征。在本發明中,采用12(7/)x4(S)x4(r)共192級HSV顏色直方圖。定義//,,/^.分別為鏡 頭顏色直方圖,則我們定義圖G中的邊 .如下e" 二 e 2ct2其中0"為鏡頭& .之間時間間隔f的函數,由于本實驗中測試的視頻其鏡頭間的關系與時間沒有關系,ct取常數0.15。2. 使用譜分割二分鏡頭類將鏡頭集5表示為一有權的無向圖^ = (7,£),"點代表鏡頭^, e^表示鏡頭f、 _/之間 的相似度。譜分割的結果(j, ^}滿足下式在全局范圍內取得最小值。其中<formula>formula see original document page 7</formula> 譜分割算法簡單描述如下:首先計算iVxW對稱矩陣五,各元素為^,根據£得到對角 矩陣Z)(五),《=Z,,〕.,構建矩陣"£), = 1/2五(D(五))"'2。選擇丄(五)中最大特征向量,根據特征向量每維的符號位確定分割的結果。譜分割算法定義的分類標準綜合類間、類內距離進行評價,使得分割的結果更加準確。 算法將求最小值問題轉換為求矩陣最大特征向量,并可采取相應近似計算的方法,減少了 復雜度。3. 計算貝c(;t-i)的值設待聚類的視頻鏡頭為集合s,用于臨時存放鏡頭類的隊列,記作2,用于記錄最后分類結果的隊列,記作i 2。應用譜分割將集合s劃分為兩個鏡頭類s,^ (假設最佳分類將s,,&插入隊列g尾部,取隊列2首鏡頭類s,,假設鏡頭類中的樣本圍繞類中心呈高斯球狀分布(Spherical Gaussians)。則對于在鏡頭類5,中的樣本集義=":/ = 1,...,及}的M 維的高斯分布如下<formula>formula see original document page 7</formula>計算S/C(A-1)的值5/C(A: = 1) = log, g; a e S) — M log i 其中A,《分別是樣本數據集義在M維高斯分布中均值和方差的極大似然估計。M代 表該模型中參數的個數。丄是樣本數據集X的極大似然函數,= ]!/( ) 。 R為鏡頭類S,中的樣本個數。4. 計算5/C(A:-2)的值再次應用譜分割將其劃分為兩類,記作S/",S,(2)。則相應Z(X尸,X尸)的高斯分布如下: 計算5/C(A:-2)的值5/C(" 2) = log[丄(A(", C〉2),《(2))] - 2奶og i 此時模型的參數個數為2M。5. 判斷分類是否有效如果S/C^-2)〉5/C^"),則認為該類被分為兩類更佳,分類有效,將《(1),5/2)插入 隊列g 。如果S/C(A = 2) S丑/C(/t = 1),即認為該類不需要再分,分類無效,將S,.插入隊列i 0 。6. 聚類結果融合調整繼續步驟5。設在隊列i g中的鏡頭類為S'-(S'pS'2,…,SV),對于任意的 /,_/■(,,風…,yt,"力,計算S',US')的5/C("2)和S/C(A:-1),如果萬輝=2)>3輝-1), 則定義S',.,S:為連通,否則為不連通。將所有連通集融合,輸出最優分類數和分類結果。
權利要求
1、一種基于譜分割理論的鏡頭聚類方法,其特征在于包括以下步驟(1)對每個待分類的鏡頭提取其特征向量;(2)根據提取的特征向量,計算每兩類間的相似度;(3)將鏡頭集構造為一有權的無向圖,根據每兩鏡頭類之間的相似度,使用譜分割將每個鏡頭類二分為兩個鏡頭類;(4)用貝葉斯信息準則判定此分割是否有效;有效分割的鏡頭子類迭代分割操作,無效分割的鏡頭類為終止節點;(5)對譜分割最終輸出的結果,使用貝葉斯信息準則判斷兩分類是否連通,根據連通性進行融合,最終得到最優聚類數和聚類結果。
2、 根據權利要求1所述的基于譜分割理論的鏡頭聚類方法,其特征在于所述步驟(1) 中的特征向量的提取采用HSV顏色直方圖,并計算整個鏡頭所有幀的平均顏色直方圖作為該鏡頭的特征向量。
3、 根據權利要求1所述的基于譜分割理論的鏡頭聚類方法,其特征在于所述步驟(2)中計算每兩鏡頭類之間的相似度計算公式為H問-其中 表示兩類鏡頭/、 /之間的相似度,/f,.,/^.分別為鏡頭s,.,^顏色直方圖,^為常數。
4、 根據權利要求1所述的基于譜分割理論的鏡頭聚類方法,其特征在于所述步驟(3) 中的方法為譜分割的結果{^,萬l滿足下式在全局范圍內取得最小值iVc 5) =-、 +-其中c" (j,5)= S %,^yoc04)= J] .,將鏡頭集S表示為一有權的無向圖G = (F,£), v,.點代表鏡頭s,, e々.表示鏡頭/、 j'之間的相似度。
5、 根據權利要求1所述的基于譜分割理論的鏡頭聚類方法,其特征在于所述步驟(3) 中的譜分割過程通過計算特征向量來獲得的實現步驟如下首先計算WxW對稱矩陣五,各元素為^., ^表示鏡頭/、 j之間的相似度,根據五得到對角矩陣D(五),《-;^a,構建矩陣<formula>formula see original document page 3</formula>,選擇"五)中最大特征向量,根據特征向量每維的符號位確定分割的結果。
6、 根據權利要求1所述的基于譜分割理論的鏡頭聚類方法,其特征在于所述步驟(4) 的BIC信息準則采用高斯球狀模型,能夠最優化擬合給定的樣本數據集;BIC計算可選模型 后驗概率,并以此為作為衡量模型適合性的標準,比以計算兩種模型分布之間的距離作為 衡量標準的一般信息準則判斷更加有效。
7、 根據權利要求1所述的基于譜分割理論的鏡頭聚類方法,其特征在于所述步驟(5) 中使用貝葉斯信息準則對產生的分類進行融合,即對任意兩類進行BIC模型判定其是否屬 于兩類,如果屬于一類更佳,則定義這兩類是連通的,最后對所有連通的分類進行融合, 得到最后的最佳聚類數和聚類的結果。
全文摘要
一種基于譜分割理論的鏡頭聚類方法,將譜圖理論用于鏡頭聚類,對每個待分類的鏡頭提取其特征向量,根據提取出的特征向量,計算每兩類間的相似度,然后將鏡頭集構造為一有權的無向圖,根據每兩鏡頭類之間的相似度,將使用譜分割每個鏡頭類二分為兩個鏡頭類,再用貝葉斯信息準則判定此分割是否有效,有效分割的鏡頭子類迭代分割操作,無效分割的鏡頭類為終止節點,最后直到分割停止后對分類結果進行融合,得到最優鏡頭分類數和分類的結果。本發明解決了聚類算法中難以估計最優化的分類個數的難題,利用精確二分類的譜分割,提高了聚類結果的查全率和查準率;提出的全局融合操作,具有對分類錯誤的糾錯功能,有效避免了局部最優解問題。
文檔編號G06K9/00GK101216886SQ20081005609
公開日2008年7月9日 申請日期2008年1月11日 優先權日2008年1月11日
發明者歡 李, 超 李, 璋 熊, 玲 薛, 林 鐘 申請人:北京航空航天大學