專利名稱::基于判別光流張量和hmm的視頻語義單元檢測方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及圖像與視頻處理
技術(shù)領(lǐng)域:
,特別涉及視頻運動特征提取和視頻語義分析。具體地講是一種基于判別光流張量和隱馬爾可夫模型HMM的視頻語義單元檢測方法,可用于視頻的內(nèi)容分析和語義提取。技術(shù)背景近年來,隨著多媒體通信,多媒體壓縮、存儲以及計算機網(wǎng)絡(luò)枝術(shù)的飛速發(fā)展,各種多媒體信息尤其是視頻信息在科研、教育、工業(yè)生產(chǎn)和人們的日常生活中得到了廣泛的應(yīng)用,并起到了越來越重要的作用。與傳統(tǒng)的文本信息相比,視頻信息的數(shù)據(jù)量巨大,因此為了使人們能準(zhǔn)確、快速地獲取所需信息,基于內(nèi)容的視頻信息檢索技術(shù)一經(jīng)提出,便成為了研究的熱點問題;但由于視頻內(nèi)容的豐富和復(fù)雜性,使其很難用簡單的文字方式進(jìn)行表達(dá),因此有效地對視頻信息進(jìn)行組織和檢索,就必須采用有針對性的、符合視頻結(jié)構(gòu)特性并與人類主觀感知相一致的方式來分析和表達(dá)視頻內(nèi)容。視頻語義單元檢測是視頻內(nèi)容分析的主要方法,其目的是通過對視頻固有特征的分析,如顏色、紋理、形狀、運動特征等,提取高層語義信息,以符合人的主觀認(rèn)知與需求。因此該研究方向也是人們研究的熱點與難點所在。視頻語義單元檢測方法按不同的語義粒度可分為1、鏡頭的分類鏡頭是組成視頻的最基本的物理單元以及語義單位,由于其連續(xù)性的物理特性,鏡頭往往構(gòu)成特定的語義,或是某個更高層語義單位的組成部分,因此鏡頭的分類是視頻語義分析的一項重要內(nèi)容。2、事件的檢測視頻事件是一種高級的語義概念,它往往表達(dá)了一個完整的語義信息,是人類從視頻中獲取語義信息的基本單元。由于事件的檢測通常是針對人們所感興趣的視頻片斷的分析與提取,因此其具有相當(dāng)重要的研究價值,并被廣泛應(yīng)用于體育及新聞視頻的語義分析中。由于視頻是一種上下文相關(guān)的時序型多媒體形式,較適合采用時間動態(tài)模型對其進(jìn)行語義分析。而HMM作為一種有限狀態(tài)的統(tǒng)計模型,最成功的應(yīng)用就是對時間序列進(jìn)行建模,例如對語音信號的處理與識別。因此,HMM被逐漸引入視頻內(nèi)容分析領(lǐng)域,用于對語義單元進(jìn)行建模與分析,并進(jìn)一步用于分類與識別。近年來,HMM在視頻語義分析領(lǐng)域,尤其是針對體育視頻,獲得了廣泛的應(yīng)用,并取得了一定的研究成果。例如,將HMM用于檢測足球比賽中的射門、角球、任意球等事件。但是它們都缺乏統(tǒng)一的框架,并且獲得的語義較單一。微軟亞洲研究院的XuG和ZhangHJ等人在正EE上發(fā)表的一篇文章"XuGMaYF,ZhangHJ,YangSQ.AnHMM-basedframeworkforvideosemanticanalysis[J].IEEETransonCircuitsandSystemsforVideoTechnology,2005,15(11):1422-1433"中提出將HMM用于基于運動特征提取的視頻語義分析方法,為視頻內(nèi)容理解提供了一個較滿意的解決方案。但是由于其特征選擇單一,因此無法充分利用時間以及空間信息,從而影響了事件分析與識別的效果。因此需要對視頻特征的提取方法進(jìn)行改進(jìn),以便更好地利用視頻中的時空信息進(jìn)行進(jìn)一步的視頻語義分析。視頻語義單元建模中的一個最基本與首要的問題是提取合適的特征作為模型的輸入,這種特征應(yīng)當(dāng)能很好地表征語義,從而建立起底層特征與高層語義間的橋梁。常用的視頻特征可分為1、顏色、紋理、形狀等反映視頻靜態(tài)視覺特性的底層特征;2、視頻的運動特征,由于運動特性是視頻區(qū)別于其它多媒體信息的最顯著的特征,它是鏡頭、事件等語義概念存在的基礎(chǔ),如何很好地利用視頻的運動特征表征語義信息,是視頻語義分析的關(guān)鍵技術(shù),它將有效地加強利用HMM等模型進(jìn)行語義分析的效果。光流場分析一直被認(rèn)為是對視頻進(jìn)行運動分析的有效手段,關(guān)于如何準(zhǔn)確、有效地計算光流的方法也得到了廣泛的研究。已有的光流場計算方法可大致分為以下四種1、基于差分的方法;2、基于相位的方法;3、基于區(qū)域的方法;4、基于能量的方法。其中以第一種方法的計算效果最好,且計算代價最小,同時也易于實現(xiàn)。其代表算法是Lucas-Kanade算法,并由此改進(jìn)為HierarchicalLucas-Kanade方法。在光流場的計算中,視頻幀中每個位置的像素都被賦予了一個光流矢量。因此光流場不僅提供了光流矢量的方向、幅度信息,同時還包含了光流矢量的空間分布信息。而傳統(tǒng)的方法是將光流場直接映射成一階向量作為特征,這樣就破壞了光流場固有的結(jié)構(gòu)信息,從而影響整體的分析結(jié)果。張量分析作為一種特征子空間分析方法,能夠在較少的訓(xùn)練樣本前提下,較好地保持原有特征空間的結(jié)構(gòu),已被廣泛應(yīng)用于圖像、視頻序列的特征分析。另一方面,雖然光流場所提供的運動信息豐富,即光流矢量數(shù)與視頻幀尺寸成正比,但同時也極易引起維數(shù)災(zāi)難,即特征空間維數(shù)遠(yuǎn)大于訓(xùn)練樣本數(shù),因此,有效地對特征空間降維成為亟待解決的問題。目前較流行的降維方法有主成份分析和線性判別分析等,如上所述,這類方法針對的是一階向量特征,因此,有必要利用張量分析方法對視頻特征進(jìn)行預(yù)處理,盡可能多的保留視頻的結(jié)構(gòu)特征。
發(fā)明內(nèi)容本發(fā)明的目的在于為了克服現(xiàn)有技術(shù)存在的問題,提出一種基于判別光流張量和隱馬爾可夫模型的視頻語義單元檢測方法,以充分挖掘視頻的時空信息,克服特征空間維數(shù)過高的問題,較好地保持結(jié)構(gòu)與類別信息,并獲得較豐富的語義信息。實現(xiàn)本發(fā)明目的的技術(shù)方案是結(jié)合光流場計算和張量分析方法進(jìn)行視頻運動特征提取,提供一種充分利用視頻的時空信息的特征表達(dá)法,在此基礎(chǔ)上采用基于HMM的方法對視頻語義單位,如鏡頭、事件等建模,從而實現(xiàn)視頻的語義內(nèi)容分析。該方法的具體實現(xiàn)過程如下(1)、首先根據(jù)訓(xùn)練數(shù)據(jù),采用HierarchicalLucas-Kanade方法計算視頻序列的光流場,一段視頻序列中的所有光流場構(gòu)成該段視頻的光流場序列;(2)、將得到的光流場序列等分成MxiV個子序列,采用長度為W的滑動窗口以采樣頻率K計算各個子序列的光流直方圖,該直方圖的方向數(shù)為Z)。將每個滑動窗口內(nèi)的MxW組光流直方圖構(gòu)成三階光流張量ZE/^w",得到與每個視頻序列對應(yīng)的光流張量序列;(3)、利用統(tǒng)一張量判別分析技術(shù),即GTDA,對光流張量進(jìn)行判別分析,獲得核張<formula>formulaseeoriginaldocumentpage5</formula>(1)其中f/,為光流張量的第/階投影矩陣。然后通過線性判別分析方法得到所需的特征向量<formula>formulaseeoriginaldocumentpage5</formula>(2)其中y由Y向量化所得,f^為投影矩陣,m為平均向量;(4)、對視頻語義單元進(jìn)行定義與建模,采用HMM建模方法,得到語義模型集HMMs;(5)、將待分析視頻數(shù)據(jù)按(1)~(3)步驟所列方法進(jìn)行視頻運動特征提取,并利用得到的語義模型集HMMs,進(jìn)行語義單元的分類與識別。與現(xiàn)有的技術(shù)相比,本發(fā)明具有以下優(yōu)點1、本發(fā)明提出的基于光流場的視頻運動特征表達(dá)法較充分地利用了視頻的時間和空間信息。2、本發(fā)明克服了特征空間維數(shù)過高的問題,采用張量判別分析方法,在特征降維的同時較好地保持結(jié)構(gòu)與類別信息。3、本發(fā)明利用HMM對特定視頻類型中的語義單元建模,結(jié)合已提出的視頻特征提取方案,進(jìn)行視頻語義分析,獲得了較豐富的語義信息。圖1是本發(fā)明的實現(xiàn)流程框2是本發(fā)明的光流計算框3是本發(fā)明的光流張量構(gòu)成圖具體實施方式參照圖l,它是本發(fā)明的實現(xiàn)流程框圖,并結(jié)合圖2和圖3來說明本發(fā)明的實現(xiàn)步驟(1)、首先根據(jù)訓(xùn)練視頻數(shù)據(jù),計算光流場采用HierarchicalLucas-Kanade方法計算視頻序列的光流場,其實現(xiàn)過程具體如圖2所示。首先構(gòu)建視頻幀金字塔,在本試驗中的金字塔層數(shù)設(shè)為3。然后采用時空濾波器對每幅視頻幀進(jìn)行平滑處理,之后利用5階濾波器計算亮度導(dǎo)數(shù)!,!和最后通過求解&如下方程獲得視頻幀速度矢量(V^,Vy)<formula>formulaseeoriginaldocumentpage6</formula>(3)其中H^,y)表示權(quán)值向量。視頻幀中所有象素點的速度矢量構(gòu)成該幀的光流場,而一段視頻序列中的所有光流場構(gòu)成該段視頻的光流場序列。(2)、構(gòu)建光流張量如圖3所示,采用一個長度為W的滑動窗口,以采樣頻率K對計算出的光流場序列進(jìn)行采樣,將每個窗口內(nèi)的W幀光流場等分為A/xiV組光流場子序列,計算每組光流場的直方圖,綜合MxW組光流直方圖構(gòu)成三階光流張量Zei^w"。其中m、AT分別為視頻幀的長、寬分塊數(shù),Z)為直方圖的方向數(shù)。(3)、進(jìn)行張量判別分析,得到特征向量利用統(tǒng)一張量判別分析技術(shù)GTDA對光流張量進(jìn)行判別分析。GTDA定義為<formula>formulaseeoriginaldocumentpage6</formula>(4)其中<formula>formulaseeoriginaldocumentpage7</formula>產(chǎn)生的第/階投影矩陣。另外,X,j(lsjs",,ldsc),M,.(lw、c)和M都是屬于i^w^的3階張量。通過下式計算核張量<formula>formulaseeoriginaldocumentpage7</formula>將該核張量映射成向量)^,利用線性判別分析方法LDA計算其投影矩陣t/T和平均向量w,最后通過下式得到特征向量《廣^(兄,廣附)(8)(4)、進(jìn)行視頻語義單元的定義與建模,獲得語義模型集HMMs以籃球視頻為例,我們定義了以下7類鏡頭(A)場上對攻;(B)特寫;(C)向左跟蹤;(D)向右跟蹤;(E)左半場罰球;(F)右半場罰球;(G)掃換。其中,場上對攻鏡頭又包括8類事件①左半場進(jìn)攻;②右半場進(jìn)攻;③快攻至左半場;④快攻至右半場;⑤左半場上籃;⑥右半場上籃;⑦左半場投籃;⑧右半場投籃。統(tǒng)一用4狀態(tài)左右結(jié)構(gòu)的連續(xù)高斯混合型HMM對上述鏡頭和事件建模,分別表示為lsvs6和^,lsvs8。每個狀態(tài)下的高斯混合項數(shù)為3。模型輸出概率密度函數(shù)為柳=|琴,,,、),"/"(9)其中N表示均值為々,方差為2的高斯概率密度函數(shù);。,表示每個高斯混合項的權(quán)重系數(shù);^(0()則表示觀察值Q的輸出概率。最后通過Baum-Welch算法對上述模型進(jìn)行訓(xùn)練,獲得語義模型集HMMs(5)、語義單元的分類與識別對于一段待分析的視頻片斷,首先利用本發(fā)明提出的特征分析方法計算特征向量序列,然后采用Viterbi算法計算其與每個模型的匹配度,選取輸出概率值最大的模型作為最后的識別結(jié)果,如下式所示maxP(0|;isv),鏡頭分類max尸(OlX),事件檢測本發(fā)明的優(yōu)點可通過以下實驗進(jìn)一步說明實驗采用NBA籃球比賽視頻作為試驗數(shù)據(jù),總長度超過4小時,共1800多個鏡頭。從中分別提取20個標(biāo)準(zhǔn)視頻片段作為每個語義單元的訓(xùn)練樣本。實驗采用交叉驗證法對鏡頭分類與事件檢測結(jié)果進(jìn)行評估,試驗結(jié)果如卞表所示(1)、鏡頭分類交叉驗證結(jié)果,其試驗結(jié)果分別列于表l,表2和表3。表l鏡頭分類4次交叉驗證結(jié)果<table>tableseeoriginaldocumentpage8</column></row><table>表2鏡頭分類5次交叉驗證結(jié)果<table>tableseeoriginaldocumentpage8</column></row><table>表3鏡頭分類10次交叉驗證結(jié)果<table>tableseeoriginaldocumentpage9</column></row><table>表l、表2和表3分別列出了利用4次,5次和10次交叉驗證法對鏡頭分類結(jié)果進(jìn)行的評價,其中BF分別表示上文中所列的6類鏡頭。實驗結(jié)果達(dá)到了99.4%的平均識別率,表明了利用本發(fā)明提出的方法進(jìn)行鏡頭分類有很好的識別效果。(2)、事件識別交叉驗證結(jié)果,分別列于表4,表5和表6。表4事件識別4次交叉驗證結(jié)果<table>tableseeoriginaldocumentpage9</column></row><table>表5事件識別5次交叉驗證結(jié)果<table>tableseeoriginaldocumentpage10</column></row><table>表6事件識別10次交叉驗證結(jié)果<table>tableseeoriginaldocumentpage10</column></row><table>表4、表5和表6分別列出了利用4次,5次和10次交叉驗證法對事件檢測結(jié)果進(jìn)行的評價,其中A(1)A(8)分別表示上文中所列的8類事件。實驗結(jié)果達(dá)到了98%以上的平均識別率,表明了利用本發(fā)明提出的方法進(jìn)行事件檢測有很好的識別效果,并提供更豐富的語義信息。權(quán)利要求1、一種基于判別光流張量和隱馬爾可夫模型的視頻語義單元檢測方法,其具體實現(xiàn)步驟如下(1)、首先根據(jù)訓(xùn)練數(shù)據(jù),采用HierachicalLucas-Kanade方法計算視頻序列的光流場,一段視頻序列中的所有光流場構(gòu)成該段視頻的光流場序列;(2)、將得到的光流場序列等分成M×N個子序列,采用長度為W的滑動窗口以采樣頻率K計算各個子序列的光流直方圖,該直方圖的方向數(shù)為D。將每個滑動窗口內(nèi)的M×N組光流直方圖構(gòu)成三階光流張量X∈RM×N×D,得到與每個視頻序列對應(yīng)的光流張量序列;(3)、利用統(tǒng)一張量判別分析技術(shù),即GTDA,對光流張量進(jìn)行判別分析,獲得核張量全文摘要本發(fā)明公開了一種基于判別光流張量和隱馬爾可夫模型的視頻語義單元檢測方法,它涉及圖像與視頻處理
技術(shù)領(lǐng)域:
,其目的在于采用該方法以充分挖掘視頻的時空信息,較好地保持結(jié)構(gòu)與類別信息,并獲得較豐富的語義信息。該方法的實現(xiàn)過程是首先根據(jù)訓(xùn)練數(shù)據(jù),采用HierarchicalLucas-Kanade方法計算視頻序列的光流場,得到光流場序列;然后根據(jù)光流場序列構(gòu)建光流張量,得到光流張量序列;接著進(jìn)行張量判別分析,獲得特征向量;同時對視頻語義單元進(jìn)行定義與建模,采用HMM建模方法,得到語義模型集HMMs;將待分析視頻數(shù)據(jù)按本發(fā)明提出的特征分析方法進(jìn)行視頻運動特征提取,并利用得到的語義模型集HMMs,進(jìn)行語義單元的分類與識別。本發(fā)明可用于視頻的內(nèi)容分析和語義提取。文檔編號H04N5/14GK101222578SQ20071018853公開日2008年7月16日申請日期2007年12月7日優(yōu)先權(quán)日2007年12月7日發(fā)明者珺馮,潔李,楊益敏,牛振興,田春娜,亞蘇,文路,成鄧,高新波申請人:西安電子科技大學(xué)