一種基于視頻數(shù)據(jù)的底層視聽覺特征的視頻記憶性判定方法
【專利摘要】本發(fā)明涉及一種基于底層視聽覺特征的視頻記憶性判別方法,提取視頻的Object?bank特征,saliency特征,color特征,motion特征,audio特征,將這5種特征結(jié)合表示一個視頻,然后訓(xùn)練支持向量回歸機(jī),得到視頻記憶判定模型,當(dāng)給定一個新的視頻,判別得到該視頻數(shù)據(jù)的記憶值。本發(fā)明可以用于判定視頻的記憶性,能應(yīng)用于廣告業(yè),新聞編輯等行業(yè),可以讓從業(yè)者挑選出合適的視頻,具有廣泛的商業(yè)價(jià)值。
【專利說明】一種基于視頻數(shù)據(jù)的底層視聽覺特征的視頻記憶性判定方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)圖像處理領(lǐng)域,涉及一種計(jì)算機(jī)視頻數(shù)據(jù)圖像的處理,特別涉及一種基于視頻數(shù)據(jù)的底層視聽覺特征的視頻記憶性判定方法,可以應(yīng)用于判定不同種類視頻的記憶性數(shù)值。
【背景技術(shù)】
[0002]圖像/視頻數(shù)據(jù)的記憶性問題是目前數(shù)字圖像/視頻處理領(lǐng)域新的研究方向,研究成果很少,且集中于圖像的記憶性領(lǐng)域,尚未有視頻記憶性的研究工作公布。
[0003]對于圖像的記憶性研究,方法并不是很多,目前存在的一些方法是首先提取圖像的全局特征(如SIFT,GIST,HOG等),通過構(gòu)建分類器并訓(xùn)練模型,然后判別一幅給定的圖像的記憶性。圖像的記憶性有很多的應(yīng)用。如編輯可以選擇容易被人們記住的圖像作為雜志的封面,廣告設(shè)計(jì)者可以選擇易被記住的圖像作為宣傳海報(bào)等等。因此,當(dāng)給定一幅圖像,如果能用計(jì)算機(jī)自動判定出它能否被人們記住將會很有意義。
[0004]而對于視頻的記憶性問題,目前尚未有已公布的判別方法。視頻的記憶性有很廣泛的應(yīng)用,例如可以用于對視頻廣告的評價(jià)。當(dāng)人們看過一段廣告視頻后,過一段時間后,仍能記住這段廣告視頻,則說明這段廣告視頻的價(jià)值是很高的,否則若過一段時間后,人們沒有記住這段廣告視頻,則說明這段廣告視頻的價(jià)值是比較低的。因此對視頻的記憶性研究有很強(qiáng)的現(xiàn)實(shí)意義。
【發(fā)明內(nèi)容】
[0005]要解決的技術(shù)問題
[0006]為了解決視頻的記憶性判別問題,本發(fā)明提出一種基于視頻數(shù)據(jù)的底層視聽覺特征的視頻記憶性判別方法。
[0007]技術(shù)方案
[0008]一種基于底層視聽覺特征的視頻記憶性判別方法,其特征提取步驟如下:
[0009]步驟I提取視頻數(shù)據(jù)庫中視頻數(shù)據(jù)的視聽覺特征:
[0010]步驟a:視頻數(shù)據(jù)庫中共包含N e [100, 1000]個視頻數(shù)據(jù),提取每個視頻數(shù)據(jù)每一秒的第一幀作為視頻數(shù)據(jù)的關(guān)鍵幀;
[0011]步驟b、計(jì)算視頻數(shù)據(jù)的object bank特征:利用L1-Jia Li在2010年發(fā)布的object bank程序包,采用下采樣技術(shù)得到每一關(guān)鍵幀輸入圖像的12個尺度圖像,并將這12個尺度圖像與object bank程序中的208個物體模板進(jìn)行卷積計(jì)算,得到每一關(guān)鍵巾貞的208X12幅響應(yīng)圖像;
[0012]利用二插值方法,將每一關(guān)鍵幀對應(yīng)于每個模板的12個尺度的響應(yīng)圖像插值,得到相同尺寸的響應(yīng)圖像;
[0013]計(jì)算每一個像素點(diǎn)在12個相同尺度的響應(yīng)圖像上的最大值,構(gòu)成一個最大響應(yīng)圖像;然后求最大響應(yīng)圖像的像素平均值,得到每一關(guān)鍵幀的一個208維的特征向量;
[0014]將每一視頻數(shù)據(jù)的所有關(guān)鍵幀的208維的特征在每個維度上分別求最大值,得到每一視頻數(shù)據(jù)的208維的特征向量;
[0015]再求每一個視頻數(shù)據(jù)的208維特征向量的均值和方差,得到2維的特征向量;
[0016]然后找到每一視頻數(shù)據(jù)的208維的特征向量中最大分量的值max,計(jì)算208維特征向量中分量的值大于1.5*max的分量的個數(shù)占總維度208的比率作為object banksimplicity 特征;
[0017]將得到的208維特征以及均值、方差和object bank simplicity特征連起來,得到一個視頻數(shù)據(jù)的211維的object bank特征;
[0018]步驟C、計(jì)算視頻數(shù)據(jù)的saliency特征:
[0019]首先提取視頻數(shù)據(jù)庫中每一個視頻的每一個關(guān)鍵幀的saliency圖像,將每一個關(guān)鍵幀的saliency圖像二值化得到二值圖像;計(jì)算每一個二值圖像的不連通區(qū)域的個數(shù)以及其相應(yīng)的面積,然后
[0020](I)計(jì)算圖像的saliency熵特征,記為SE,計(jì)算模型為:
【權(quán)利要求】
1.一種基于視頻數(shù)據(jù)的底層視聽覺特征的視頻記憶性判定方法,其特征在于步驟如下: 步驟I提取視頻數(shù)據(jù)庫中視頻數(shù)據(jù)的視聽覺特征: 步驟a:視頻數(shù)據(jù)庫中共包含N e [100, 1000]個視頻數(shù)據(jù),提取每個視頻數(shù)據(jù)每一秒的第一幀作為視頻數(shù)據(jù)的關(guān)鍵幀; 步驟b、計(jì)算視頻數(shù)據(jù)的object bank特征:利用L1-Jia Li在2010年發(fā)布的objectbank程序包,采用下采樣技術(shù)得到每一關(guān)鍵幀輸入圖像的12個尺度圖像,并將這12個尺度圖像與object bank程序中的208個物體模板進(jìn)行卷積計(jì)算,得到每一關(guān)鍵幀的208 X 12幅響應(yīng)圖像; 利用二插值方法,將每一關(guān)鍵幀對應(yīng)于每個模板的12個尺度的響應(yīng)圖像插值,得到相同尺寸的響應(yīng)圖像; 計(jì)算每一個像素點(diǎn)在12個相同尺度的響應(yīng)圖像上的最大值,構(gòu)成一個最大響應(yīng)圖像;然后求最大響應(yīng)圖像的像素平均值,得到每一關(guān)鍵幀的一個208維的特征向量; 將每一視頻數(shù)據(jù)的所有關(guān)鍵幀的208維的特征在每個維度上分別求最大值,得到每一視頻數(shù)據(jù)的208維的特征向量; 再求每一個視頻數(shù)據(jù)的208維特征向量的均值和方差,得到2維的特征向量;然后找到每一視頻數(shù)據(jù)的208維的特征向量中最大分量的值max,計(jì)算208維特征向量中分量的值大于1.5*max的分量的個數(shù)占總維度208的比率作為object bank simplicity特征; 將得到的208維特征以及均值、方差和object bank simplicity特征連起來,得到一個視頻數(shù)據(jù)的211維的object bank特征; 步驟C、計(jì)算視頻數(shù)據(jù)的saliency特征: 首先提取視頻數(shù)據(jù)庫中每一個視頻的每一個關(guān)鍵幀的saliency圖像,將每一個關(guān)鍵幀的saliency圖像二值化得到二值圖像;計(jì)算每一個二值圖像的不連通區(qū)域的個數(shù)以及其相應(yīng)的面積,然后 (O計(jì)算圖像的saliency熵特征,記為SE,計(jì)算模型為:
2.根據(jù)權(quán)利要求1所述基于視頻數(shù)據(jù)的底層視聽覺特征的視頻記憶性判定方法,其特征在于:所述步驟2采用的 具有記憶性數(shù)值的視頻數(shù)據(jù)庫采用專利申請?zhí)枮椤?01310332613.0,名稱為一種基于功能磁共振成像 視頻記憶性判別方法所得到的視頻數(shù)據(jù)庫。
【文檔編號】G06F17/30GK103500184SQ201310418333
【公開日】2014年1月8日 申請日期:2013年9月13日 優(yōu)先權(quán)日:2013年9月13日
【發(fā)明者】韓軍偉, 劉念, 郭雷 申請人:西北工業(yè)大學(xué)