專利名稱:一種基于信息熵的時空顯著性視覺注意方法
技術領域:
本發明屬于計算機視覺領域,具體涉及一種基于信息熵的時空顯著性視覺注意方 法。
背景技術:
視覺注意方法主要是解決圖像中的數據篩選問題。在計算機圖像中,任務所關心 的內容通常僅僅是圖像中很小的一部分,所以,有必要將不同的處理優先級賦予不同的圖 像區域,這樣可以降低處理過程的復雜度,還能夠減少不必要的計算浪費。在人類視覺信息 處理中,總是迅速選擇少數幾個顯著的對象進行優先處理,而忽略或舍棄其他的非顯著的 對象,這樣使我們能夠有選擇地分配計算資源,從而極大地提高視覺信息處理的效率,該過 程被稱為視覺注意。人類視覺系統通過選擇性視覺注意機制可以輕易地找到自然場景中感興趣的區 域和目標。視覺注意機制為計算機視覺提供了類似加速處理的想象空間。選擇性注意也允 許人類視覺系統以更高復雜度水平更加有效地處理輸入的視覺場景。在一個短的視頻中, 運動是基于這樣的一個事實,那就是在靜態場景中人們的注意力更易于被移動的刺激所吸 引。視覺注意中清晰地包括了運動,而快速檢測運動的物體是人與環境自適應交互的關鍵 技術。所以,人類視覺系統不但包括靜態的場景,而且包括動態的場景。人類視覺選擇性注意過程就如同經過了視網膜的處理過程,視網膜通過不同的感 興趣細胞得到兩個輸出magnocellular輸出和parvocellular輸出。magnocellular輸出 具有快速響應功能,該輸出能夠通過低空間頻率來模擬,parvocellular輸出提供了細節信 息,該輸出能夠通過提取圖像的高空間頻率來模擬,此輸出增強了幀的對比度并能吸引靜 態幀上的視覺注意。本發明正是從視網膜的兩個輸出得到啟發,從每一幀中提取了兩個信 號對應于視網膜的兩個主要的輸出,將輸入的短視頻分解成低頻率的帶寬來模擬動態的輸 出和分解成高頻率的帶寬來模擬靜態的輸出,得到動態顯著性圖和靜態顯著性圖,這兩個 圖融合生成最終顯著性圖。時空顯著性模型主要包括動態模型和靜態模型,大部分視覺注意計算的模型是靜 態的并且是基于特征融合理論的,使用最廣的是Itti等人(L. Itti,C.Koch and E. Niebur, "A model of saliency-based visual attention for rapidscene analysis,,,IEEE Transactions on Pattern Analysis and Machinelntelligence,20(11), pp. 1254-1259, 1998.)提出的靜態視覺注意模型,該模型使用了初級的視覺特征如亮度,方位和顏色。近些年來有很多文獻將動態的顯著性引進到視覺注意機制當中,Ban等人提出了 一個典型的動態選擇注意模型(S. Ban,I.Lee and M. Lee,"Dynamic visual selective attention model, "Neurocomputing, vol. 71,pp. 853—856,2008.)。具體過程描述如下首 先,對于視頻圖像中每一幀計算出一個靜態顯著性圖;其次,對于每一個靜態顯著性圖中的 每一個點,計算最優的尺度;再次,根據這些最優的尺度和靜態顯著性圖計算出熵值圖,這 樣,對每一幀圖得就得到了一個靜態的熵值圖;最后,由這些靜態的熵值圖序列得到一個新的熵值圖,該熵值圖就是動態顯著性圖。Ban等人提出的模型在理論上非常有優越性,但是當運動的目標不在顯著性區域 內部時,該模型很難檢測到運動的區域。
發明內容
本發明的目的在于提出一種基于信息熵的時空顯著性視覺注意方法,該方法具有 良好的尺度不變性,能獲得良好的視覺效果。本發明提供了一種基于信息熵的時空顯著性視覺注意方法,具體步驟為第1步提取短視頻中的動態顯著性圖和靜態顯著性圖;其中,動態顯著性圖的提 取過程為(A. 1)對于輸入的短視頻,取連續n幀圖像序列,將每一幀圖像轉換成更低水平的 灰度級圖像;(A.2)將步驟(A. 1)得到的每一幀圖像縮小到4個不同的尺度,將相同尺度下的 n幀縮小的圖像組合成1個動態的響應圖,再將尺度較大的3個動態響應圖縮小到與其中 最小尺度響應圖相同的尺度,然后利用這4個相同尺度的縮小的圖像聯合生成動態顯著性 圖;第2步將靜態顯著性圖和動態顯著性圖聯合生成最終顯著性圖;第3步勝者全贏對于最終顯著性圖中的每一點V,根據熵的最大化方法獲得了一個最優的尺寸 再計算該點在一個局部區域內的均值,這個局部區域是以該點為圓心,以為半徑的
圓形區域,所有的均值構成了一個圖,該圖中最大值的點即為最顯著的點,最顯著的點和該 點對應的最優尺寸構成了最顯著的區域。第4步返回抑制將最終顯著性圖中最顯著的區域的像素值都置為零,得到了一個新的最終顯著性 圖;第5步注意選擇重復第3步至第5步,直至預先設定的次數,完成后得到的最顯著性的點和該點所 在區域的尺寸,作為注意焦點。本發明提出一種基于信息熵的時空顯著性視覺注意方法,包括動態顯著性和靜態 顯著性二方面,在計算動態顯著性時,現有的方法是先計算每一幀的靜態顯著性圖,再根據 所有幀的靜態顯著性圖來計算動態顯著性;此方法存在兩個缺點其一是計算每一幀的靜 態顯著圖時,耗費了大量的時間,其二是當動態的目標不在靜態顯著性區域內部時,此方法 檢測不到動態顯著性部分;本發明直接計算所有幀之間的動態顯著性,僅僅計算當前幀的 靜態顯著性圖,這樣很好地解決了以上兩個問題,節約了計算時間,并能更好地檢測出動態 顯著性部分;另外本發明還運用了多尺度的方法計算了動態顯著性,這樣就能更好地計算 出視頻中不同大小物體的動態顯著性,獲得良好的視覺效果。
圖1是本發明流程圖2 (a)輸入的彩色幀;(b)灰度幀;(c) 8個灰度級水平幀;(d) 4個灰度級水平 幀;圖3是LBP算子;圖4(a)原始的LBP算子;(b)延伸的LBP算子;圖5(a)和(b)是第一幀的靜態顯著性圖和掃描路徑;(c)和(d)是最后一幀的靜 態顯著性圖和掃描路徑;圖6(a)和(b)是Ban的根據靜態顯著性圖得到的動態顯著性圖及其掃描路徑;
(c)和(d)是Ban的最終顯著性圖及其掃描路徑;圖7(a)和(b)是本發明根據連續幀得到的動態顯著性圖及其掃描路徑;(c)和
(d)是本發明的最終顯著性圖及其掃描路徑。
具體實施例方式下面結合附圖和實例對本發明作進一步詳細的說明。如圖1所示,本發明方法包括以下步驟(1)提取短視頻中的動態顯著性圖和靜態顯著性圖;(A)提取短視頻中的動態顯著性圖(A. 1)對于輸入的短視頻V,取連續n幀圖像序列力,V2,……Vn,一般情況下,當
時能達到較好的實驗效果,為了加快計算的速度和降低計算的復雜性,將每一幀 圖像轉換成更低水平的灰度級圖像,本發明中,我們選擇短視頻中輸入的幀數作為灰度級 水平的個數。如果輸入的是彩色圖像,則首先轉變成灰度圖像,再將每一幀由256個灰度級 轉變成n個灰度級(n< 256)。設所有幀中最大的像素值是Max,對于第k幀Vk (1彡k彡n) 中坐標點(x,y),將該點對應的像素值Vk(x,y)除以Max得到f (x,y,k),這樣f (x,y,k)的 取值范圍在W,l]的區間內,如方程(1)所示;再將W,l]區間平均分為n等分,然后給落 入不同等分中的f (x,y,k)賦予不同的整數值g(x,y,k),這些整數的取值范圍是
, 如方程(2)所示。圖2顯示了 一個將彩色幀(a)轉變成一個灰度幀(b),再轉變成8個灰度 級水平幀(c)和4個灰度級水平幀(d)的一個例子。f (x,y, k) = Vk (x,y) /Max(1) ‘ 1 (A. 2)為了更有效地檢測出運動的區域,我們將每一幀圖縮小到4個不同的尺度, 以第!^貞八為例^被縮小到丸^⑶八二和丸^個不同的尺度,分別是原圖尺寸的的丨/^, 1/4,1/8和1/16,這樣此圖像序列變成了 4個圖像序列,V2,s,K,Vn,s(s表示尺度的序號, 1 ^ s ^ 4),分別記為 Vu,V2a, K,Vna, \’2, V2,2,K,\’2,V2,3, K,Vn,3 和力,4,V2,4,K,Vn,4。 SRs(x,y)是第s個圖像序列在坐標點(x,y)處的一個局部區域,這個局部區域是以(x, y)為圓心,以Vn,4的長度和寬度值中最小值的一半為半徑的圓形區域。對于第s個圖像序列中的坐標點(x,y),該序列中在(x,y)處的局部區域內的所有的g(x,y,k)構成了一個直 方圖,該點的熵值是通過此直方圖的概率塊函數得到的,如方程(3)所示。熵值越大,該點 的顯著性就越強,所有的熵值構成了一個在當前尺度下的動態的響應圖Md,s(x,y)
(3)其中(x' , y' ) G Rs(x, y) (4)pg(x, ,y, ,k)是由直方圖產生的概率塊函數,此直方圖是由第s個圖像序列在局部區 域艮0^,7)中的所有像素值得到的。再將尺度較大的3個響應圖都縮小到與其中最小尺度響應圖相同的尺度,然后聯 合生成動態顯著性圖Md(x,y)Md(x,y) = fjMds(x,y)⑶
5=1(B)提取當前幀的靜態顯著性圖靜態顯著性圖包括顏色對比度,亮度對比度和方位,采用Itti等人提出的模型就 可以完成。作為本發明的一種改進,靜態顯著性圖也可以考慮紋理信息,這種靜態顯著性模 型是Itti等人提出的模型的一種延伸。下面具體說明如下(B. 1)顯著性特征的提取四種低水平的視覺特征顏色對比度,亮度對比度,方位和紋理被提取和融合成了 靜態顯著性圖。令r,g和b分別是輸入圖像的三個顏色通道,即為紅綠藍三原色,我們創 建4個更廣范圍的顏色通道,令R = r-(g+b)/2表示紅色,G = g-(r+b)/2表示綠色,B = b- (r+g) /2表示藍色,Y = (r+g) /2_ | r-g | /2_b表示黃色,(如果是負值則令其為零),則RG =R"G|是紅綠對比度,BY = |B-Y|是藍黃對比度。所以顏色特征被分解成紅綠對比度和 藍黃對比度2個特征類型。我們將亮度特征分為成亮度開啟(由亮到暗)和亮度閉合(由暗到亮)2種類型, 這是由于人類視覺系統的視覺感知場中的活性細胞有2種類型,中央開啟的細胞增強中心 亮的部分抑制周圍亮的部分,中央閉合的細胞抑制中心亮的部分增強周邊亮的部分,如果 當前幀是彩色圖像,則首先轉變成灰度圖像,再將圖像中每個點的像素值減去該點周圍四 鄰域像素值的均值作為該點的響應值(如果是負值則令其為零),這樣得到了亮度開啟的 特征類型圖,同樣將圖像中每個點周圍四鄰域像素值的均值減去該點的像素值作為該點的 響應值(如果是負值則令其為零),這樣得到了亮度閉合的特征類型圖。用Gabor濾波器檢測出4個方位特征類型0°,45°,90°和135°,Gabor濾波器 的數學表達式為h(u, v) = q(u' , v' ) cos (2 兀 ωru‘ ) (6)其中 f表示Gabor濾波器的中心頻率,它決定了濾波器帶通區域中心在頻率上的位 置,通過選取不同的0^可以得到不同的尺度。和ov分別是Gabor濾波器沿著橫坐標 和縱坐標的高斯包絡的空間常量,ou、分別與Gabor濾波器的頻率帶寬Bf和方位帶寬 Be并有以下關系 一般情況下取《f = 0. 12,Bf = 1. 25,B0 = Ji /6, 是高斯坐標軸與橫坐標軸的 夾角,當小分別取0°,45°,90°和135°時,得到4個不同的Gabor濾波器。在提取方位 特征類型時,如果當前幀是彩色圖像,先轉變成灰度圖像,再用這4個Gabor濾波器分別濾 波,得到了 4個方位的特征類型圖。對于紋理特征,我們考慮了局部二值模式LBP (Local Binary Pattern), LBP是用 來描述圖像的局部空間結構特征并且已被廣泛用來解釋人類感知的紋理特征,Ojala等人 (T. 0jala,M. PietikAainen, and D. Harwood,"Acomparative study of texture measures with classification based on featureddistributions,"Pattern Recognition,29(1) 51-59,1996.)首先介紹了這種算子并顯示了其強大的紋理分類的能力。同樣如果當前幀是 彩色圖像,先轉變成灰度圖像,在圖像中給定的位置(x。,y。),LBP被定義為一個中心像素和 周邊八鄰域像素比較得到的二值次序的集合(如圖3所示),結果的十進制可以被下述式子 表示出來LBP{xc,yc) = jyiin-icyr(n)
n=0其中i。是中心位置(x。,yc)的像素值,in是周邊八鄰域的像素值,函數s (x)被定 義成^(x) = ^、丄巧本發明使用了 2個LBP算子,一個是原始的LBP算子,另一個是環半徑的延伸的 LBP算子,該算子可以保持尺寸和旋轉不變性,當它的像素點不在像素中心時,是通過插值 得到的,兩個LBP算子如圖4所示。所以,本發明一共使用了 10個特征類型。(B. 2)計算當前幀的靜態顯著性圖對于當前幀的每一個特征類型圖,將其分解成9個高斯金字塔圖(從尺度0到尺 度8),這樣對于每一個特征類型F,有9個特征圖F(i) (i e {0,1,K,8}),F(0)的尺寸等于當 前幀的尺寸,F(l)的尺寸是F(0)尺寸的一半,F(2)的尺寸是F(l)尺寸的一半,……F(8) 的尺寸是F(7)尺寸的一半,取c G {2,3,4}, 6 G {3,4},a = c+S,令F(c, a) = |F(c) F(a)(13)其中 表示高斯金字塔的逐點差,這樣每一個特征類型都有6個特征圖,10個特 征類型一共產生了 60個特征圖。我們使用Itti等人的特征圖歸一化算子N(.)來增強顯著峰較少的特征圖,而削弱存在大量顯著峰的特征圖。對每一特征圖,該算子的操作包括1)歸一化該特征圖至一 固定范圍
內,以消除依賴于特征的幅度差別,其中M是該特征圖中的最大像素值; 2)計算除全局最大值外所有局部極大的均值歷;3)用(M-&)2乘該特征圖。所有小于最大 值20%的值都置為零。僅考慮局部極大值可使N(.)對特征圖中有意義的區域進行比較,而忽略均勻區 域。全局最大值與所有局部極大均值之差反映了最感興趣區域與平均感興趣區域間的差 別。若該差值較大,最感興趣區域就會突出出來,若該差值較小,表明特征圖中不含任何具 有獨特性質的區域。N(.)的生物學依據在于它近似地表達了皮層的側抑制機制,即近鄰相 似特征通過特定的聯結相互抑制。特征圖被組合成4個特征顯著性描述,即灰度特征顯著 性描述於、顏色特征顯著性描述0、方位特征顯著性描述辦和紋理特征顯著性描述f,這些描
述可以統一表示成
(14)其中④表示逐點求和。得到4個特征圖
0,這4個
特征顯著性描述被進一步地歸一化,并相加得到靜態顯著性圖Ms(x,y),如式(15)所示
(15)(2)獲取短視頻中的最終顯著性圖動態顯著性圖和靜態顯著性圖如上所述,最終顯著性圖是他們的權重和,這兩個 圖都競爭顯著性,動態顯著性圖強調時間的顯著性,靜態顯著性圖強調空間的顯著性,為 了使他們可比較,用另外一個標準化算子Norm(.)將動態和靜態顯著性圖標準化到
區間內,具體是將動態顯著性圖中的每一點的像素值除以動態顯著性圖中的最大像素值, 將靜態顯著性圖中的每一點的像素值除以靜態顯著性圖中的最大像素值。當融合他們的 時候,定義權值為t G {0,K,l},表示動態顯著性圖對于最終顯著性圖的權重,一般情況下 0. 4彡t彡0. 6能達到較好的效果,最終顯著性圖M(x,y)可表示為M(x, y) = tXNorm(Md(x, y)) + (l-t) XNorm(Ms(x, y)) (16)由以上的計算過程可知,此時最終顯著性圖M(x,y)的尺寸是原輸入視頻幀義的 尺寸的1/16,為了與原視頻幀的尺寸保持一致,將M(x,y)的尺寸放大到與義相同的尺寸。(3)勝者全贏(Wirmer-take-all)對于最終顯著性圖中的每一點V,根據熵的最 大化方法獲得一個最優的尺寸Vp如方程(17)所示,此方程表示了該點位置處的空間顯著 性。
(17)其中D是最終顯著性圖中以圓心為V半徑為r的圓形局部區域所有像素值的集 合,HD(r,V)是根據方程(18)得到的熵值,WD(r,V)是由方程(19)得到的尺度間的尺度。
(8)
(19)
9
其中p“, v是通過在以上局部區域內標準化像素的直方圖得到的概率塊函數,描 述值d是集合D中的一個元素。這樣對于最終顯著性圖中的每一點V,獲得了一個最優的尺寸1^,再計算該點在 一個局部區域內的均值,這個局部區域是以該點為圓心,以為半徑的圓形區域,所有的 均值構成了一個圖,該圖中最大值的點即為最顯著的點,最顯著的點和該點對應的最優尺 寸構成了最顯著的區域。(4)返回抑制(Inhibition-of-return)根據勝者全贏的方法得到了一個最顯著 的區域,在視線注意到這一區域之后,為了實現注意轉移,使之注意到下一個區域,就要消 除當前最終顯著性圖中的最顯著的區域,本發明是將最終顯著性圖中最顯著的區域的像素 值都置為零。這樣就得到了一個新的最終顯著性圖。(5)注意選擇重復步驟(3)至(5),直至預先設定的次數X,當4彡X彡10時能 達到良好的實驗效果,完成后得到的最顯著性的點和該點所在區域的尺寸,作為注意焦點。圖5給出了一個短視頻中第一幀和最后一幀的靜態顯著性圖及其掃描路徑。圖 6(a)和(b)給出了根據Ban等人提出的方法得到的動態顯著性圖及其掃描路徑,圖6(c)和 (d)給出了根據Ban等人提出的方法得到的最終顯著性圖及其掃描路徑。圖7(a)和(b)給 出了根據本發明的方法得到的動態顯著性圖及其掃描路徑,圖7(c)和(d)給出了根據本發 明的方法得到的最終顯著性圖及其掃描路徑。實驗中,我們取t = 0. 5表示動態顯著性圖 和靜態顯著性圖同等重要。圖7(d)用不同尺度的框表示了該區域顯著性的尺寸,而其他的 圖沒有包含尺度信息,其中的方框僅僅表示顯著性區域的位置。本發明不僅局限于上述具體實施方式
,本領域一般技術人員根據本發明公開的內 容,可以采用其它多種具體實施方式
實施本發明,因此,凡是采用本發明的設計結構和思 路,做一些簡單的變化或更改的設計,都落入本發明保護的范圍。
權利要求
一種基于信息熵的時空顯著性視覺注意方法,其步驟包括第1步 提取短視頻中的動態顯著性圖和靜態顯著性圖;其中,動態顯著性圖的提取過程為(A.1)對于輸入的短視頻,取連續n幀圖像序列,將每一幀圖像轉換成更低水平的灰度級圖像;(A.2)將步驟(A.1)得到的每一幀圖像縮小到4個不同的尺度,將相同尺度下的n幀縮小的圖像組合成1個動態的響應圖,再將尺度較大的3個動態響應圖縮小到與其中最小尺度響應圖相同的尺度,然后利用這4個相同尺度的縮小的圖像聯合生成動態顯著性圖;第2步 將靜態顯著性圖和動態顯著性圖聯合生成最終顯著性圖;第3步 勝者全贏對于最終顯著性圖中的每一點ψ,根據熵的最大化方法獲得了一個最優的尺寸ψr,再計算該點在一個局部區域內的均值,這個局部區域是以該點為圓心,以ψr為半徑的圓形區域,所有的均值構成了一個圖,該圖中最大值的點即為最顯著的點,最顯著的點和該點對應的最優尺寸構成了最顯著的區域。第4步 返回抑制將最終顯著性圖中最顯著的區域的像素值都置為零,得到了一個新的最終顯著性圖;第5步 注意選擇重復第3步至第5步,直至預先設定的次數,完成后得到的最顯著性的點和該點所在區域的尺寸,作為注意焦點。
2.根據權利要求1所述的基于信息熵的時空顯著性視覺注意方法,其特征在于步驟 (Α. 1)中,按照下述過程將每一幀圖像轉換成更低水平的灰度級圖像將每一幀由256個灰度級轉變成η個灰度級;設所有幀中最大的像素值是Max,對于第 k幀Vk中坐標點(X,y),1彡k彡n,將該點對應的像素值Vk (x, y)除以Max得到f (x, y,k), f(x, 1,k)的取值范圍在W,l]的區間內;再將W,l]區間平均分為η等分,然后給落入不 同等分中的f(x,y,k)賦予不同的整數值g(x,y,k),這些整數的取值范圍是
,以 g(x,y,k)作為第k幀Vk中坐標點(x,y)的像素值。
3.根據權利要求2所述的基于信息熵的時空顯著性視覺注意方法,其特征在于步驟 (A. 2)具體包括下述過程(A. 2. 1)將每一幀圖縮小到4個不同的尺度,以第k幀Vk為例,Vk被縮小到Vk,Vk,2, Vk,3和Vk,44個不同的尺度,分別是原圖尺寸的1/2,1/4,1/8和1/16,所述的連續η幀圖像序 列變成為4個圖像序列V1>s,V2js, K,Vn,s, s表示尺度的序號,1 < s < 4,這4個圖像序列分 別記為 Via,V2a, K,Vna, Nu2, V2,2,K,\’2,Vu3, V2,3, K,Vn,3 和 Vu, V2,4,K,Vn,4 ;設 Rs (x, y)是 第s個圖像序列在坐標點(X,y)處的一個局部區域,這個局部區域是以(X,y)為圓心,以 Vn,4的長度和寬度值中最小值的一半為半徑的圓形區域;(A. 2. 2)對于第s個圖像序列中的坐標點(x,y),該序列中在(x,y)處的局部區域內的 所有的g(x,y,k)構成了一個直方圖,該點的熵值是通過此直方圖的概率塊函數得到的,如 式I所示;所有的熵值構成了一個在當前尺度s下的動態的響應圖Md,s(x,y) 其中(χ',y' ) e Rs(χ, y)Pg(x, ,k)是由直方圖產生的概率塊函數,此直方圖是由第s個圖像序列在局部區域 Rs(χ,y)中的所有像素值得到的;(A. 2. 3)將尺度較大的3個響應圖Md, s(x,y)都縮小到與其中最小尺度響應圖相同的 尺度,然后聯合生成動態顯著性圖Md(x,y)
全文摘要
本發明公開了一種基于信息熵的時空顯著性視覺注意方法,步驟為①提取短視頻中的動態顯著性圖和靜態顯著性圖;②將靜態顯著性圖和動態顯著性圖聯合生成最終顯著性圖;③勝者全贏;④返回抑制,將最終顯著性圖中最顯著性的區域的像素值都置為零,得到了一個新的最終顯著性圖;⑤注意選擇。在計算動態顯著性時,本發明直接計算所有幀之間的動態顯著性,僅僅計算當前幀的靜態顯著性圖,這樣很好地解決了現有方法存在的問題,節約了計算時間,并能更好地檢測出動態顯著性部分;另外本發明還運用了多尺度的方法計算了動態顯著性,這樣就能更好地計算出視頻中不同大小物體的動態顯著性,獲得良好的視覺效果。
文檔編號G06T7/20GK101853513SQ201010192240
公開日2010年10月6日 申請日期2010年6月6日 優先權日2010年6月6日
發明者桑農, 王岳環, 魏龍生 申請人:華中科技大學