專利名稱::基于脈沖余弦變換的選擇性視覺注意計算模型的制作方法
技術領域:
:本發明屬于圖像和視頻處理
技術領域:
,具體為一種基于脈沖余弦變換的選擇性視覺注意計算模型。利用該模型模擬人腦選擇性視覺注意的產生機制,產生有效的視覺顯著圖,在空間上和時間上都可以很快地計算得到相應的視覺顯著圖,從而能夠探測視覺場景中的空間顯著性和運動顯著性。在機器人導航,虛擬人系統,自動對焦系統等計算機視覺領域內有廣泛的應用前景。
背景技術:
:人的視覺系統中存在一個基于場景顯著性(Saliency-based)的自底向上(Bottom-up)的視覺注意機制,它使人眼能迅速注意到復雜場景中的顯著目標。選擇性視覺注意(SelectiveVisualAttention)是人腦視覺通路中信息處理的一個關鍵環節,它僅容許少部分感知信息進入短期記憶和視覺意識階段。因此,人腦沒有并行處理所有視覺感知信息,而是以串行方式進行信息處理m。近期研究指出,初級視覺皮層(VI)中形成了自底向上的視覺顯著性信息,響應最強烈神經元,其感受野對應的場景區^^成為視覺注意焦點的可能性最大[2]。這種觀點認為,視覺顯著性的形成是同類神經元側抑制作用的結果。Itti等人提出過一個在計算結構上具有生物學合理性的視覺注意模型[3]。其后,Walther將該模型進行功能擴展[4],并創建了圖像顯著性工具箱(SaliencyToolbox,STB),可生成決定注意焦點位置的視覺顯著圖(VisualSaliencyMap)。然而,此類模型參數設置復雜,算法結果受到參數設置的影響較大,而且,計算復雜度高,運算十分耗時,難以應用到實時系統。此外,它們不能計算運動顯著性。Hou等人認為,單幅圖像幅度譜和均值幅度譜的殘差中蘊含了場景顯著性信息[5],并提出計算視覺注意顯著圖的譜殘差(SpectralResidual,SR)方法。Guo等人進一步提出相位譜四元數傅立葉變換(PhaseSpectrumofQuaternionFourierTransform,PQFT)方法問,利用傅氏變換的相位譜信息計算得到視覺注意的時空顯著圖。因為復數計算不可能在人腦中實現,所以此類方法的計算結構缺乏生物學合理性。
發明內容本發明目的在于提出一個既有優異的人眼視覺注意模擬性能,同時又能實時應用的基于脈沖余弦變換的選擇性視覺注意計算模型。本發明目的通過下述技術方案實現本發明提出脈沖余弦變換(PulsedCosineTransform,PCT),并用它來模擬人腦視覺皮層同類神經元間的側抑制過程,從而進一步產生有效的視覺顯著性信息,脈沖余弦變換的選擇性視覺注意計算模型(PCT視覺注意計算模型),具體步驟如下1、視覺顯著圖的計算-給定輸入圖像Af,視覺顯著圖的計算步驟為P=sign("M)),(1)<formula>formulaseeoriginaldocumentpage6</formula>(3)其中,C和c"分別表示DCT變換和它的逆變換,sign(.)為符號函數,abs(.)為取絕對值函數,G是二維高斯低通濾波器;其中,在(l)式中僅僅保留DCT系數的符號,丟棄了幅度信息;其二元化系數(即-l和l)模擬了人腦神經元的放電與否;將(l)式稱為脈沖余弦變換(PulsedCosineTransform,PCT),此方法稱為計算視覺顯著圖的PCT模型,最后,視覺顯著圖由(2)、(3)兩式計算得到。輸入圖像首先要進行亞采樣處理,處理后的圖像尺寸決定了視覺注意的尺度。一般情況下可將輸入圖像均縮放到短邊為64像素,長邊則按照原圖長寬比例進行相應調整。由于PCT模型是從離散余弦變換(DiscreteCosineTransform,DCT)[7]變化而來,而DCT是一種被廣泛運用且非常簡單的酉變換方法。所以本發明模型結構簡單,計算復雜度低,能夠實時處理。研究表明,諸如顏色、邊緣輪廓和運動等基本視覺特征與視覺顯著性的形成有著密切聯系,它們的處理過程在視覺前注意期(Pre-attention)就已經存在[8]。根據該理論,本發明首先計算出它們對應的特征圖,然后再將其整合起來。彩色圖像視覺顯著圖的計算假設r、g、6表示輸入圖像紅、綠、藍3個顏色的值,那么強度特征圖的計算公式為<formula>formulaseeoriginaldocumentpage6</formula>(4)經典的視覺注意模型采用紅綠(RG)和藍黃(BY)兩種顏色拮抗(ColorOpponency)的計算方式[4]。由于僅考慮一個視覺注意尺度,本發明根據Itti和Kock的廣義RGB顏色模型[3],紅、綠、藍3個顏色特征圖的計算公式為她w-4g+6)/2(5a)倫-g-(r+6)/2(5b)Ms-6-(r+g)/2.(5c)然后,將M"Mc和Ms中的負值元素置零,為了保持各個特征圖之間的能量平衡,這里引入通道權衡因子的概念,各個通道權衡因子的計算公式為st,=max(M;)(6a)g7及=max(M/)(6b)cr5=max(Mfl)(6c)ctg=maxCMG)(6d)從而,我們有F=s^Fr+otgFg+n^fg+巧巧,(7)其中,FR、J^、巧和巧是以M"M。、l和抓作為輸入由(l)、(2)兩式分別計算得到的,最后,彩色圖像視覺顯著圖由(3)式計算得到;圖1給出了一個用PCT模型計算自然圖像視覺顯著圖的例子。可以看到,最顯著的位置是場景中的紅色帆船,本發明方法能夠把它突顯出來。為了顯示每個視覺特征圖的作用,圖中給出了每個通道的特征顯著圖。但在實際應用中,用上述方法可直接計算視覺顯著圖,無需計算特征顯著圖。為了清楚顯示,特征顯著圖做了歸一化處理。視覺顯著圖為4個特征顯著圖的加權和,然后再進行歸一化得到。近期研究指出,初級視覺皮層(VI)中形成了自底向上的視覺顯著性信息,響應最強烈神經元其感受野對應的場景區域成為視覺注意焦點的可能性最大[2]。這種觀點認為,視覺顯著性的形成是同類神經元側抑制作用的結果,即一個脈沖發放的神經元會抑制其周圍神經元的發放。一個與周圍有明顯不同的視覺特征如被一個神經元檢測到,因它沒有受到周圍同類神經元的抑制,它的發放率較高;而檢測到與周圍有相同特征的神經元受到同類神經元的抑制,其脈沖發放率大大降低。因此,高發放率的神經元總出現在視覺特征突出的位置。由于DCT變換用不同頻率和方向的周期信號來表示自然圖像,所以DCT系數蘊含了同類視覺特征在空間上出現的統計信息,值較大的DCT系數意味著其對應視覺特征在空T自]上出現的頻率較高。PCT通過平滑DCT系數的幅度值,模擬了同類神經元之間的側抑制作用。因此,經過本發明模型的處理,圖1中的紅色帆船就能從整個視覺場景中突顯出來。運動視覺顯著圖的計算運動目標會引起視覺注意,運動察覺與人腦視覺皮層的MT(V5)區有關。運動特征圖可以用視頻中兩幀間的差值作為PCT模型的輸入計算得到,給定連續兩幀視頻圖像M(O和M(卜l),由(4)式計算得到對應強度特征圖M,W和M々-i),對應這兩幀視頻圖像的幀間差分陣列按照下式進行計算H,-腳-1).(8)運動視覺顯著圖進一步由(l)、(2)、(3)式計算得到。此外,還可以用一種更簡單的運動顯著性產生方式,即用脈沖差分的方式生成運動顯著信息,給定連續兩幀視頻圖像M(,)和M(卜l),首先由(4)式計算得到對應強度特征圖M々)和M々-l),然后由(l)式計算得到它們對應的脈沖陣列PW和P(,-l),對應這兩幀視頻圖像的脈沖差分陣列按照下式進行計算4,,。"=^)—P(卜l).(9)運動視覺顯著圖進一步由(2)、(3)兩式計算得到。圖2給出了計算運動視覺顯著圖的一個例子。最明顯的運動目標是場景中央的海鳥,它在運動顯著圖中響應非常強烈,但在用單幀圖像得到的靜態顯著圖中并不明顯。不難看出,由幀間圖像差分和幀間脈沖差分計算得到的運動視覺顯著圖非常相似。本發明是一種基于脈沖余弦變換的選擇性視覺注意計算模型,提出的PCT方法在空間上和時間上都可以很快地計算得到相應的視覺顯著圖,從而能夠探測視覺場景中的空間顯著性和運動顯著性,其優點在于1.計算模型結構簡單,無需復雜的參數設置;2.計算復雜度低,運算速度快;3.能計8算出視覺場景中的空間顯著圖和"運動顯著窗。2k可改獲得準確的人眼視覺注意預測結果。本發明可用于復雜場景中的目標探測,在計算機視覺領域中具有重要意義。圖1.PCT模型計算視覺顯著圖的運算流程.(a)輸入圖像.(b)紅色通道視覺特征圖.(c)綠色通道視覺特征圖.(d)藍色通道視覺特征圖.(e)強度通道視覺特征圖.①紅色通道特征顯著圖.(g)綠色通道特征顯著圖.(h)藍色通道特征顯著圖.(i)強度通道特征顯著圖.(j)視覺顯著圖.圖2.運動視覺顯著性.(a)運動視頻幀.(b)幀間差分.(c)靜態顯著性.(d)幀間差分運動顯著性.(e)脈沖差分運動顯著性.圖3.各個模型對自然圖像的響應.(a)選自數據庫中的自然圖像.(b)人眼注視點密度圖.(c)PCT的視覺顯著圖.(d)PQFT的視覺顯著圖.(e)STB的視覺顯著圖.圖4.顏色和方向顯著模板測試結果.(a)心理測試模板.(b)PCT的視覺顯著圖.(c)PCT的注意力選擇.(d)PQFT的視覺顯著圖.(e)STB的視覺顯著圖.圖5.方向顯著模板測試結果.(a)心理測試模板.(b)PCT的視覺顯著圖.(c)PCT的注意力選擇.(d)PQFT的視覺顯著圖.(e)STB的視覺顯著圖.圖6.空缺目標探測結果.(a)心理測試模板.(b)PCT的視覺顯著圖.(c)PCT的注意力選擇.(d)PQFT的視覺顯著圖.(e)STB的視覺顯著圖.圖7.特征結合搜索模板測試結果.(a)心理測試模板.(b)PCT的視覺顯著圖.(c)PCT的注意力選擇.(d)PQFT的視覺顯著圖.(e)STB的視覺顯著圖.具體實施例方式1.實驗說明為了客觀評價本發明PCT方法的性能,我們采用2個實驗來比較PCT方法、文獻[6]的PQFT方法和SaliencyToolbox(STB)方法[4]。在所有實驗中,設置PCT和PQFT方法的顯著圖分辨率為64像素寬,長邊則按照比例進行相應縮放。STB的顯著圖分辨率由其程序自動調整,采用默認的參數設置。本發明實驗均在Matlab7.0環境下運行,計算機配置Intdl.50G處理器,1G內存。2.自然圖像測試為了評價視覺注意計算模型與人眼視覺注意的一致性,本實驗采用文獻[9]提供的120張城市場景照片和20個測試人的眼注視點數據,將其作為對照基準。數據庫中每張圖像分辨率均為511X681像素。我們分別用PCT、PQFT和STB方法計算得到這120張圖像的視覺顯著圖。研究表明人眼初期視覺注視受自底向上注意機制的影響程度較大[10]。本實驗只用人眼第一注視位置的正確預測數目和比率作為視覺注意模型的性能評價指標。表1中給出的統計結果表明,PCT方法優于另外兩種視覺注意計算模型。同時,還給出了計算120張圖像視覺顯著圖所花費的總時間。從數據上看,本發明模型計算速度比PQFT快了近一倍,比STB快了近20倍。因此,PCT模型計算速度也快于其它兩種模型。圖3給出了各個模型對注視位置預測能力的直觀比較,并將人眼注視點密度圖(EyeFixationDensityMap)[9]作為對照基準。容易看出,PCT方法與PQFT方法計算結果相似。但仔細觀察后發現,PCT能夠找到一些PQFT不能找到的顏色顯著區域,如第2行和第3行。需要注意,由于測試人具有先驗知識,所以這些測試數據不完全是自'底向上注意的結果。例如,人有察覺復雜場景中感興趣目標(動物或人)的傾向,如第1行。表l.第一視覺注視位置的正確探測圖像數目和比率<table>tableseeoriginaldocumentpage11</column></row><table>3.心理學模板測試心理學模板(PsychologicalPattern)常用在視覺注意測試實驗中。它不僅可以幫助研究視覺搜索機制,而且可以測試視覺顯著圖的有效性。本實驗采用14個心理學模板來測試和比較視覺注意模型,測試結果分別示于圖4,5,6,7中。圖4中,第1張圖像為顯著顏色的測試模板。本發明PCT方法能夠在第一注視焦點成功地找到眾多綠色磚塊中的紅色磚塊,而其它兩種方法不能找到該目標。第2張和第3張圖像為方向顯著的測試模板。PCT和PQFT能夠將顯著位置突顯出來,而STB不能找到該位置。第4張和第5張圖為在顏色和方向均顯著的測試模板,它們應該最容易找到。PCT和PQFT能夠馬上找到目標,而STB不能找到目標。圖5中,PCT和PQFT得到相似的輸出結果,它們可以找到前4張模板中的顯著位置。對于第4張測試模板,三種方法均能成功探測到顯著目標。然而,它們都不能找到最后一個模板(閉合模式)中的顯著位置。圖6為空缺顯著性模板的測試結果。PCT和PQFT可以注意到空缺磚塊的位置,這符合人的心理特點。然而,STB的輸&結果中未能突出該位置。圖7所示為特征結合搜索(ConjunctionSearch)[ll]測試,其完成難度較大。可以看到,只有本發明PCT方法能夠有效地找到目標。在本實驗中,PCT和PQFT得到的視覺顯著圖是有差別的。總的來說,本發明PCT方法的測試結果最好,因其僅有l次目標搜索失敗的記錄,即圖6中的閉合模板。在其它測試中,PCT只需第一次注視就能找到模板中的顯著位置。這說明PCT方法的視覺顯著圖能夠提供探測目標的有效信息。PQFT有5次測試失敗的記錄,即1個顏色顯著模板、1個閉合模板和3個特征結合搜索模板。STB僅有1次成功記錄,即圖6中的反交叉模板,在其它測試模板中都沒有找到目標。實驗結果表明,此方法不僅速度快,而且在人眼注視預測性能上,優于其它經典的視覺選擇性注意計算方法。參考$獻Z.LiandP.Dayan,"Pre-attentivevisualselection,"Afewra/A^Avo/^s,vol.19,pp.1437-1439,2006.〖3JL.Itti,C.KocG,andE.Niebur,"Amodelofsaliency-basedvisualattentionforrapidsceneanalysis,"7>ww.^w"/.""rfAfoc/i.vol.20,no.11,pp.1254-1259,1998.D.WaltherandC.Koeh,"Modelingattentiontosalientproto-objects,"iVei/raZiV^Avorfes,vol.19,pp.1395-1407,2006.N.Ahmed,T.Natarajan,andK.Rao,"Discretecosinetransform,"7>"肌Co附/w&rs,vol.23,pp.90-93,1974.A.M.TreismanandG.Gelade,"Afeature-integrationtheoryofattention,"Cogw/rive尸syc/zo/ogv,vol.12,no.l,pp.97-136,1980,N.D.Bruceand丄K.Tsotsos,"Saliencybasedoninformationmaximization,"In:Proc,NIPS,2005,fl6]B.W,Tatler,R丄Baddeley,andI.D.Gilchrist,"Visualcorrelatesoffixationselection:effectsofscaleandtime,"版'cwReseorcA,vol.45,pp.643-659,2005.[11]D丄.Wang,A,Kristjansson,andK.Nakay細a^"Efficientvisualsearchwithouttop-downorbottom-upguidance,"c&i^cAop/^sto,vol.67,no.2,pp,239-253,ZOOS-IS權利要求1、一種基于脈沖余弦變換的選擇性視覺注意計算模型,包括灰度圖像視覺顯著圖的計算,彩色圖像視覺顯著圖的計算,運動顯著圖的計算,其特征在于,灰度圖像視覺顯著圖的計算給定輸入圖像M,其視覺顯著圖計算步驟為P=sign(C(M)),(1)F=abs(C-1(P)),(2)SM=G*F2,(3)C和C-1分別表示離散余弦變換(DiscreteCosineTransform,DCT)和它的逆變換,sign(.)為符號函數,abs(.)為取絕對值函數,G是二維高斯低通濾波器,其中,在(1)式中僅僅保留DCT系數的符號,丟棄了幅度信息;其二元化系數(即-1和1)模擬了人腦神經元的放電與否;將(1)式稱為脈沖余弦變換(PulsedCosineTransform,PCT),此方法稱為計算視覺顯著圖的PCT模型,最后,視覺顯著圖由(2)、(3)兩式計算得到。2、根據權利要求1所述的基于脈沖余弦變換的選擇性視覺注意計算模型,其特征在于所述的彩色圖像視覺顯著圖的計算假設r、g、6表示輸入圖像紅、綠、藍3個顏色的值,那么強度特征圖的計算公式為然后,將MhMc和Ms中的負值元素置零,各個通道權衡因子的計算公式為<formula>formulaseeoriginaldocumentpage2</formula>(1)(2)(3)M/=(r+g+6)/3.紅、綠、藍3個顏色特征圖的計算公式為:M=r—(g+6)/2倫-g-(r+6)/2Ms=6_(r+g)/2.(5a)(5b)(5c)<formula>formulaseeoriginaldocumentpage3</formula>從而,有<formula>formulaseeoriginaldocumentpage3</formula>其中,Fc、巧和巧是以Af"A^和Af,作為輸入由(1)、(2)兩式分別計算得到的,最后,彩色圖像視覺顯著圖由(3)式計算得到。3、根據權利要求1所述的基于脈沖余弦變換的選擇性視覺注意計算模型,其特征在于所述的運動視覺顯著圖的計算運動特征圖用視頻中兩幀間的差值作為PCT模型的輸入計算得至IJ,給定連續兩幀視頻圖像^(/)和^^(/-1),由(4)式計算得到對應強度特征圖M,(/)和M々-1),對應這兩幀視頻圖像的幀間差分陣列按照下式進行計算<formula>formulaseeoriginaldocumentpage3</formula>運動視覺顯著圖進一步由(l)、(2)、(3)式計算得到。4、根據權利要求3所述的基于脈沖余弦變換的選擇性視覺注意計算模型,其特征在于所述運動視覺顯著圖的計算用脈沖差分的方式生成運動顯著信息,給定連續兩幀視頻圖像M(/)和M(卜1),首先由(4)式計算得到對應強度特征圖M,")和M;(卜l),然后由(l)式計算得到它們對應的脈沖陣列p(O和p(卜l),對應這兩幀視頻圖像的脈沖差分陣列按照下式進行計算<formula>formulaseeoriginaldocumentpage3</formula>運動視覺顯著圖進一步由(2)、(3)兩式計算得到。全文摘要本發明涉及一種基于脈沖余弦變換的選擇性視覺注意計算模型。此模型給定輸入圖像M,其視覺顯著圖計算步驟為式(1)P=sign(C(M)),式(2)F=abs(C<sup>-1</sup>(P)),式(3)SM=G*F<sup>2</sup>,C和C<sup>-1</sup>分別表示離散余弦變換和它的逆變換,sign(.)為符號函數,abs(.)為取絕對值函數,G是二維高斯低通濾波器,其中,在(1)式中僅僅保留DCT系數的符號,丟棄了幅度信息;其二元化系數(即-1和1)模擬了人腦神經元的放電與否;將(1)式稱為脈沖余弦變換(PCT),此方法稱為計算視覺顯著圖的模型,最后,視覺顯著圖由(2)、(3)兩式計算得到。此方法模型結構簡單,運算量低,在機器人導航,虛擬人系統,自動對焦系統等計算機視覺領域內有廣泛的應用前景。文檔編號G06F17/14GK101587590SQ20091005322公開日2009年11月25日申請日期2009年6月17日優先權日2009年6月17日發明者映余,張立明,斌王申請人:復旦大學