用于基于梯度直方圖編碼圖像描述符的圖像處理裝置和方法
【技術領域】
[0001] 本發明設及用于高效地編碼、轉碼、解碼和處理在圖像感興趣關鍵點周圍的局部 區域中計算出的圖像描述符的方法,并且設及包括用于編碼、轉碼、解碼和處理運種描述符 的部件的圖像處理設備。
【背景技術】
[0002] 運種圖像描述符已經在許多計算機視覺應用中發現了廣泛的適用性,運些應用包 括對象識別、基于內容的圖像檢索和圖像配準,僅舉幾例。
[0003] 對運種描述符進行編碼的現有方法呈現出某些缺點。
[0004] 例如,現有的編碼方法產生運樣的描述符,它們需要解析整個描述符來執行轉碼, 借此給定描述符長度的描述符被轉換為不同描述符長度的描述符,或者它們需要解析整個 描述符來執行不同長度的描述符的解碼和比較。
[0005] 作為另一個例子,現有的編碼方法就編碼復雜性而言是低效的,因為它們忽略了 產生變長圖像描述符所需的操作中的共性和冗余。
[0006] 由本申請人自己提交的尚未公布的意大利專利申請NO.T02012A000602描述了局 部圖像描述符的編碼,借此基于梯度直方圖的變換從采用所述梯度直方圖的圖像描述符計 算健壯、可區分、可擴展且緊湊的圖像描述符,其中所述變換捕獲包含在梯度直方圖中的顯 著且健壯的信息,運些信息是梯度直方圖的區間(bin)值之間的關系和分布的形狀的形式 的。
[0007] 在所述尚未發表的意大利專利申請中,公開了所述描述符的編碼方法,其就產生 容易擴展的位流而言比現有技術方法更高效。
[000引運種描述符在W上提到的尚未發表的意大利專利申請NO.T02012A000602中公開, 該申請公開了基于梯度直方圖的變換從采用所述梯度直方圖的圖像描述符計算健壯、可區 分、可擴展且緊湊的圖像描述符,其中所述變換捕獲包含在梯度直方圖中的顯著且健壯的 信息,運些信息是梯度直方圖的區間值之間的關系和分布的形狀的形式的。
[0009] 根據尚未發表的意大利專利申請NO.T02012A000602的從采用梯度直方圖的圖像 描述符(尤其是SIFT圖像描述符)計算健壯、可區分、可擴展且緊湊的圖像描述符的重要方 面在下文進行描述。
[0010] 簡要地說,利用SIFT方法,局部圖像描述符是如下形成的:首先,執行跨多個圖像 尺度和位置的捜索,W識別和定位對尺度和朝向不變的穩定的圖像關鍵點;接著,對每個關 鍵點,基于局部圖像梯度確定一個或多個主導朝向,從而允許后續的局部描述符計算相對 于每個關鍵點的分配的朝向、尺度和位置來執行,因此實現運些變換的不變性。接著,關鍵 點周圍的局部圖像描述符如下形成:首先,在關鍵點周圍的區域中的圖像樣本點處計算梯 度量值和朝向信息;接著,運些樣本被累積到總結nXn個子區域上的內容的朝向直方圖中。
[0011] 僅僅作為說明,SIFT關鍵點描述符的例子在圖Ia和Ib中示出,其中圖Ia示出了將 局部區域R細分成4X4子區域SR,并且圖化示出了對于每個朝向直方圖將360°朝向范圍細 分成八個區間,其中每個箭頭的長度對應于該直方圖條目的量值。因此,如圖I中所示的局 部圖像描述符具有4x4x8= 128個元素。SIFT技術的更多細節可W在International Journal of Computer Vision,60,2(2004),PP.91-110 由David G.Lowe 所寫的 "Distinctive image features from scale-invariant keypoints" 中找至Ij。
[0012] 根據尚未發表的意大利專利申請NO.T02012A000602,健壯、可區分、可擴展且緊湊 的圖像描述符可W從SIFT描述符如下計算。
[0013] 在W下描述中,H是包括16個梯度直方圖h的整個SIFT描述符,每個梯度直方圖h具 有八個區間h,而V是根據本發明的包括16個子描述符V的整個局部描述符,每個子描述符V 具有八個元素 V。
[0014] 令H表示包括16個梯度直方圖h〇-hi5的SIFT局部圖像描述符,如圖2a中所示,每個 直方圖包括八個區間值ho-h?,如圖化中所示。更健壯、可區分、可擴展且緊湊的圖像描述符 可W通過變換H的h〇-hl5中的每一個并接著對結果產生的變換后的值執行標量量化來計算。 更具體而言,根據圖3的變換利用信息,h〇-hi5中的每一個根據變換A或變換B被變換,如W下 所示,即變換A應用到]10、112、115、117、118、1110、1113、1115并且變換6應用到111、113、114、116、119、1111、1112、 hl4,給出變換后的描述符V具有分別對應于h〇-hl5的子描述符V0-V15,并且每個子描述符包括 元素 V0-V7,從而給出總共128個元素。
[0015] 變換 A (1)
[0016] vo = h2-h6
[0017] vi = h3-h7 [001 引 v2 = h0-hi
[0019] V3 = h2-h3
[0020] V4=h4-h5
[0021] 化= h6-h7
[0022] V6=化o+h4)-化2+h6)
[0023] V7 =化 o+h2+h4+h6)-化i+hs+hs+h?)
[0024] 變換 B (I)
[0025] vo = h〇-h4
[0026] vi = hi-h 已
[0027] V2 = h7-ho
[002引 V3 = hi-h2
[0029] V4=h3-h4
[0030] 化= h5-h6
[0031] V6=化 l+h5)-化 3+h7)
[0032] V7=化0+hl+h2+h3)-化4+h5+h6+h7)
[0033] 接著,每個元素經受粗標量量化,例如=元(3級)量化,其中量化闊值被選擇為在 用于每個元素的量化區間之間實現特定的發生概率分布。運種標量量化產生量化后的描述 符,具有子描述符…每個子描述符包括元素玲'Ir錢1%再次具有總共128個 元素。運種緊湊的描述符捕獲包含在原始梯度直方圖中的最可區分且健壯的信息,其中信 息是它們的區間值之間的關系和分布的形狀的形式的。
[0034] 描述符VW及其量化版本古的關鍵優點是它是高度可擴展的,并且,如果應用的存 儲需求或傳輸通道的特性要求的話,其維度可W通過簡單地消除其一個或多個元素來容易 地減小。為了簡化,在W下描述中,將就量化之前的具有子描述符V0-V15的描述符V的編碼來 描述本發明的重要方面,其中每個子描述符包括元素 V0-V7,并且,除非另外聲明,否則應當 理解,量化后的描述符t的編碼W類似的方式進行。
[0035] 圖4a-4e示出了已經被找出W對五個目標描述符長度產生卓越的可區分能力和健 壯性的示例性元素集合,從描述符長度〇(化0)、僅利用20個描述符元素的最短描述符長度 到描述符長度4(化4)一一利用所有128個元素的最長描述符長度。更具體而言,圖4a示出了 用于包括20元素的描述符長度DLO的示例性元素集合,圖4b示出了用于包括40個元素的描 述符長度化1的示例性元素集合,圖4c示出了包括64個元素的描述符長度化2的示例性元素 集合,圖4d示出了用于包括80個元素的描述符長度化3的示例性元素集合,并且圖4e示出了 用于包括全部128個元素的描述符長度化4的示例性元素集合。因此,對于每個描述符長度, 每個子描述符的每個元素將根據圖4a-4e的元素利用集合來編碼或者不根據圖4a-4e的元 素利用集合來編碼。
[0036] 運種可擴展性屬性的關鍵在于對每個描述符長度被利用的元素集合必須與對所 有更高描述符長度被利用的元素集合相同或者是其子集,如圖4a-4e中所示。通過對具有更 高描述符長度的描述符的過多元素的簡單消除,使得其被減小至與具有較低描述符長度的 描述符的相同元素集合,運允許具有不同長度的描述符的轉碼和比較。
[0037] 運種描述符的簡明的編碼方法包括W "按子描述符"次序計算和編碼元素,即,在 一般情況下是作為V0,0,V0,1, . . .,V0,7,V1,0,V1,1, . . .,V1,7, . . . ,Vl日,0,V1 日,1,. . .,Vl日,7,其中ViJ 表示子描述符Vi的元素 Vj。運意味著通過使用適當的變換來編碼變換后的直方圖VO的元素 V0,V1, . . .,V7,接著編碼變換后的直方圖Vl的元素 V0,V1, . . .,V7,等等,例如圖3中所示,并且 還對期望的描述符長度使用適當的元素利用集合,例如圖4中所示,W決定哪些元素應當被 編碼。
[003引運種編碼,例如對描述符長度DLO產生描述符V0,0,V1,0,V2,0,V3,0,V4,0,V5,0,V5,6, V6,0,V6,6,V7,0,V8,0,V9,0,V9,6,V10,0,V10,6,V11,0,V12,0,V13,0,V14,0,V化,0并且對描述符長度DL1產 生描述符V0,0,V0,1,V1,0,V1,1,V2'0,V2'1,V3'0,V3'1,V4'0,V4'1,V5,0,V5,1,V5,2,V5,6,V6'0,V6'1,V6'2, V6,6,V7,0,V7,1,V8,0,V8,1,V9,0,V9,1,V9,2,V9,6,V10,0,V10,1,V10,2,V10,6,V11,0,V11,1,V12,0,V12,1, V13,0