本發明涉及計算機視覺領域,尤其是涉及了一種基于深度卷積神經網絡的圖像像素標記方法。
背景技術:
隨著科技技術迅速發展,稠密圖像標記成為計算機視覺領域中最重要的問題,因為它包含許多低級或高級視覺任務,包括立體匹配、光流、表面法線估計和語義分割。但是,基于變換的方法(總是學習預測新的標記估計)通常必須學習比基本的更困難的東西,因為它們必須經常簡單地學習在正確的初始標記的情況下起身份變換的作用,產生相同的輸出標記。另一方面,對于基于殘差的方法,更容易學習在正確的初始標記的情況下預測零殘差,但是它們更難以改進從初始標記開始偏離很多的大標記值錯誤。而如果采用基于深度卷積神經網絡的圖像像素標記方法,則可以通過預測關于他們的殘差校正,分解標記改進任務為三個步驟,從而預測新的精確的標記估計。同時,這種方法在各種自動駕駛和機器人導航或抓取任務上具有許多實際應用。
本發明提出了一種基于深度卷積神經網絡的圖像像素標記方法,它利用深度卷積神經網絡,首先輸入交通場景圖像和關于該圖像的一些初始估計,接著由檢測組件檢測在輸入標記中的錯誤;然后通過替換組件將錯誤標記替換為新標記;最后以殘差校正的方式整體改進所有輸出標記,獲得新的、精確的標記估計。本發明由于采用神經網絡模型,節省大量的內存和時間;考慮存在于輸入和輸出變量的聯合空間中的依賴性,實現更精確的結果;僅在最終輸出上應用目標函數,允許稠密圖像標記任務的端到端學習。
技術實現要素:
針對標記改進任務學習困難和難以改進的問題,本發明的目的在于提供一種基于深度卷積神經網絡的圖像像素標記方法。
為解決上述問題,本發明提供一種基于深度卷積神經網絡的圖像像素標記方法,其主要內容包括:
(一)圖像輸入;
(二)檢測;
(三)替換;
(四)細化;
(五)預測標記估計。
其中,一種基于深度卷積神經網絡的圖像像素標記方法,利用深度卷積神經網絡,輸入標記的初始估計和圖像,能夠預測新的、精確的標記估計;使用一個通用的架構,通過預測關于標記初始估計和圖像的殘差校正,它分解標記改進任務為三個步驟:首先檢測不正確的初始標記估計,接著用新的標記替換不正確標記,最后細化更新的標記;迭代地執行該通用架構可以校正更大面積區域的不正確標記。
其中,所述的圖像輸入,采用交通場景集作為數據集,其包括各種類型的車輛行駛在道路上的場景圖,分辨率大小為1392×512;車輛對象有汽車、貨車、卡車、有軌電車等;設X=表示大小為H×W的輸入圖像,其中xi是圖像的第i個像素,表示輸入圖像的一些初始標記估計。
其中,所述的檢測,通過發現哪些像素標記與Y的剩余標記和輸入圖像X不一致來檢測Y的錯誤像素標記;由錯誤檢測組件Fε(.)執行,基本上需要以產生相同大小的概率映射E=Fε(X,Y)作為輸入標簽Y,E表示將具有在Y中大標記值的高概率錯誤;錯誤檢測函數Fε(.)可由任何存在唯一約束的深度神經網絡實現,其輸出映射E必須采取范圍在[0,1]的值。
進一步地,所述的錯誤檢測組件,它是由5個卷積層組成,其中的最后一個卷積層產生錯誤概率映射E;除了最后一個卷積層之外,所有的卷積層之后都是修正線性單元(ReLU)批量標準化,而最后的卷積層后面是一個sigmoid單元;前兩個卷積層之后是內核大小為2的最大池層,其將輸入分辨率減小到4倍;為了補償,將雙線性上采樣層按順序放置在最后卷積層的頂部上輸出概率映射E,使具有相同的分辨率的圖像作為輸入圖像;相應地,5個卷積層中的每一個的輸出特征平面的數量分別是32,64,128,256和1。
其中,所述的替換,使用新標記替換檢測到的錯誤像素標記,新的標記域U由初始標記域Y和標記替換部件Fu(.):U=E⊙Fu(X,Y,E)+(1-E)⊙Y的輸出的凸組合產生;替換部件Fu(.)的任務是用新的標記來代替錯誤像素標記,新標記與輸入圖像X和正確的標記Y一致,而且替換部件也將錯誤概率映射E作為輸入;替換部件Fu(.)可通過任何神經網絡來實現,該神經網絡以相同大小的標記Y作為輸入。
進一步地,所述的替換組件,使用卷積架構,首先“壓縮”特征映射的分辨率為輸入分辨率的然后“解壓”分辨率為輸入分辨率的在“壓縮”部分期間,存在總共6個下采樣卷積塊,并且在“解壓縮”部分期間存在4個上采樣卷積塊;第一層中的輸出特征平面的數量是32,并且每次分辨率被下采樣時,特征平面的數量增加到因子2;在“解壓縮”部分期間,不輸出特征平面的數量,每次對分辨率進行上采樣時,也將特征平面的數量減少2倍;最后的卷積層產生具有新的視差標記(沒有任何非線性)的單個特征平面。
其中,所述的細化,以殘差校正Y‘=U+Fr(X,Y,E,U)的方式對前面步驟所產生的整個輸出標記映射U進行最終細化;細化組件Fr(.)糾正標記映射U的小標記值錯誤,以更好地將輸出標記Y‘與圖像X中的精細結構匹配;細化組件可通過任何神經網絡來實現,該神經網絡以相同大小的標記U作為輸入。
進一步地,所述的細化組件,采用與替換組件相同的架構,不同點在于:“壓縮”部分期間的特征圖的分辨率不斷被減小,直到為輸入分辨率的然后在“解壓縮”部分期間分辨率恢復到輸入分辨率。
其中,所述的預測標記估計,給定左圖像和右圖像,以向左圖像的每個像素分配指示其在右圖像中的水平位移(視差)的連續標記;它需要處理幾個挑戰,如準確地保持對象邊界上的視差不連續性,處理遮擋,以及恢復視差圖的細節。
附圖說明
圖1是本發明一種基于深度卷積神經網絡的圖像像素標記方法的系統流程圖。
圖2是本發明一種基于深度卷積神經網絡的圖像像素標記方法的框架示意圖。
圖3是本發明一種基于深度卷積神經網絡的圖像像素標記方法的交通場景集。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結合,下面結合附圖和具體實施例對本發明作進一步詳細說明。
圖1是本發明一種基于深度卷積神經網絡的圖像像素標記方法的系統流程圖。主要包括圖像輸入;檢測;替換;細化;預測標記估計。
其中,所述的圖像輸入,采用交通場景集作為數據集,其包括各種類型的車輛行駛在道路上的場景圖,分辨率大小為1392×512;車輛對象有汽車、貨車、卡車、有軌電車等;設X=表示大小為H×W的輸入圖像,其中xi是圖像的第i個像素,表示輸入圖像的一些初始標記估計。
其中,所述的檢測,通過發現哪些像素標記與Y的剩余標記和輸入圖像X不一致來檢測Y的錯誤像素標記;由錯誤檢測組件Fε(.)執行,基本上需要以產生相同大小的概率映射E=Fε(X,Y)作為輸入標簽Y,E表示將具有在Y中大標記值的高概率錯誤;錯誤檢測函數Fε(.)可由任何存在唯一約束的深度神經網絡實現,其輸出映射E必須采取范圍在[0,1]的值。
進一步地,所述的錯誤檢測組件,它是由5個卷積層組成,其中的最后一個卷積層產生錯誤概率映射E;除了最后一個卷積層之外,所有的卷積層之后都是修正線性單元(ReLU)批量標準化,而最后的卷積層后面是一個sigmoid單元;前兩個卷積層之后是內核大小為2的最大池層,其將輸入分辨率減小到4倍;為了補償,將雙線性上采樣層按順序放置在最后卷積層的頂部上輸出概率映射E,使具有相同的分辨率的圖像作為輸入圖像;相應地,5個卷積層中的每一個的輸出特征平面的數量分別是32,64,128,256和1。
其中,所述的替換,使用新標記替換檢測到的錯誤像素標記,新的標記域U由初始標記域Y和標記替換部件Fu(.):U=E⊙Fu(X,Y,E)+(1-E)⊙Y的輸出的凸組合產生;替換部件Fu(.)的任務是用新的標記來代替錯誤像素標記,新標記與輸入圖像X和正確的標記Y一致,而且替換部件也將錯誤概率映射E作為輸入;替換部件Fu(.)可通過任何神經網絡來實現,該神經網絡以相同大小的標記Y作為輸入。
進一步地,所述的替換組件,使用卷積架構,首先“壓縮”特征映射的分辨率為輸入分辨率的然后“解壓”分辨率為輸入分辨率的在“壓縮”部分期間,存在總共6個下采樣卷積塊,并且在“解壓縮”部分期間存在4個上采樣卷積塊;第一層中的輸出特征平面的數量是32,并且每次分辨率被下采樣時,特征平面的數量增加到因子2;在“解壓縮”部分期間,不輸出特征平面的數量,每次對分辨率進行上采樣時,也將特征平面的數量減少2倍;最后的卷積層產生具有新的視差標記(沒有任何非線性)的單個特征平面。
其中,所述的細化,以殘差校正Y‘=U+Fr(X,Y,E,U)的方式對前面步驟所產生的整個輸出標記映射U進行最終細化;細化組件Fr(.)糾正標記映射U的小標記值錯誤,以更好地將輸出標記Y‘與圖像X中的精細結構匹配;細化組件可通過任何神經網絡來實現,該神經網絡以相同大小的標記U作為輸入。
進一步地,所述的細化組件,采用與替換組件相同的架構,不同點在于:“壓縮”部分期間的特征圖的分辨率不斷被減小,直到為輸入分辨率的然后在“解壓縮”部分期間分辨率恢復到輸入分辨率。
其中,所述的預測標記估計,給定左圖像和右圖像,以向左圖像的每個像素分配指示其在右圖像中的水平位移(視差)的連續標記;它需要處理幾個挑戰,如準確地保持對象邊界上的視差不連續性,處理遮擋,以及恢復視差圖的細節。
圖2是本發明一種基于深度卷積神經網絡的圖像像素標記方法的框架示意圖。在這個架構中的深度聯合輸入輸出模型執行稠密圖像標記任務時被分解成三個不同的子任務:1)檢測的錯誤的初始標記;2)用新的標記替換錯誤標記;3)細化更新的標記映射。
圖3是本發明一種基于深度卷積神經網絡的圖像像素標記方法的交通場景集。采用交通場景集作為數據集,其包括各種類型的車輛行駛在道路上的場景圖,分辨率大小為1392×512;車輛對象有汽車、貨車、卡車、有軌電車等。
對于本領域技術人員,本發明不限制于上述實施例的細節,在不背離本發明的精神和范圍的情況下,能夠以其他具體形式實現本發明。此外,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍,這些改進和變型也應視為本發明的保護范圍。因此,所附權利要求意欲解釋為包括優選實施例以及落入本發明范圍的所有變更和修改。