一種基于超像素分割的圖像語義標注方法
【專利摘要】本發明所提供了一種基于超像素分割的圖像語義標注方法,首先將基于圖像超像素分割提取的特征圖塊輸入卷積神經網絡,再將卷積神經網絡訓練得到的特征向量進行擴展和加權處理,最后構建條件隨機場模型進行語義類別標注預測。由于采用本發明的技術方案,該方法將超像素塊作為研究對象,簡化了用于基于圖像超像素分割提取的特征圖塊的復雜度,提高了語義標注的計算效率;另外,采用多層的超像素塊進行語義分析,并將其標注結果進行綜合,提高了語義標注的準確率和魯棒性。
【專利說明】
-種基于超像素分割的圖像語義標注方法
技術領域
[0001] 本發明設及所述圖像語義標注方法,特別設及一種基于超像素分割和卷積神經網 絡的圖像語義分析的技術領域。
【背景技術】
[0002] 目前,機器人的應用從傳統的工業制造領域擴展到軍事、科學探索乃至醫療服務 等各個方面。而運些新的應用領域中,機器人往往工作在非結構化的室外環境中。相較于信 息單一的室內環境而言,室外的場景更加復雜多變且富有層次性,設及的語義信息種類繁 多,而且容易受到光線、視野等因素的影響。另外,機器人工作時沒有按部就班的作業步驟, 只具有較少的先驗知識,于是對室外環境的感知和理解成為實現環境建模,行動規劃等自 主控制的必要前提。
[0003] 機器人有著與人類相似的感知系統,該感知系統得到的信息經過控制系統分析處 理之后可W得到對外界環境的理解,進而實現與人類相似的分析和操作。在機器人感知的 信息中,視覺信息由于探測范圍寬,獲取信息豐富的優點而得到廣泛的使用。因此,機器人 要完善地理解其所處的環境,就需要在視覺圖片信息和表示圖片內容之間建立聯系,也就 是對圖像進行標注。
[0004] 在圖像的語義分析研究中,常用的標注方法可W分為=大類:(1)利用機器學習方 法(如決策樹,神經網絡等)在圖像數據和語義詞語之間建立對應聯系;(2)采用模式分類的 方法(如SVM,ELM等)實現圖像標注;(3)利用概率轉換模型(如貝葉斯網絡、馬爾科夫隨機場 等)在分割后的圖像單元和語義詞語之間建立聯系。運些方法體現出了截然不同的研究思 路,但都無法普適地解決圖像標注問題。
【發明內容】
[0005] 本發明所要解決的技術問題是提供一種基于超像素分割的圖像語義標注方法,為 此,本發明采用W下技術方案:
[0006] 首先將基于圖像超像素分割提取的特征圖塊輸入卷積神經網絡,再將卷積神經網 絡訓練得到的特征向量進行擴展和加權處理,最后構建條件隨機場模型進行語義類別標注 預測。
[0007] 首先對圖像作多層次超像素分割處理,對于分割到的每一個超像素塊,提取一個 正方形圖像區域,將運一正方形的圖像區域作為所述特征圖塊輸入卷積神經網絡,由于采 用了多層次分割處理,可W提取多層次的特征圖塊。
[000引進一步的,所述特征圖塊包含了鄰近超像素塊的信息;所述特征圖塊選取為超像 素塊最大內切圓圓屯、向外擴展定長的正方形區域。
[0009] 進一步的,每一個所述特征圖塊經過神經網絡訓練之后,卷積神經網絡輸出的假 設函數向量選取為超像素的特征向量。
[0010] 進一步的,對卷積神經網絡訓練得到的特征向量進行擴展,增加描述超像素塊的 尺度,輪廓的幾何特征;利用支持向量機模型(Suppod Vector Machine,SVM)對擴展之后 的特征向量進行了權重處理并輸出標簽概率向量,并將標簽概率向量作為加權之后的超像 素特征向量。
[0011] 進一步的,該方法采用了超像素塊的面積、周長、最大內切圓屯、的坐標位置W及轉 動慣量用于特征擴展。
[0012] 進一步的,該方法使用分層分割方法對圖像進行了多層次的超像素分割,得到多 層次的超像素特征向量整合到像素級的條件隨機場模型中,通過最大化后驗邊際概率來求 解圖像的標注結果。
[0013] 由于采用本發明的技術方案,該方法將超像素塊作為研究對象,簡化了用于基于 圖像超像素分割提取的特征圖塊的復雜度,提高了語義標注的計算效率;另外,采用多層的 超像素塊進行語義分析,并將其標注結果進行綜合,提高了語義標注的準確率和魯棒性。
【附圖說明】
[0014] 圖1為多層次分割示意圖。
[0015] 圖2為特征圖像塊提取過程示意圖。
[0016] 圖3為利用卷積神經網絡學習特征示意圖,柱狀圖的縱坐標是數據庫預定義的類 別。
[0017] 圖4為多層次超像素特征整合到像素層次示意圖。
[0018] 圖5為像素級條件隨機場建模過程示意圖。
[0019] 圖6為語義標注方法實施過程示意圖。
【具體實施方式】
[0020] 如圖所示,一種基于超像素分割的圖像語義標注系統,所述語義標注系統分為兩 大部分:第一部分超像素塊特征提取部分。所述第一部分中設及將多層次的超像素塊轉換 成可W輸入卷積神經網絡作訓練的特征圖像塊,并且對于每一個超像素塊,都需要用超像 素的幾何特征來進行擴展,并且需要利用支持向量機來對超像素塊的特征進行權重處理。 所述的第二部分中,將多層次的超像素特征整合到像素層面上,建立像素級別的條件隨機 場模型,并通過極大后驗邊際的思路進行求解推理,對模型求解即可得到圖像標注的結果。 本發明所要解決的技術問題是提供一種基于超像素分割的圖像語義標注方法。具體步驟如 下:
[0021] 1.首先對圖像作多層次超像素分割處理,對圖片進行多層次超像素分割,該算法 不僅能得到超像素塊的邊界,還能得到一個表示該邊界存在可能性的概率,運樣我們就可 W通過調節邊界概率的闊值來控制超像素分割的精細化程度,進而便于對超像素進行多層 次的分割。多層次分割效果如圖1所示。
[0022] 2.對于分割到的每一個超像素塊,相應地提取一個正方形圖像區域,將運一正方 形的圖像區域作為特征圖塊輸入卷積神經網絡,由于采用了多層次超像素分割處理,可W 提取多層次的特征圖塊。
[0023] 對圖像進行超像素分割時,得到的超像素塊形狀不規則,尺度不統一,不能直接輸 入卷積神經網絡進行訓練。另外,由于超像素內部的像素點的RGB通道值很接近,因此并沒 有必要提取所有的內部像素點,反而是超像素塊外圍的像素信息,即與自身相鄰的超像素 塊信息更有助于不同超像素塊的區分。因此,我們將不規則的超像素塊蟻化為其內部包含 的最大內切圓。另外由于CNN要求輸入的圖像大小一致,我們從超像素塊最大內切圓的圓屯、 向四周擴展得到一個確定尺寸的正方形圖像塊作為的輸入,該過程如圖2所示。
[0024] 對于一幅尺寸為u〇,v日的圖片而言,特征圖像塊的尺寸nbiock可W依公式1確定:
[0025]
[0026] 其中num表示一張圖片中分割的超像素塊的數量,u〇,vo是圖片的寬度和高度。
[0027] 3.按照步驟2得到的特征圖塊一般會包含鄰近超像素塊的信息,將每一個所述特 征圖塊輸入神經網絡訓練,卷積神經網絡輸出的假設函數向量選取為超像素的特征向量。 另外,本文所使用的CNN可W表示如圖3,圖中英文翻譯如下,fg Ob j .:前景物體,皿tn:山, bldg:建筑物,water:水,grass:草地,road:路,tree:樹,sky:天空。其中Convl表示:第一個 卷積神經網絡,Conv2表示第二個卷積神經網絡,Conv3表示第=個卷積神經網絡,Conv4表 示第四個卷積神經網絡,Conv5表示第五個卷積神經網絡。
[0028] 4.對卷積神經網絡訓練得到的特征向量進行擴展,增加描述超像素塊的尺度,輪 廓的幾何特征的信息。
[0029] 利用卷積神經網絡可W自動提取出每一個超像素塊的特征向量,但是運種特征向 量缺乏全局的信息。為此,我們引入了一些附加的超像素屬性來對CN的尋到的特征向量進行 擴展。一般而言,超像素塊的大小是進行超像素塊分類時很重要的信息,本文中引入了面積 和周長作為超像素塊大小的量度。其次,超像素塊所在的位置與超像素塊的語義信息也有 著一定的相關性。另外,超像素塊的轉動慣量能夠更準確地反映出超像素塊中各像素點的 分布情況。因此,運里使用超像素的周長、面積、位置和慣量等信息來擴展超像素的局部特 征。運些特征都是超像素塊的幾何屬性,且都是線性時間復雜度,不會明顯地增大計算量, 但特征在擴展之后能有效提高特征的分類精度。
[0030] 如果用S和C分別表示超像素塊SP的面積和周長,山,V康示SP的質屯、位置,化,V2表 示SP最大內切圓的圓屯、位置,則SP的擴展特征向量Fadd可W表示為:
[0031]
[0032] 5.利用支持向量機模型對擴展之后的特征向量進行了權重處理并輸出標簽概率 向量,并將標簽概率向量作為加權之后的超像素特征向量。
[0033] 由于超像素集合中超像素塊的大小分布很不均勻,對于估計準確度的貢獻也不相 同,面積較大的超像素塊對預測精度影響更大,鑒于此,超像素塊的特征向量需要進行權重 處理。該標注方法對擴展之后的特征向量進行加權支持向量機建模,并將支持向量機輸出 的標簽預測向量作為超像素塊的加權特征。由于超像素集合中超像素塊的大小分布很不均 勻,對于估計準確度的貢獻也不相同,面積較大的超像素塊對預測精度影響更大,鑒于此, 超像素塊的特征向量需要進行權重處理。由于語義標注問題的目標在于盡可能將更多的像 素點標注為正確的類別,也就是要使得訓練數據在像素層次上預測精度達到最高,因此超 像素塊的權重我們選擇為超像素塊的面積,即超像素塊中包含的像素點的數量。
[0034] 6.根據多層次的超像素和像素點的對應關系,將每個像素點的特征定義為包含該 像素點的超像素塊的特征向量的集合,從而將多層次的超像素特征整合到像素級上(如圖4 所示),并利用像素級的特征向量進行條件隨機場建模(如圖5所示),基于極大后驗邊際的 思路推理求解模型即可得到圖像標注的結果。
【主權項】
1. 一種基于超像素分割的圖像語義標注方法,其特征在于,首先將基于圖像超像素分 割提取的特征圖塊輸入卷積神經網絡,再將卷積神經網絡訓練得到的特征向量進行擴展和 加權處理,最后構建條件隨機場模型進行語義類別標注預測。2. 如權利要求1所述的一種基于超像素分割的圖像語義標注方法,其特征在于,首先對 圖像作多層次超像素分割處理,對于分割到的每一個超像素塊,提取一個正方形圖像區域, 將這一正方形的圖像區域作為所述特征圖塊輸入卷積神經網絡,由于采用了多層次分割處 理,可以提取多層次的特征圖塊。3. 如權利要求2所述的一種基于超像素分割的圖像語義標注方法,其特征在于:所述特 征圖塊包含了鄰近超像素塊的信息;所述特征圖塊選取為超像素塊最大內切圓圓心向外擴 展定長的正方形區域。4. 如權利要求1所述的一種基于超像素分割的圖像語義標注方法,其特征在于,每一個 所述特征圖塊經過神經網絡訓練之后,卷積神經網絡輸出的假設函數向量選取為超像素的 特征向量。5. 如權利要求1所述的一種基于超像素分割的圖像語義標注方法,其特征在于:對卷積 神經網絡訓練得到的特征向量進行擴展,增加描述超像素塊的尺度,輪廓的幾何特征;利用 支持向量機模型對擴展之后的特征向量進行了權重處理并輸出標簽概率向量,并將標簽概 率向量作為加權之后的超像素特征向量。6. 如權利要求5所述的一種基于超像素分割的圖像語義標注方法,其特征在于,該方法 采用了超像素塊的面積、周長、最大內切圓心的坐標位置以及轉動慣量用于特征擴展。7. 如權利要求1所述的一種基于超像素分割的圖像語義標注方法,其特征在于:該方法 使用分層分割方法對圖像進行了多層次的超像素分割,得到多層次的超像素特征向量整合 到像素級的條件隨機場模型中,通過最大化后驗邊際概率來求解圖像的標注結果。
【文檔編號】G06K9/62GK106022353SQ201610294528
【公開日】2016年10月12日
【申請日】2016年5月5日
【發明人】劉勇, 劉曉峰
【申請人】浙江大學