基于模擬人類視覺的機器視覺構建方法
【技術領域】
[0001] 本發明涉及人類視覺構建技術領域,具體地講是一種基于模擬人類視覺的機器視 覺構建方法。
【背景技術】
[0002] 隨著信息技術的發展,計算機視覺已經被廣泛應用于低層特征檢測和描述、模式 識別、人工智能推理和機器學習算法等領域。然而,傳統的計算機視覺方法通常是任務驅動 型,即需要限定許多條件,并根據實際任務來設計相應的算法,缺乏通用性;需要解決高維 非線性特征空間、超大數據量對問題求解和實時處理等問題,使得其研宄和應用面臨巨大 的挑戰。
[0003] 人類視覺系統能夠在不同環境下高效、可靠地工作,其具有以下優點:具有關注 機制、顯著性檢測和與此相關的視覺處理中的選擇性和目的性;能夠從低層視覺處理中利 用先驗知識,使數據驅動的自底向上處理與自頂向下的知識指導在視覺處理中相互協調配 合;上下境信息在視覺處理的各個層次都發揮著重要作用,并且能夠綜合利用環境中各種 模態的信息。但在人類視覺感知機理尚不完全明了的情況下,如何構造具有人類視覺特點 的機器視覺仍存在較大困難,若能夠構建模擬人類視覺的機器視覺系統,必然會給計算機 視覺的各個實際應用領域帶來重要的影響。
【發明內容】
[0004] 有鑒于此,本發明要解決的技術問題是,提供一種能夠模擬人類視覺的機器視覺 構建方法,通過模擬人類主動視覺行為、對目標場景作快速有效注視,實現機器對目標場景 的視覺感知。
[0005] 本發明的技術解決方案是,提供以下步驟的基于模擬人類視覺的機器視覺構建方 法,包括以下各步驟:
[0006] 1)通過頻域法對目標圖像作顯著性檢測,得到相應的像素顯著度圖,所述像素顯 著度圖與所述目標圖像的像素位置信息一致;
[0007] 2)對所述的像素顯著度圖中的顯著點,依據顯著度進行排序;
[0008] 3)選取前N個顯著點作為注視點,以每個注視點為中心,形成信息熵最大的局部 區域,這些局部區域組成注視區域;
[0009] 4)對所述的注視區域內部像素進行隨機采樣,并對注視區域外部進行等量的像素 隨機采樣;采樣得到的注視區域內部像素作為正樣本,注視區域外部像素作為負樣本;
[0010] 5)利用極限學習機訓練策略,訓練得到一個二分類的前饋神經網絡模型,通過該 模型分類所述目標圖像的全部像素,將被分為正樣本的像素區域作為第一注視目標區。
[0011] 采用本發明的方法,與現有技術相比,本發明具有以下優點:通過頻域法進行顯著 性檢測,能夠快速形成像素顯著度圖;依據顯著度排序像素,可粗略定位顯著度高的注視區 域;對該區域內部和外部同時進行少量像素采樣,組成正負樣本數據集訓練前饋神經網絡, 隨后借助該神經網絡分類像素,能獲得顯著度高的、更精確的區域作為第一注視目標區;且 可建立第一注視目標區的基礎上,適當擴大顯著度高的注視區域范圍,再次經神經網絡學 習-分類形成相應的注視目標區,并與第一注視目標區進行比較,以判斷注視目標區是否 穩定。本發明根據人類視覺注視的過程,通過注視點排序和神經網絡模型,來模擬人類視 覺,以構建具有對目標場景快速有效注視的機器視覺。
[0012] 作為改進,選取前N+M個顯著點作為注視點,依照步驟3)形成注視區域,再經步驟 4)和5)得到相應的第二注視目標區;比較第一注視目標區和第二注視目標區的重疊程度, 重疊程度大則表明對目標的視覺感知強度大;重疊程度小則表明還未形成足夠的對目標的 視覺感知強度,繼續重復上述過程,直至達到足夠的視覺感知強度,最終的注視目標區為上 述過程所有注視目標區的疊加。該設計能夠加快視覺感知目標的生成與輸出,并得到更為 穩定的注視目標區,注視的結果更為可靠。
[0013] 作為改進,獲得注視目標區后,在目標圖像和像素顯著度圖中該區域被清零,對更 新后的像素顯著度圖中的顯著點,依據顯著度再次排序,重復步驟3)、4)和5),得到新的注 視目標區,依次獲得圖像中的多個目標區。這樣能夠完成對整幅圖像的有效信息進行注視 識別和讀取,提高注視的準確性和完整度。
[0014] 作為改進,所述的頻域法是指通過超復數傅立葉變換,將彩色圖像中的紅、綠、藍 三個分量作為超復數的三個虛部參與傅立葉變換,只保留相位譜信息,經傅立葉反變換獲 得像素顯著度圖。該設計用于解決現有技術僅能處理黑白圖像識別的問題,有效地針對彩 色圖像相應地改進了頻域法的具體步驟。
【附圖說明】
[0015] 圖1為本發明基于模擬人類視覺的機器視覺構建方法的流程圖。
【具體實施方式】
[0016] 下面就具體實施例對本發明作進一步說明,但本發明并不僅僅限于這些實施例。
[0017] 本發明涵蓋任何在本發明的精髓和范圍上做的替代、修改、等效方法以及方案。為 了使公眾對本發明有徹底的了解,在以下本發明優選實施例中詳細說明了具體的細節,而 對本領域技術人員來說沒有這些細節的描述也可以完全理解本發明。此外,本發明之附圖 中為了示意的需要,并沒有完全精確地按照實際比例繪制,在此予以說明。
[0018] 如圖1所示,本發明的基于模擬人類視覺的機器視覺構建方法,包括以下各步驟:
[0019] 1)通過頻域法對目標圖像作顯著性檢測,得到相應的像素顯著度圖,所述像素顯 著度圖與所述目標圖像的像素位置信息一致;
[0020] 2)對所述的像素顯著度圖中的顯著點,依據顯著度進行排序;
[0021] 3)選取前N個顯著點作為注視點,以每個注視點為中心,形成信息熵最大的局部 區域,這些局部區域組成注視區域;
[0022] 4)對所述的注視區域內部像素進行隨機采樣,并對注視區域外部進行等量的像素 隨機采樣;采樣得到的注視區域內部像素作為正樣本,注視區域外部像素作為負樣本;
[0023] 5)利用極限學習機訓練策略,訓練得到一個二分類的前饋神經網絡模型,通過該 模型分類所述目標圖像的全部像素,將被分為正樣本的像素區域作為第一注視目標區。
[0024] 對于機器視覺構建來說,圖像相當于人類視覺所注視的場景,無論場景大小,在視 網膜上成像的范圍是不變的,因而圖像之于機器之于機器視覺也是如此。
[0025] 通過頻域法對目標圖像作顯著性檢測,可采用以下步驟實施:對待目標圖像I(i, j)進行二維離散傅里葉變換F[I (i,j)],將圖像由空間域轉換到頻域,得到相位P (u,v)信 息:
[0026]
[0027] 式中F表示二維離散傅里葉變換,舛)表示相位運算。將相位信息經傅里葉逆變換 后,可以在空間域得到顯著度圖像Sa_Map。
[0028] Sa_Map(i,j) = | F_1 [exp {jP (u, v)} ] |2 (2)
[0029] 圖1中,涉及訓練數據、分類模型、結果等均為采用極限學習機訓練策略相應實施 過程。具體實施過程如下:
[0030] 極限學習機(ELM)是一種單隱層前饋神經網絡(Single-hidden layer feedforward networks,SLFNs)。對一個給定的訓練樣本集{(XD}: c AW,有L個隱層 結點的SLFNs表示為:
[0032] 其中a 是隱結點與輸入結點的連接參數(內權),內權可獨立于訓練數據的 隨機產生。K( a p bp Xj)是第i個隱結點對應于輸入的輸出項。0 i是第i個隱結點到輸 出結點的連接權值(外權)。如果已知給定的訓練樣本,且已知隨機產生的內權,則K( a ^ bi,xP可計算;公式(3)成為一個線性系統,只有|^是未知項,可通過線性代數方法求解。
[0033] 基于上述原理,在給定訓練集下,單隱層反饋神經網絡的性能完全由其隱層結點 與輸出結點的連接權值(外權)確定,而與輸入端與隱層結點的連接權值、偏移值等(內 權)無關。由此能用數學手段解得關鍵連接權值的解析解而非迭代近似解,從而使得ELM 算法本