基于卷積神經網絡的快速目標檢測方法
【技術領域】
[0001] 本發明涉及計算機視覺技術,具體是涉及一種基于卷積神經網絡的快速目標檢測 方法。
【背景技術】
[0002] 人類感知世界的一個重要來源就是通過圖像信息,研宄表明,人類獲取外界信息 中大約有80%?90%的信息來自于人類眼睛獲取的圖像信息。人類對外界圖像信息感知 能力很高,可以快速定位目標和分析目標。計算機要具有強大的視覺感知和理解能力,就應 該具備類似人類強大的目標檢測和識別能力。目標檢測是視覺感知和目標理解的一個很重 要的前提工作,目標獲取的效率和精度決定著視覺感知的速度和效果。一旦計算機具備類 似人類強大的目標檢測盒感知能力,就可以更好的在各行業替代人力工作,大大節約生產 成本。另外它對日常智能服務行業也提供了強大的支撐。因此,對計算機視覺中的目標檢 測技術進行深入研宄,不斷提高檢測的準確率,具有重要的現實意義。
[0003] 目前學術界中解決這兩個問題的發展趨勢是從使用啟發式方法到使用機器學習 的方法。所用特征也從手工特征轉向基于任務自適應提取的特征。目標檢測和識別的模 型也開始出現從單一特定目標檢測和識別到多目標檢測和識別同時進行的功能轉變。最 典型的例子就是深度學習模的出現,解決了傳統目標檢測和識別的模型只針對有限任務的 目標檢測和識別任務有效的問題。比如,在2001年,Viola-Jone提出的正面人臉檢測框架 基于Harr特征對人臉檢測相當有效,但是對于側臉人臉以及行人檢測效果不是太好。直 到2005年,Dalai等人提出HOG特征并且使用SVM對每個平滑窗對應的HOG (Histogram of Gradient)特征進行分類的策略后,垂直行人檢測效果才有了一個質的突破。然而,HOG這 一手工特征,對于圖像分類和識別以及任意姿態的行人、動物、植物等目標的檢測效果并不 令人滿意。接著形變模型(^Deformable Part Models:DPM)應運而生解決有形變的目標檢 測問題。形變模型雖然試著解決因形變導致目標檢測不到的問題,但是其模型中需要的形 變部件現實中很難理想的捕獲到,原因就沒有一個好的模型和好的特征來識別部件,因此 它在多類目標檢測數據集(PASCAL VOC,ImageNet)上效果并不是太好。最近的一個突破性 工作是深度學習模型的出現。在最大的圖像分類和目標檢測數據集ImageNet上,基于深度 學習t旲型之一卷積神經網絡(CNN)做的目標檢測和識別精度的提尚更是超過以往最尚精 度一倍之多。最近兩年ImageNet數據集分類和檢測性能出眾的算法幾乎全部采用卷積神 經網絡,不同的它們的網絡結構不同。目前ImageNet數據集上圖像分類和目標檢測最高的 精度分別為95 %和55%。
[0004] 盡管基于卷積神經網絡的方法在目標檢測和識別上提高了很高的精度,但是由于 卷積神經網絡網絡復雜且計算量大,應用在目標檢測上效率并不是很高,目前很多方法都 是基于GPU來對目標檢測程序進行加速。給定一張目標圖像,使用平滑窗策略做目標檢測, 即使采用GPU加速,其算法復雜度仍然很大,效率極低。為了解決卷積神經網絡在目標檢測 上的效率問題,目前學術界主流的解決方案可以分為三類。第一類是基于圖割的方法,先對 給定圖像進行圖像分割,通過分割塊得到一些潛在的目標區域。然后用卷積神經網絡對這 些目標區域進行特征提取和分類,最終得到目標的位置。這種方法的缺點就是很依賴于圖 像分割的好壞。第二類是通過卷積神經網絡對原始圖像提取特征,然后在特征圖上用平滑 窗策略做目標位置的回歸和目標的分類。這種方法在利用卷積神經網絡對大圖提取特征 時,會丟失一些對分類和回歸有用的特征信息,因此最后的模型的性能無法達到最優。第三 類方法則是用卷積神經網絡分類的優勢來尋找部件,進而構建形變模型,采用形變模型的 思想對目標做檢測。但是這種把卷積神經網絡的分類和形變模型中的目標檢測分開執行的 做法,使得整體框架的檢測效果不是很出眾,另外這種模型的效率也不是很高。
【發明內容】
[0005] 本發明的目的在于提出一種基于卷積神經網絡的快速目標檢測方法。
[0006] 本發明包括以下步驟:
[0007] A)準備訓練樣本集(Xi,yi),i = 1,……,N,N為訓練樣本數,N為自然數,\表 示訓練樣本對應的固定大小的圖像,包含目標且目標充滿畫幅的圖像是正樣本,其他圖像 是負樣本%表示樣本類別向量:
[0008]
【主權項】
1.基于卷積神經網絡的快速目標檢測方法,其特征在于包括以下步驟: A) 準備訓練樣本集(Xi,yi),i= 1,……,N,N為訓練樣本數,N為自然數,Xi表示訓 練樣本對應的固定大小的圖像,包含目標且目標充滿畫幅的圖像是正樣本,其他圖像是負 樣本;yi表示樣本類別向量:
B) 將所有訓練樣本分m批,將m-2批樣本放進設計的卷積神經網絡里用反向傳播算法 訓練,2批樣本用于測試,所述卷積神經網絡包含卷積層、最大池化層和局部對比歸一化層 三個成分,這三個成分扮演非線性函數的功能,目的是把位于流形上的原始圖像映射到歐 式空間,卷積的激活函數采用非線性校正單元,設計好包含這三個成分的網絡結構模型后, 用反向傳播算法訓練對模型進行訓練,得到參數W; C) 提取步驟B)中的訓練好的參數W,采用擴展圖的方式解決卷積神經網絡中最大池化 丟失信息的問題,給定測試圖像,針對2X2的卷積核中每個偏移,都保存一個對應的特征 圖,稱為擴展圖;對于每一層max-pooling核大小為K,整個卷積神經網絡有p層,擴展之后 每個最大池化的下采樣層特征圖數目擴展至2K倍,整個網絡擴展到〇 = (2K)1*,然后把參 數W用于任意大小的待檢測圖像,獲取全連接前的擴展特征圖,稱它為判別完備特征;給定 輸入圖像X,已訓練好的濾波器組K和偏移b,卷積層的輸出寫成公式一的形式: