專利名稱:一種基于膚色和特征部位聯合檢測的色情圖片識別方法
技術領域:
本發明屬于圖像處理技術領域,具體涉及一種基于膚色和特征部位聯合檢測的色 情圖片識別方法。
背景技術:
據2010年1月我國青少年犯罪學研究會公布的統計資料青少年犯罪案件占到我 國犯罪總量的70%,而青少年犯罪案件的誘因中又有70%是網絡色情或暴力。中國互聯網 絡信息中心2010年1月公布的調查報告顯示截止2009年底,我國網民的32. 9%是19歲 以下的青少年。為了下一代的身心健康,始終保持對網絡色情的高度警惕將是一項長期而 重要的工作。在海量網絡信息中,快速準確地識別色情圖片并將其用來作為打擊犯罪的證據需 要圖像處理技術的有力支持。在各種識別色情圖片的方法中,依據它們的識別對象,大致可 以將其分為兩類膚色檢測和特征部位檢測。在膚色檢測中,最直觀的方法就是依據膚色的顏色范圍來直接判斷膚色區域。 具體來說,就是在各種顏色空間如RGB、YCbCr、HIS等下,從膚色訓練樣本中得到其顏色 的分布區間,然后選擇一個合適的顏色空間和較小的顏色范圍來確定膚色。Vladimir VezhnevetsVassili等人總結了兩大膚色模型一類無參數,指的是貝葉斯模型;另一類有 參數,以高斯函數模型為主,后來還發展出了高斯混合模型及其相應的迭代求解方法。在采 用高斯混合模型來描述膚色性質的研究中,Weiming Hu等人的工作比較具有代表性,其創 新之處在于通過直方圖和對應顏色灰度級的數量來建模,最后得到一系列關于不同高斯概 率密度函數個數的實驗結果。D. A. Forsyth和M. M. Fleck等人提出了基于膚色和紋理的色 情圖片檢測方法,首先是判斷膚色區域,然后通過膚色區域判斷四肢的部位,通過四肢部位 來判斷圖像是否是色情圖像。特征部位如乳頭是判斷色情圖片的重要依據。盡管有很多圖片的膚色面積較大, 卻很有可能是藝術圖像或者是比基尼泳裝圖片。Fuangkhon等人通過對圖像進行預處理, 然后用同構神經網絡來識別特征部位。Yue Wang等人則采用adaboost算法來識別特征部 位,然后通過特征部位的顏色特征來加強對特征部位的識別。除了上文提到的國內外學術研究中只把膚色檢測或者特征部位檢測中的一種用 作識別色情圖片的方法外,現有的發明專利也是如此。比如申請號200410042877. 3的“一 種色情圖像檢測方法”,通過將人臉區域面積與膚色區域面積的比值作為色情圖片的判決 依據;申請號200510048577. 0的“基于內容的網絡色情圖像和不良圖像檢測系統”,采用膚 色檢測以及基于膚色檢測的姿態檢測來識別色情圖片。現有技術的實現效果雖然依賴于具 體的測試樣本集,但是已經能夠做到在相當程度上自動識別色情圖片。然而,在某些應用場景下,比如刑事偵查、法律訴訟等,要求機器所判決的色情圖 片對于人類而言,沒有異議。比如泳裝照片,盡管皮膚裸露的面積較大,但是如果其特征部 位比如乳頭、生殖器等沒有暴露,則不應在執法層面列入偵查或訴訟的證據。現有的色情圖片自動識別技術盡管能夠發現大量疑似色情圖片,但是要從這些疑似色情圖片中篩選出嚴 格意義上能夠在法律上呈堂的色情圖片,仍舊需要大量的人工判讀。
發明內容
本發明的目的就是為了克服上述現有技術中的不足之處,提供一種基于膚色和特 征部位聯合檢測的色情圖片識別方法。該方法能有效降低色情圖片的誤檢率,適用范圍廣, 準確率高。本發明一種基于膚色和特征部位聯合檢測的色情圖片識別方法依次包括以下步 驟(1)樣本訓練的準備階段,用于獲得待檢圖像的識別階段所需的參數;該準備階 段分別圍繞膚色樣本訓練和特征部位(即乳頭,以下文字中,“乳頭”與“特征部位”混用) 樣本訓練展開;(2)讀取待檢圖像;(3)待檢圖像的識別階段,用于根據樣本訓練的準備階段所獲得的參數,對待檢圖 像是否是色情圖片進行判斷,首先進行膚色檢測,然后進行特征部位檢測,如果膚色區域的 面積占整個圖像的1/2以上,且至少出現了 1個特征部位,則該圖片判斷為色情圖片。在上述技術方案中,步驟(1)中的膚色樣本訓練,首先收集足夠數量的膚色樣本, 獲得膚色灰度直方圖,然后通過高斯混合模型來逼近膚色灰度直方圖,采用EM迭代算法 (Entropy Maximization,熵最大化)求出模型參數。在上述技術方案中,步驟(1)中的特征部位樣本訓練,首先收集足夠數量的特征 部位樣本,然后通過Adaboost算法訓練出一個級聯的分類器。在上述技術方案中,所述通過Adaboost算法訓練出一個級聯的分類器級聯數量 在20個以上。在上述技術方案中,步驟(3)中所述的膚色檢測是先將待檢圖像的長、寬分別等 分10份,形成100個單元格,取這些單元格的中心點作為該單元格的代表,如果判定該中 心點是膚色點,那么該中心點所處的單元格即為膚色格;在判定該中心點是否為膚色點時, 將該中心點的灰度值分解到RGB空間中的R、G、B的三個分量上,代入到在準備階段中建立 的高斯混合模型中,獲得其成為膚色點的概率,如果這三個分量都大于其相應的閾值,則判 決該中心點為膚色點,所在的單元格為膚色格;對于劃分的每一個單元格,都重復以上的判 決,從而獲得膚色區域;如果該膚色區域的面積占整個圖像的1/2以上,則繼續進行特征部 位檢測,否則不把該圖像判斷為色情圖片。在上述技術方案中,步驟(3)中所述的特征部位檢測首先運用在準備階段中用 Adaboost算法訓練出來的級聯分類器,對待檢圖像進行初檢,然后對初檢結果按照以下4 個限制條件逐個進行篩查,只要有一個條件不符合,就判定該初檢結果不是特征部位(a)該初檢結果的面積不超過整個圖像的1/100 ;(b)該初檢結果不在人臉上;(c)該初檢結果距離最近的膚色區塊不超過一個塊長(10個像素);(d)該初檢結果的邊緣呈圓形;通過以上4個限制條件篩查的初檢結果稱為終檢結果;如果終檢結果至少有1個,那么整個待檢圖像就被判斷為色情圖片。本發明的有益效果在于能夠有效降低色情圖片的誤檢率,盡可能地避免互聯網上 的正常圖片被攔截,在刑事偵查、法律訴訟等方面為色情圖片證據的有效采集提供技術支 持,有效減少人工判讀的工作量。
圖1為本發明一種基于膚色和特征部位聯合檢測的色情圖片識別方法流程圖。
具體實施例方式本發明一種基于膚色和特征部位聯合檢測的色情圖片識別方法主要分為樣本訓 練的準備階段和待檢圖像的識別階段,下面結合附圖分別對這兩個階段作出說明。一、樣本訓練的準備階段在描述樣本訓練的準備階段的具體實施方式
時,所用到的數學符號及其含義如表 1所示。該準備階段由建立高斯混合模型和采用Adaboost算法訓練分類器(簡稱為“訓練 Adaboost分類器”)兩個進程組成。這個兩進程可以分開同時進行,也可以先后進行。在建 立膚色的高斯混合模型時,我們采集了 660個樣本。在訓練Adaboost分類器時,我們采集 了 402個正樣本(乳頭)和7500個負樣本(不含乳頭)。表1數學符號及其含義 A建立高斯混合模型設膚色樣本的灰度值分布為X= {Xl,X2,...Xn)。由于膚色樣本的灰度值分布通常 出現多個峰值,所以需要采用多個高斯密度函數(高斯混合密度函數,或稱高斯混合模型) 的加權平均來逼近。設高斯密度函數的個數為M,則膚色樣本的灰度值概率密度函數,p(x) 可表示為
其中,g(x;Uk,E k)是第k個高斯概率密度函數,是它的中心點,E k是它的 協方差矩陣,a k是它的加權系數,滿足 通常,Ek可表示為
則第k個高斯概率密度函數可表示為
將上式對各參數進行微分,可以得至 由于X是已發生的事件,因此我們希望找出“和^值,使得?⑴,亦即式⑶最 在(9)式中對參數a k求導得時,因需要考慮⑵式,故引入拉格朗日因子X,并 定義新目標函數為
M
C0057] 令^ = 0,得義 =;^羼0,),k= 1,2,...,M。同時,考慮⑵式,可得A = n,故 現在以(12)、(13)和(14)為基礎,通過迭代的方法,來求解參數向量e = [a17
. 1、設定一個起始參數值
___ A —— ——1萬-(■一 ----- ~2 ~2可以令漢1 = =僅似=—
并使用K-means方式來計算群聚的中心點,以此作為的值。2、使用g來計算 3k(Xi),i = 1,.n。3、把f3k(Xi)代入(12)求得新的U k,記為^。4、把^代入(13)中的Pk,求得新的(^,記為^。5、把k(Xi)代入(14)求得新的a k,記為^。6、令
若|—-列小于某一極小的
容忍值,則停止。否則令否=6>,并跳回步驟2。B訓練Adaboost分類器設二元組(Ci,yi)表示樣本圖片Ci及其正負屬性yi,其中,i = l,2,...,n。如果 樣本Ci是正樣本,則yi記為1 ;否則yi記為0。設正樣本有Lq個,
負樣本有^個。設o
當C,是正樣本時
當是負樣本時
8
訓練Adaboost分類器的方法用Matlab風格的偽代碼如下所示For t = 11T1.歸一化權重 wt(i)
/=12.對于每一特征,專門為其訓練一個弱分類器~ (訓練方法下詳),其分類的誤差 為 3.選擇一個使e j最小的分類器h」,記為ht。4.更新權重 其中,當4被正確分類時,ei = 0,否則,ei = 1 ;且廠End最后,生成的強分類器h(c)是 其中=丨og去 弱分類器hj (c)可表示為 其中,Dj表示不等號的方向可以根據實際情況調整。Sj是特征值fj的閾值。弱分 類器的訓練方法是將樣本的特征值。按升序排列,再將閾值S」設在能讓被分類錯誤的樣 本數量最少的地方。二、待檢圖像的識別階段在膚色檢測中,先將待檢圖像劃分成邊長為10個像素的網格,形成100個單元格。 為了提高膚色檢測的速度,取這些單元格的中心點作為該單元格的代表,也就是說,如果判 定該中心點是膚色點,那么該中心點所處的單元格即為膚色格。在判定該中心點是否為膚 色點時,將該中心點的灰度值分解到RGB空間中的R、G、B的三個分量上,代入到在準備階段 中建立的高斯混合模型中,綜合考慮建模時間和建模精度,本發明所建立的高斯混合模型 的參數如表2所示,獲得其成為膚色點的概率,如果這三個分量都大于其相應的閾值,則判 決該中心點為膚色點,所在的單元格為膚色格。表2高斯混合模型(M = 5)的參數表
對于劃分的每一個單元格,都重復以上的判斷,從而獲得膚色區域,得到該膚色區 域的面積占整個圖像面積的比例S,如果S大于1/2,則繼續進行特征部位檢測,否則不把該 圖像判斷為色情圖片。在特征部位的檢測中,首先運用在準備階段中用Adaboost算法訓練出來的一個 25級的級聯分類器,對待檢圖像進行初檢。然后對初檢結果按照以下4個限制條件逐個進 行篩查,只要有一個條件不符合,就判定該初檢結果不是特征部位1、該初檢結果的面積不超過整個圖像的1/100 ;2、該初檢結果不在人臉上;
在判斷初檢結果是否滿足該限制條件時,首先,采用人臉檢測算法檢測人臉是否 存在,如果不存在人臉,則初檢結果當然不在人臉上,即初檢結果符合該限制條件。如果檢 測出了人臉,則接著判斷該初檢結果的覆蓋區域是否與人臉的覆蓋區域存在重合的部分。 如果重合,則認為初檢結果位于人臉,否則該初檢結果不在人臉上。3、該初檢結果距離最近的膚色區塊不超過一個塊長(10個像素);設置此項限制條件的考慮是排除距離膚色區域很遠的初檢結果。如果這些初檢結 果不在人體皮膚上,自然就不是特征部位了。4、該初檢結果的邊緣呈圓形。如前文所述,本發明專利中的特征部位與乳頭混用,考慮到乳頭周圍存在一圈乳 暈,而這個乳暈的形狀接近圓形。因此可以通過hough變換檢測圓的方法檢測乳暈。所以 如果該初檢結果的邊緣不是圓形,則自然不是特征部位了。通過以上4個限制條件篩查的初檢結果稱為終檢結果,放入終檢集合中,集合的 元素總數為K,初始值為零。如果這時K大于等于1,那么整個圖像就被判斷為色情圖片。綜 上所述,當(S+K)/2 > 1時,整個圖像就被判斷為色情圖片。
權利要求
一種基于膚色和特征部位聯合檢測的色情圖片識別方法,其特征在于該方法依次包括以下步驟(1)樣本訓練的準備階段,用于獲得待檢圖像的識別階段所需的參數;該樣本訓練的準備階段分別圍繞膚色樣本訓練和特征部位樣本訓練展開;(2)讀取待檢圖像;(3)待檢圖像的識別階段,用于根據樣本訓練的準備階段所獲得的參數,對待檢圖像是否是色情圖片進行判斷,首先進行膚色檢測,然后進行特征部位檢測,如果膚色區域的面積占整個圖像的1/2以上,且至少出現了1個特征部位,則該圖片判斷為色情圖片。
2.根據權利要求1所述的基于膚色和特征部位聯合檢測的色情圖片識別方法,其特征 在于步驟(1)中的膚色樣本訓練,首先收集足夠數量的膚色樣本,獲得膚色灰度直方圖, 然后通過高斯混合模型來逼近膚色灰度直方圖,采用EM迭代算法求出模型參數。
3.根據權利要求1所述的基于膚色和特征部位聯合檢測的色情圖片識別方法,其特 征在于步驟(1)中的特征部位樣本訓練,首先收集足夠數量的特征部位樣本,然后通過 Adaboost算法訓練出一個級聯的分類器。
4.根據權利要求3所述的基于膚色和特征部位聯合檢測的色情圖片識別方法,其特征 在于所述通過Adaboost算法訓練出一個級聯的分類器級聯數量在20個以上。
5.根據權利要求1所述的基于膚色和特征部位聯合檢測的色情圖片識別方法,其特征 在于步驟(3)中所述的膚色檢測是先將待檢圖像的長、寬分別等分10份,形成100個單元 格,取這些單元格的中心點作為該單元格的代表,如果判定該中心點是膚色點,那么該中心 點所處的單元格即為膚色格;在判定該中心點是否為膚色點時,將該中心點的灰度值分解 到RGB空間中的R、G、B的三個分量上,代入到在準備階段中建立的高斯混合模型中,獲得其 成為膚色點的概率,如果這三個分量都大于其相應的閾值,則判決該中心點為膚色點,所在 的單元格為膚色格;對于劃分的每一個單元格,都重復以上的判斷,從而獲得膚色區域;如 果該膚色區域的面積占整個圖像的1/2以上,則繼續進行特征部位檢測,否則不把該圖像 判斷為色情圖片。
6.根據權利要求1所述的基于膚色和特征部位聯合檢測的色情圖片識別方法,其特征 在于步驟(3)中所述的特征部位檢測首先運用在準備階段中用Adaboost算法訓練出來的 級聯分類器,對待檢圖像進行初檢,然后對初檢結果按照以下4個限制條件逐個進行篩查, 只要有一個條件不符合,就判定該初檢結果不是特征部位(a)該初檢結果的面積不超過整個圖像的1/100;(b)該初檢結果不在人臉上;(c)該初檢結果距離最近的膚色區塊不超過一個塊長即10個像素;(d)該初檢結果的邊緣呈圓形;通過以上4個限制條件篩查的初檢結果稱為終檢結果;如果終檢結果至少有1個,那么 整個待檢圖像就被判斷為色情圖片。
全文摘要
本發明屬于圖像處理技術領域,提供一種基于膚色和特征部位聯合檢測的色情圖片識別方法,該方法包括以下步驟(1)樣本訓練的準備階段,用于獲得待檢圖像的識別階段所需的參數;該樣本訓練的準備階段分別圍繞膚色樣本訓練和特征部位樣本訓練展開;(2)讀取待檢圖像;(3)待檢圖像的識別階段,用于根據樣本訓練的準備階段所獲得的參數,對待檢圖像是否是色情圖片進行判斷,首先進行膚色檢測,然后進行特征部位檢測,如果膚色區域的面積占整個圖像的1/2以上,且至少出現了1個特征部位,則該圖片判斷為色情圖片。本發明方法的優點在于能有效降低色情圖片的誤檢率,適用范圍廣,準確率高。
文檔編號G06T7/00GK101923652SQ20101023798
公開日2010年12月22日 申請日期2010年7月23日 優先權日2010年7月23日
發明者劉三女牙, 姚華雄, 楊宗凱, 王泰, 陳攀 申請人:華中師范大學