專利名稱:基于直覺模糊的色情圖像識別方法
技術領域:
本發明涉及一種色情圖像的識別方法,屬于圖像識別技術領域。
背景技術:
人類社會進入信息時代,信息的快速傳播改變了人類的工作、學習及生活 方式。信息的形式多元化(文本、圖像、語音等);信息的內容也在多元化,在 促進人類社會進步的同時,存在大量的不良信息對社會造成很惡劣的影響,例 如色情圖像信息,是其中傳播最為廣泛、最難控制的一種信息。
隨著國內各部門系統信息化建設工作的不斷推進,為滿足各種工作需要, 網絡中提供的服務不斷增多,這為通過這些服務而進行的違規行為提供了入口, 例如發布色情圖像,如何保障系統內部網絡中信息內容的安全性成為眾多網絡 建設工作的重點之一。另外,互聯網的逐漸普及,使得未成年人對網絡的使用 不斷增多,流傳于網上的色情圖像對未成年人的健康成長危害極大。還有一些 色情圖像在當事人不知情的情況下被記錄,此類圖像的流傳在造成不良社會影 響的同時,對當事人更是具有很深的傷害。
現有的色情圖像識別技術可以分為三類基于URL、基于文本以及基于圖 像內容的識別方式。基于URL的識別算法的準確度受限于URL數據庫,使得識 別具有滯后和不完整的缺點,且維護日益龐大的數據庫工作量太大,無法適應 實時識別的需求。基于文本的識別算法中,很難準確的把握不同上下文環境中 的文本信息,此外對于網絡中大量的不包含敏感文字或文字以圖像方式顯示的 情況無法發揮作用。
基于圖像內容的識別方式,是利用圖像識別技術檢測網頁中的圖像是否包 含色情內容,這種識別方式可以應付多變的情況,是一種更高級、更徹底、更 有效的識別方式,具有廣泛的適應性。從90年代起,國內外對色情圖像的識別 技術作了大量的研究,尤其近十年來取得了不少寶貴的成果。
最早的色情圖像識別系統是U.C.Berkelry的David A. Forsyth等人在1996年 設計的一種裸露人體檢測算法,在皮膚過濾之后,判斷各膚色柱狀體是否能夠 組成人體。1997年Stanford大學的Jame Ze Wang等人設計了 WIPE(Wavelet Image PornographyElimination)系統,從頻率的角度識別圖像的形狀特征,特征匹配之 后得出色情圖像識別結果。1999年Compaq公司與Cambridge研究室的Michael J.Jones和James M. Rehg利用統計方法研究了皮膚的顏色模型,構成有關皮膚像素 的七個特征,并將它用于裸體圖像的檢測。1999年,法國的LTUCLookThatUP) 公司推出的Image-Filter是一款圖像識別和過濾軟件,是用軟件中的DNA計算模 塊模仿人類的視覺系統,用機器學習技術模仿人類大腦的識別功能。2000年英 國Clearswift公司推出的PORNsweeper是一款用于檢測郵件附件中的色情內容的 圖像識別和過濾軟件。2003年,由歐盟資助了開源項目POESIA(Public Open-source Environment for a Safer Internet Access),其中包括過濾網頁色情圖像 的模塊。2003年美國VIMA公司(其前身是Morpho軟件公司)推出的ImageBeagle 是一款用于檢測硬盤和網絡緩存文件中色情圖像軟件。另外,evision公司開發的 EVE(evision visual engine)禾卩Exotrope公司的BAIR(Basic Artificial Intelligence Routine),均可用于色情圖像的識別和過濾。
國內對基于圖像內容的網絡過濾技術的研究比較晚,但國內的一些研究院 和高校在圖像過濾技術方面也作了比較深入的研究,所提出的算法有較高的參 考價值。2000年東北大學軟件中心的許強等人提出了一個基于圖像內容過濾的 智能防火墻系統,該系統利用Daubechies小波和正則中心矩相從圖像中提取輪廓 特征,然后在特征庫中利用距離度量尋找匹配的模式。2002年,中國科學院的 段立娟等人研究的多層次圖像過濾方法在得到圖像的膚色區域的基礎上,利用 SVM的分類方法進行識別分類。中國科技大學的L丄.Cao等人利用LVQ(Leaming Vector Quantization)算法和Adaboost算法對圖像進行分類。2003年中國科學院軟 件研究所的孫慶杰等人提出了一種人體檢測算法,該算法將人體看作由軀千和 四肢構成,用一個四邊形擬合軀干,用一個或者兩個四邊形擬合每個肢體。2004 年,電子科技大學的尹顯東等人研究的特定圖像過濾方法在HS平面能普遍代表 黃種人皮膚顏色的區域,再結合人臉檢測、圖像輪廓、面積等多項特征實現色 情圖像的識別過濾。
在實際應用上,2003年飛濤軟件工作室開發出的護花使者圖像版,采用了 基于圖像內容檢索的算法,可以用于掃描出硬盤中的色情圖像。2004年鄭州金 惠計算機系統工程有限公司推出"金惠反黃專家系統",該系統在皮膚區域分割 的基礎上提取出描述形狀和姿態的特征,將當前圖像與標準色情圖像特征庫中 的圖像進行匹配,從而識別色情圖像。
綜合上述各種識別算法,得出色情圖像的識別主要分為兩種方法,第一種 方法是首先檢測出人體的皮膚區域,在此基礎上識別出人的肢體部分,然后根 據一定的規則將肢體進行組建,進而識別出裸露的人體,但此算法計算量和數 據存儲所需的容量都很大,在實際系統中無法得到很好的應用。第二種方法并不試圖去識別色情圖像中人體的各個肢體部分,它從圖像中提取出一系列能區 分裸體和非裸體圖像的特征量,利用機器學習技術進行裸體圖像的識別。 文獻《基于特征向量的敏感圖像識別技術》(西南交通大學學報.
2007,42(1):13-18)提出的色情圖像識別算法屬于第二種方法,針對現有色情敏 感圖像識別技術的缺陷,提出了基于特征向量的敏感圖像識別技術。算法大致 分為建立樣本圖像庫,訓練樣本圖像,輸入圖像處理和分類處理四個步驟。建 立樣本圖像庫中輸入典型的敏感圖像,構成圖像庫。訓練樣本圖像過程分為特 征提取和特征訓練兩個步驟,特征提取過程采用YIQ彩色坐標系的色度和YUV 彩色坐標系的色調作為皮膚的膚色模型,從敏感圖像的皮膚掩碼圖像中提取與 膚色區域數量和比例等有關的6個特征;特征訓練部分,將提取的特征向量輸入 到SVM( support vector machine)訓練器中,通過多步訓練之后,得出敏感圖像分 類器。輸入圖像處理過程中,對輸入圖像作與樣本圖像相同的特征提取操作。 最后進入圖像分類過程,將由輸入圖像構成的特征輸入到SVM分類器中,根據 分類結果判斷圖像是否為敏感圖像。但該文獻在建立皮膚特征的時候采用確定 性算法,沒有準確的模擬人眼的特征提取過程,圖像特征的描述缺乏完整性, 降低了識別準確度。對于大量的圖像特征,該文獻沒有提出特征優化算法,增 加了計算量,增加了圖像識別時間。
發明內容
為了解決現有色情圖像識別方法中存在的問題,增加識別準確度,減少識 別時間,本發明提出了 一種基于直覺模糊的色情圖像識別方法。
本發明所提出的色情圖像識別方法大致分為兩個部分, 一部分對樣本圖像 進行特征提取、優化及訓練,此部分可以在識別圖像之前離線處理,以節省識 別運算時間;另一部分用于對待識別圖像進行特征提取及優化處理;兩部分得 出的數據輸入到神經網絡中進行分類處理,得出識別結果。
本發明的方法具體包括以下步驟
第一步建立樣本圖像庫;
第二步對樣本圖像進行特征提取;
第三步對樣本圖像所提取的特征進行訓練,形成色情圖像分類器; 第四步對待識別圖像進行特征提取;
第五步將待識別圖像特征輸入到色情圖像分類器,得出識別結果。本發明提出的色情圖像識別方法的圖像特征采用由確定數值、模糊數值及 直覺模糊數值共同構成的顏色直方圖特征向量,該向量通過以下步驟得到 1)提取圖像的確定性特征
將圖像中所有像素顏色映射到HSV空間中的w種顏色,若圖像/包含7V個 像素,則確定性顏色特征表示成C-[c,,C2,…cvf , c,:A^/7V表示圖像中所有像 素屬于第/個顏色值的概率,iV,表示屬于第/個顏色值的像素總體數量;根據概 率理論
巧是從圖像/中選擇像素能夠選擇到第乂個像素的概率,即1/W, 4是第乂 義為-
個像素屬于第/個顏色值的條件概率;在確定性顏色直方圖(CCH)中,/^.定
p ={1,第j個像素被量化成第i個顏色值 2)增加圖像的模糊特征
圖像/的模糊顏色直方圖(FCH)表達為尸(/)=[/;,/2,.../ :
利用FCM聚類技術將圖像中像素重新聚類到HSV中的"種顏色,每一種聚 類表示一個FCH值;圖像中像素對于一個FCH值的隸屬度通過精確顏色相對于 模糊顏色值的隸屬度來表示,僅計算此隸屬度一次,以隸屬度矩陣形式表示 M = [,],, w々.是y個精確顏色值分布于第/個模糊顏色值的隸屬度;圖像的 FCH值F xl直接從CCH的Cwl計算出來,
FCM最小化一個目標函數^,它是每一組方差權重的總合,定義如下
^(C/,『;X) = tt《|h-H|2 l<m<w (4)
/t=l !'=1 力
A表示像素的精確顏色,聚類中心VV,.表示模糊顏色,t^是顏色&相對于聚
類中心w,.的隸屬度;由于HSV空間中的表達形式,內積lx「wf替代為k-W,||2, 即精確顏色A和聚類中心vv,.之間的歐氏距離,權重指數m控制著模糊聚類成員 間共享的程度;通過計算得到FCM的模糊聚類結果t/^^],,即(3)式中需對于所有的z'和A以及m〉1,如果| -—| 〉0,那么^在(C/,『)處被最小
<formula>formula see original document page 10</formula>另外,根據(8)式可知存在特殊的顏色值,即^.=0的時候,猶豫度達到 最大值;r/^,這種特殊的巧計算如(10)式
巧max-卜乂 (10)
此式描述了圖像中的像素屬于第/個顏色值的猶豫度隨著隸屬度的增加而
減少的性質,通過(11)式滿足(10)式的限制條件,
w(l一,) (11)聯合(9)式和(11)式得出圖像/中所有像素對于第/個顏色值的猶豫度計 算公式,
"I
max'
"1}
(i一,O
(12)
根據已經求得的C^和F^,其中相對應的元素分別利用(12)式進行計算, 得出猶豫度矩陣//。^
圖像/中所有像素的顏色特征向量( ,可以表示成(13)式,其中三個參數分 別表示圖像/相對于顏色直方圖中第/個顏色值的確定性概率、模糊隸屬度以及 直覺模糊猶豫度。
^ = (13) 即一張圖像的顏色特征可以表達為特征矩陣形式, …c
.../" (14)
本發明的方法還包括采用遺傳算法對圖像特征進行特征優化的步驟。 使用本發明的方法,可以增加圖像識別的準確度,并減少識別時間。 本發明的具體實施過程和優點將在具體實施方式
部分進行進一步闡述。
圖l為色情圖像識別方法的總體流程圖.
圖2為直覺模糊特征提取流程圖。 圖3為特征優化流程圖
具體實施例方式
本發明提出的色情圖像識別方法具體實現過程如圖l所示,包括以下步驟
1、 建立樣本圖像庫。
通過調研,建立色情圖像識別系統中的樣本圖像庫,為了提高識別準確度, 數據庫中需要盡可能多的包含各種裸露關鍵部位的色情圖像,另外還有各種典 型的正常圖像(動物、植物、景物及人物生活照)。
2、 對樣本圖像進行特征提取
3cf3 r「
cl力工
Iii顏色是圖像中最基礎、最穩定的特征,且已經足以充分準確的表達色情圖 像內容。如果加入形狀等其他特征,增加了計算量,且由于形狀識別的不成熟 性使得準確度方面不能得到很大的提高。顏色特征提取的實現流程如圖2所示。 現有技術中一般使用確定性特征,本方法通過增加模糊特征和直覺模糊特征, 使圖像特征的描述更完整,增加了圖像識別的準確度。
1) 提取圖像的確定性特征
對其中每一張圖像作提取特征向量的操作。計算過程采用HSV顏色空間中
的顏色值,通過將圖像中所有像素顏色映射到HSV空間中的w種顏色(直方圖的 打位,例如"=20 )來執行量化過程。根據現有色情圖像的特點,"種顏色確
定為黃種和白種人人體的皮膚顏色、頭發顏色、各類胸部中乳頭顏色及私處部 位的顏色。
將顏色直方圖看成為從概率觀點出發的顏色分布。若圖像/包含iV個像素,
則確定性顏色特征表示成<:=|>1^2,..^;^ , 。=乂./〃表示圖像中所有像素屬于
第/個顏色值的概率,M表示屬于第/個顏色值的像素總體數量。根據概率理論
。I;v;4e4 。)
_/=1 產l
^是從圖像/中選擇像素能夠選擇到第)個像素的概率,即W,巧,.是第乂
個像素屬于第/個顏色值的條件概率。在確定性顏色直方圖(CCH)中,i^.定 義為
p,第j個像素被量化成第i個顏色值
=io, 否則 。)
2) 增加圖像的模糊特征
利用模糊理論對確定性直方圖的i^.進行修改,構成圖像像素的模糊顏色直 方圖(FCH),認為圖像/中所有iV個像素的任何一個都相關于所有w個顏色值,
且第/個像素對于第/個顏色值的"屬于"程度取決于第y個像素對于第z'個顏色
值的隸屬度。圖像/的FCH表達為F(/)^力,/2,…/J。
利用FCM聚類技術將圖像中像素重新聚類到HSV中的n種顏色,每一種聚 類表示一個FCH值。圖像中像素對于一個FCH值的隸屬度通過精確顏色相對于 模糊顏色值的隸屬度來表示。僅計算此隸屬度一次,以隸屬度矩陣形式表示 M = [,],, /^.是y'個精確顏色值分布于第Z個模糊顏色值的隸屬度。圖像的 FCH值F xl直接從CCH的C xl計算出來,<formula>formula see original document page 13</formula>
(3)
FCM最小化一個目標函數^,它是每一組方差權重的總合,定義如下
<formula>formula see original document page 13</formula> (4)
A表示像素的精確顏色,聚類中心w,.表示模糊顏色,"&是顏色A相對于聚 類中心vv,.的隸屬度。由于HSV空間中的表達形式,內積h-替代為h-w,.|2, 即精確顏色^和聚類中心w,.之間的歐氏距離,權重指數m控制著模糊聚類成員 間共享的程度。通過計算得到FCM的模糊聚類結果t/= 即(3)式中需
要的M,。
<formula>formula see original document page 13</formula>(5)
對于所有的z'和A:以及m〉1,如果h-w,l >0,那么^在(L/,『)處被最/J
<formula>formula see original document page 13</formula>(6)
<formula>formula see original document page 13</formula>(7)
等式(6)和(7)通過反復執行下面的步驟得出近似結果 Stepl:輸入模糊顏色值的種類數量",權重指數m及誤差容忍程度^ ; Step2:初始化聚類中心w〃 Step3:輸入數據7 = {;^,乂2,...;<: 卜
Step4:通過(6)式計算聚類中心{—')}; (/表示重復次數) Step5:通過(7)式更新^);
St印6:如果||1/(/)-"(/—D卜e, / = /+1,則跳回Step4;否則跳出得結果。 3)增加圖像的直覺模糊特征
采用直覺模糊集理論的非-隸屬度函數進一步完善顏色特征表達,引入直覺 模糊集概念,在模糊顏色特征的基礎上添加特征的猶豫程度,產生一個W^,
""xi+i,巧,…""]。
<formula>formula see original document page 13</formula> (8)v,是圖像中的像素不屬于第f個顏色值的隸屬度。
比較模糊顏色直方圖和確定性顏色直方圖,發現在模糊量化過程中存在一 些噪聲。這類噪聲可通過直覺指數進行消除。通過噪聲的起源,可知圖像中像 素的顏色猶豫度正比于確定顏色值和模糊顏色值之差。
max'
(9)
另外,根據(8)式可知存在特殊的顏色值,即v,二0的時候,猶豫度達到
最大值巧,,這種特殊的;r,.計算如(10)式。
巧max-i一乂 (10)
此式描述了圖像中的像素屬于第/個顏色值的猶豫度隨著隸屬度的增加而 減少的性質,通過(11)式滿足(10)式的限制條件,
5^(1—乂) (11) 聯合(9)式和(11)式得出圖像/中所有像素對于第/個顏色值的猶豫度計
算公式,
—力l
工-一
max《lc
(12)
顯然巧在[O, l]區間內,符合巧的定義。根據前文中求得的C^和尸^,其中 相對應的元素分別利用(12)式進行計算,得出猶豫度矩陣i/^。
綜合上述的圖像顏色特征表達方式及計算方法,圖像/中所有像素的顏色特 征向量^可以表示成(13)式,其中三個參數分別表示圖像/相對于顏色直方圖 中第/個顏色值的確定性概率、模糊隸屬度以及直覺模糊猶豫度。
^=(。.,力,巧) (13)
因此, 一張圖像的顏色特征可以表達為特征矩陣形式,
(14)
3、使用遺傳算法對圖像特征進行優化
在圖像特征優化部分采用遺傳算法,并將圖像特征提取部分融入到遺傳算 法的編碼過程。如圖3所示。
2f2 r,
cl力"1
II
14按照遺傳算法對(14)式表達的圖像特征進行特征編碼、選擇、交叉和變 異操作,得出有效特征。 1 )特征編碼
首先確定圖像被分割的區域數目,若圖像像素為M/^A^,則分割的區域數 r<A^。各區域可以看成是原圖像的子圖像,直方圖位被看成是大量的基因。基
因通過一個整數表達,這些整數說明了一個區域內的像素針對某一顏色的顏色 特征。將這些區域組合在一起形成關于此圖像的一個染色體,每一個區域的顏 色直方圖有"位顏色,構造的染色體《如下,《是第/t個區域的第g位顏色的確 定性概率,/^是第A個區域的第g位顏色的模糊隸屬度,《是第A個區域的第g 位顏色的直覺模糊猶豫度,
<formula>formula see original document page 15</formula> (15)
一個染色體《就是各個區域可能的一種組合情況,每一個組合是查詢空間 中的一種候選解答方法。對于W個區域,就有7V!種可能的區域的聯合。因此, 一張圖像的染色體形成的種群如下其中/ = 1,2,..."—w&, w&是種群數量。
<formula>formula see original document page 15</formula> (16)
2)特征選擇
采用遺傳算法中輪盤賭選擇作為特征選擇方法。每一個染色體占據虛擬輪 盤中的一個扇區,而染色體占據的扇區的面積正比于適應度值。高適應度值的 染色體占據的扇型面積大,而低適應度的染色體占據的扇形面積小。某個染色 體個體A,其適應度為《,也就是圖像相似度。對于通過人感官判斷,內容相 似的兩張圖像,利用^^函數計算出它們針對一個染色體的特征距離,《與^^ 之間為相反關系。
<formula>formula see original document page 15</formula> (17)
dW函數由(18)式計算得出,d&結果越大,則說明此染色體適應性越差, 在下面的檢索中該染色體的作用越小,越應該排除,否則該染色體應該留下。 選擇巧數值最大的染色體作為優化后的特征向量;
<formula>formula see original document page 15</formula> (18)
其中w(。), w(力),w(巧)的計算分別如下,2 4 t《x力 &x
——,—力)=^——,w(。)二^—— (19)
IX W
a=i a=i a=i
《表示圖像中第"位顏色在直方圖中的編號,而4, /j, ^分別表示第a位 顏色上的確定性顏色值,模糊顏色值以及直覺模糊顏色值。 3)特征交叉及變異
采用一點交叉,也叫簡單交叉,從個體中隨機設定一個交叉點,實行交叉 的時候,該點前或后的兩個個體的部分結構進行交換,并生成新個體。種群是 圖像中區域各種組合的聯合,每一個區域中含有一些基因(直方圖顏色位)來 表達顏色特征。此操作允許在區域組合方面有一些調整,某些區域在某個染色 體中可能重復出現,或者不出現,來說明了圖像庫中更加多樣的區域組合方式。 通過交叉,慢慢的獲得滿足用戶要求的更好的染色體。具體實現步驟為,在通 過選擇得到的優化特征向量中,隨機選取一個特征值,對于特征值的左右兩邊 的數據作交叉處理,即前一個區域所有的特征值和后一個區域所有的特征值交 換,從而得出特征交叉之后的結果。
預先定義變異率(例如0.1),選取特征向量中的最大值,在選擇點上, 比較所選擇點的兩邊數值,較小的值增加變異率數值而較大的值減少變異率。
4、基于神經網絡的圖像特征訓練
圖像樣本庫中的圖像經過特征提取和優化處理進入訓練模塊。特征訓練模 塊采用神經網絡實現,目前比較成熟的神經網絡均可以應用于色情圖像識別的 特征訓練部分,例如SVM分類器,Adaboost分類器,C4.5分類樹等,本算法中采 用對樣本數據有100。/。分類準確度的FP (ForwardPropagation)神經網絡實現。
特征之間的距離是建立FP網絡的基礎,本發明中加入了權重參數,以圖像 特征矩陣形式為基礎,由色情圖像特征與色情語義間的映射關系構建加權距離 公式。權重系數根據色情圖像中包含的理想顏色分布情況,通過BP (Back Propagation)網絡訓練得到。BP網絡的輸入為樣本圖像顏色特征矩陣,理想輸 出為色情圖像中理想的顏色特征分布矩陣,對權重矩陣賦初始值之后開始計算。 得出的距離權重有如下形式,
Wc2
w =..
(20)X1表達的圖像與X2表達的圖像之間的特征權重距離公式如下, D(X1,X2)=《i>d「X2c,)2 +,(11為,12為.)2 -X2^.)2]嚴(21)
/=1戶l
單個神經元是以特征空間中某個特征向量為圓心,以某個常數為半徑的"球 形鄰域"的形式。神經網絡是由多個結構相同的色情圖像樣本特征"球形"神 經元構成,在此球形鄰域之外的圖像為非色情的正常圖像。
通過對圖像樣本特征庫中色情圖像和正常圖像的特征學習構建球形鄰域。 設色情圖像樣本特征庫尸om = {XPpXP^.XPJ ,正常圖像樣本特征庫 A^7W^XNpXN2…XNJ, m和A:分別為兩個特征庫中的樣本數量。通過特征 庫建立由m個球形鄰域構成的FP神經網絡((C,.,7 ,", q.為球心,《.為相應的半 徑,具體步驟如下,
Stepl:為色情圖像樣本特征庫中各樣本建立標記位,Ftog-(), FP神經網絡 ((C,.,《.》初始化為零。
Step2:從色情圖像樣本特征庫中選取尸/^為0的特征,若沒有,則退出。若 有,則選取其一,從Step3開始構建球形鄰域,同時F/。g-l。
Step3:令《h = ,"(Z)(XP,.,XN》1 乂 ,表示該色情樣本到正常樣本庫
各樣本的最小距離;t/醒-^rx(Z)(XPi,XP》lye[l,m],i^g-0〉,表示該色情樣 本到其他未訓練的色情樣本I^最大距離。
Step4:如果《,《狀,則取"d+。/2,否則取"=^—0<;1<1。
Step5:增加一個球形(C,XP,.,^吋),跳轉到Step2。
反復執行多次之后得出色情圖像分類的FP神經網絡。
5、 對待識別圖像執行步驟2和步驟3中的特征提取和特征優化過程。
6、 基于神經網絡的圖像分類
色情圖像分類過程的關鍵在于求出待識別圖像到FP網絡各球形鄰域的最近 距離。輸入本地文件夾中的待識別圖像,經過2和3步驟中的特征提取和特征優 化過程,將優化得出的圖像特征向量輸入到4步驟中的FP神經網絡中。對圖像的 特征XD,.,判斷是否存在(^,A),使ZXXDi,C》^i^,即XD,能夠被球形鄰域 (q.,A)覆蓋,若存在此球形鄰域則認為該特征對應的圖像為色情圖像;否則, 認為是正常圖像。
權利要求
1、一種基于直覺模糊的色情圖像識別方法,包括以下步驟第一步建立樣本圖像庫;第二步對樣本圖像進行特征提取;第三步對樣本圖像所提取的特征進行訓練,形成色情圖像分類器;第四步對待識別圖像進行特征提取;第五步將待識別圖像特征輸入到色情圖像分類器,得出識別結果;其特征在于特征提取時使用的圖像特征為由確定數值和模糊數值及直覺模糊數值共同構成的顏色直方圖特征向量,該向量通過以下步驟得到1)提取圖像的確定性特征將圖像中所有像素顏色映射到HSV空間中的n種顏色,若圖像I包含N個像素,則確定性顏色特征表示成C=[c1,c2,...cn]T,ci=Ni/N表示圖像中所有像素屬于第i個顏色值的概率,Ni表示屬于第i個顏色值的像素總體數量;根據概率理論Pj是從圖像I中選擇像素能夠選擇到第j個像素的概率,即1/N,Pi|j是第j個像素屬于第i個顏色值的條件概率;在確定性顏色直方圖(CCH)中,Pi|j定義為2)增加圖像的模糊特征圖像I的模糊顏色直方圖(FCH)表達為F(I)=[f1,f2,...fn]T;利用FCM聚類技術將圖像中像素重新聚類到HSV中的n種顏色,每一種聚類表示一個FCH值;圖像中像素對于一個FCH值的隸屬度通過精確顏色相對于模糊顏色值的隸屬度來表示,僅計算此隸屬度一次,以隸屬度矩陣形式表示M=[mij]n×n,mij是j個精確顏色值分布于第i個模糊顏色值的隸屬度;圖像的FCH值Fn×1直接從CCH的Cn×1計算出來,Fn×1=Mn×nCn×1FCM最小化一個目標函數Jm,它是每一組方差權重的總合,定義如下xk表示像素的精確顏色,聚類中心wi表示模糊顏色,uik是顏色xk相對于聚類中心wi的隸屬度;由于HSV空間中的表達形式,內積替代為‖xk-wi‖2,即精確顏色xk和聚類中心wi之間的歐氏距離,權重指數m控制著模糊聚類成員間共享的程度;通過計算得到FCM的模糊聚類結果U=[uik]n×n,即(3)式中需要的Mn×n;Mn×n=Un×n (5)對于所有的i和k以及m>1,如果‖xk-wi‖>0,那么Jm在(U,W)處被最小化,1≤i≤c以及1≤k≤n等式(6)和(7)通過反復執行下面的步驟得出近似結果Step1輸入模糊顏色值的種類數量n,權重指數m及誤差容忍程度ε;Step2初始化聚類中心wi,1≤i≤c;Step3輸入數據X={x1,x2,...xn};Step4通過(6)式計算聚類中心(l表示重復次數)Step5通過(7)式更新U(l);Step6如果‖U(l)-U(l-1)‖>ε,l=l+1,則跳回Step4;否則跳出得結果;3)增加圖像的直覺模糊特征在模糊顏色特征的基礎上添加特征的猶豫程度,產生一個Hn×1,Hn×1=[π1,π2,...πn]T;πi=1-fi-vi,0≤πi≤1 (8)vi是圖像中的像素不屬于第i個顏色值的隸屬度;另外,根據(8)式可知存在特殊的顏色值,即vi=0的時候,猶豫度達到最大值這種特殊的πi計算如(10)式此式描述了圖像中的像素屬于第i個顏色值的猶豫度隨著隸屬度的增加而減少的性質,通過(11)式滿足(10)式的限制條件,πi∝(1-fi) (11)聯合(9)式和(11)式得出圖像I中所有像素對于第i個顏色值的猶豫度計算公式,根據已經求得的Cn×1和Fn×1,其中相對應的元素分別利用(12)式進行計算,得出猶豫度矩陣Hn×1;圖像I中所有像素的顏色特征向量<overscore>C</overscore>i可以表示成(13)式,其中三個參數分別表示圖像I相對于顏色直方圖中第i個顏色值的確定性概率、模糊隸屬度以及直覺模糊猶豫度;<overscore>C</overscore>i=(ci,fi,πi)(13)即一張圖像的顏色特征可以表達為以下特征矩陣形式
2、根據權利要求l所述的一種基于直覺模糊的色情圖像識別方法,其特征 在于在對樣本圖像和待識別圖像進行特征提取的步驟之后,還包括采用遺傳 算法對提取的圖像特征進行優化的步驟,包括1)特征編碼首先確定圖像被分割的區域數目,若圖像像素為MpxiVp,則分割的區域數 r<7V/7;各區域組合在一起形成關于此圖像的一個染色體,每一個區域的顏色直 方圖有"位顏色,構造的染色體《.如下,《是第A:個區域的第g位顏色的確定性 概率,//是第A個區域的第g位顏色的模糊隸屬度,《是第A個區域的第g位顏 色的直覺模糊猶豫度, <formula>formula see original document page 4</formula>一個染色體&就是各個區域可能的一種組合情況,每一個組合是查詢空間中的一種候選解答方法;對于W個區域,就有iV!種可能的區域的聯合;因此, 一張圖像的染色體形成的種群如下其中/ = 1,2,..."—w'ze, w—w&是種群數量; 尸 2,...《.}2) 特征選擇某個染色體個體a,其適應度為巧,也就是圖像相似度,利用^^函數計算 出兩張圖像針對一個染色體的特征距離,巧與^'W之間為相反關系i^:l-而/(/A) (17)A'W函數由(18)式計算得出,^^/結果越大,則說明此染色體適應性越差,在下面的檢索中該染色體的作用越小,越應該排除,否則該染色體應該留下; 選擇《數值最大的染色體作為優化后的特征向量;淑(l,々)=力h々)-M<c,5) i+力w(y^) - ) |+力| w(々)-), (丄8)' =1 /=1 !'=1其中w(c,), </;), vK^.)的計算分別如下,1>X力W 1>X 一)=^4——'</;.)=^——'一)=^—— (19)i:力 IXa=l fl=l cr=l《表示圖像中第"位顏色在直方圖中的編號,而《,/j,《分別表示第"位顏色上的確定性顏色值,模糊顏色值以及直覺模糊顏色值;3) 特征交叉及變異在通過選擇得到的優化特征向量中,隨機選取一個特征值,對于特征值的 左右兩邊的數據作交叉處理,即前一個區域所有的特征值和后一個區域所有的 特征值交換,從而得出特征交叉之后的結果;預先定義變異率,選取特征向量中的最大值,在選擇點上,比較所選擇點 的兩邊數值,較小的值增加變異率數值而較大的值減少變異率數值。
全文摘要
本發明涉及一種色情圖像的識別方法,包括以下步驟第一步建立樣本圖像庫;第二步對樣本圖像進行特征提取;第三步對樣本圖像所提取的特征進行訓練,形成色情圖像分類器;第四步對待識別圖像進行特征提取;第五步將待識別圖像特征輸入到色情圖像分類器,得出識別結果。本發明中的圖像特征采用由確定數值、模糊數值及直覺模糊數值共同構成的顏色直方圖特征向量;本發明還包括采用遺傳算法對圖像特征進行特征優化的步驟。使用本發明的方法,可以增加圖像識別的準確度,并減少識別時間。
文檔編號G06K9/00GK101447020SQ20081018323
公開日2009年6月3日 申請日期2008年12月12日 優先權日2008年12月12日
發明者姚淑萍, 王瀟茵, 胡昌振 申請人:北京理工大學