基于改進詞袋模型的不良圖像檢測方法
【技術領域】
[0001] 本發明屬于模式識別與計算機視覺的交叉領域,特別涉及結合顏色統計先驗和詞 袋模型的不良圖像檢測方法,可用于過濾色情圖像。
【背景技術】
[0002] 隨著互聯網及無線通信技術的發展,人們更加易于從網上獲取大量的有用信息, 但是淫穢、色情等不良信息也得以迅速傳播。色情圖像的傳播干擾用戶體驗正常的網絡信 息服務,引起嚴重的社會問題。因此,亟需魯棒的不良圖像信息過濾技術。
[0003] 由于彩色不良圖像中通常含有大量裸露的膚色區域或者人體敏感器官,常用的不 良信息檢測方法通過分析能反映這些特點的感興趣區域來過濾不良圖像,如在YCbCr空間 采用高斯混合模型對膚色進行建模,通過膚色模型提取膚色區域,分析膚色區域中的低層 特征來判定該區域是否包含不良信息。中科院自動化所的Hu等在文獻"W. Hu,H. Zuo, 0. Wuj Y. Chen, Z. Zhang and D. Suter. Recognition of adult images, videos, and web page bags. ACM Transactions on Multimedia Computing, Communications and Applications, vol. 7, no. 28, pp. 1-24, 2011. "中采用基于AdaBoost的人體敏感器官檢測器,并結合膚色區 域的低層特征表示來判斷圖像的性質,此方法的不足在于傳統顏色描述方法所描述的信息 不豐富。
[0004] 由于不良圖像的定義有較強的語義特性,基于詞袋模型方法因其在語義描述上的 優勢成為不良圖像檢測極具潛力的發展方向之一。常用的基于詞袋模型的不良圖像檢測 方法首先提取圖像的膚色區域,然后在膚色區域提取關鍵特征點,對這些特征點的尺度不 變變換特征SIFT類得到詞典,將圖像表示成詞典中的視覺單詞的直方圖,從而基于圖像的 直方圖訓練不良圖像檢測器。鑒于不良圖像中人體的敏感器官常包含非膚色區域,膚色檢 測方法往往漏檢這部分信息,從而導致對不良信息判定起決定作用的一些特征點丟失。為 避免這種情況的出現,可在用詞袋模型表示圖像的局部特征時考慮融合顏色和梯度信息。 如德國人工智能研宄中心Ulges等在文獻"A. Ulges, A. Stahl. Automatic detection of child pornography using color visual words. In IEEE International Conference on Multimedia and Expo, pp. 1-6, Barcelona, Jul. 2011. "中在 YUV 顏色空間的亮度 Y、紅色差 U、藍色差V通道中分別使用DCT描述子作為圖像的局部特征。用這種特征融合方式構建詞 典時,顏色或梯度任一種特征的變化均需要不同的單詞來表示,因此在描述不良圖像時需 要較大的詞典規模,從而使得不良圖像的表示更復雜,且在分類過程易出現過擬合問題。中 國科學院劉毅志等在文獻"劉毅志,楊穎,唐勝,林守勛.基于視覺注意模型VAMI的敏 感圖像檢測方法.中國圖象圖形學報,vol. 16, no. 7, pp. 1226-1233,2011. "中采用基于加 速穩健特征的詞袋模型結合全局顏色特征來表示不良圖像。這種方法導致圖像的局部區域 描述不精確。
【發明內容】
[0005] 本發明目的在于針對上述已有技術的不足,提出一種基于改進詞袋模型的不良圖 像檢測方法,以提高顏色描述信息的豐富性,減小詞典的規模,避免關鍵特征點的丟失,更 加精確描述圖像局部區域,實現對不良圖像的魯棒檢測。
[0006] 為實現上述目的,本發明的技術方案包括如下步驟:
[0007] (1)收集正常圖像與不良圖像作為訓練集,并標記每幅圖像的類別;用高斯差分 算子對訓練集中的所有圖像進行關鍵特征點檢測,將這些關鍵特征點組成特征點集合T ;
[0008] (2)對集合T中的關鍵特征點分別利用尺度不變變換特征SIFT方法和顏色屬性 CA方法計算關鍵特征點的梯度特征向量f和顏色特征向量f',對梯度特征向量和顏色特征 向量分別進行歐式距離測度下的K-均值聚類;并用梯度特征向量的聚類中心組成圖像的 梯度詞典,用顏色特征向量的聚類中心組成圖像的顏色詞典;
[0009] (3)將訓練集中所有圖像特征點的梯度特征向量量化為梯度詞典中的單詞,將訓 練集中所有圖像特征點的顏色特征向量量化為顏色詞典中的單詞;
[0010] (4)通過貝葉斯模型計算每個特征點的顏色單詞的類條件概率,并與所對應特征 點的梯度單詞相乘,統計得到顏色先驗加權后的梯度單詞直方圖;
[0011] (5)將訓練圖像的加權直方圖及其類別標記輸入支持向量機SVM,訓練不良圖像 分類器;
[0012] (6)對待測圖像,根據步驟(1)-(3)得到其關鍵特征點的梯度特征向量和顏色特 征向量,并將這些特征向量分別量化為梯度單詞和顏色單詞,將步驟(4)得到的顏色單詞 的類條件概率與梯度單詞相乘,統計出待測圖像的顏色先驗加權后的梯度單詞直方圖;
[0013] (7)將待測圖像的加權直方圖輸入到步驟(5)所訓練出的分類器中,根據分類器 的分類結果判斷待測圖像是否屬于不良類。
[0014] 本發明與已有的基于膚色檢測和詞袋模型的不良圖像檢測方法相比,具有以下優 占.
[0015] 1)對圖像中不良區域的顏色描述更準確,
[0016] 本發明用顏色屬性方法來描述顏色信息,更符合人對顏色的語義定義,相對傳統 的膚色檢測方法,本發明能描述更豐富的顏色信息,因而對圖像中不良區域的顏色描述更 準確;
[0017] 2)對圖像中關鍵特征點的提取更全面。
[0018] 不良圖像中人體的敏感器官常包含非膚色區域,膚色模型往往會漏檢該部分區 域,從而導致對不良信息判定起決定作用的一些關鍵特征點丟失,導致不良圖像的漏檢率 增高,本發明采用顏色概率先驗給出圖像中各個關鍵特征點的顏色屬于不良圖像的概率, 從而避免了傳統方法中關鍵特征點丟失的問題;
[0019] 3)特征描述更加靈活。
[0020] 本發明構建詞袋模型時對顏色信息和梯度信息分別建立單獨的詞典,可以任意地 組合顏色單詞和梯度單詞以描述不良圖像特征,從而使用較小規模的詞典更靈活的表示不 良圖像;
[0021] 4)局部區域描述的精確性更高。
[0022] 本發明將顏色信息作為梯度特征的視覺先驗,來決定不同局部區域梯度特征的重 要性,提高梯度特征的鑒別性,從而提高了不良圖像檢測的局部區域描述的精確性。
[0023] 以下結合附圖對本發明做進一步詳細描述。
【附圖說明】
[0024] 圖1是本發明的實現流程圖。
【具體實施方式】
[0025] 本發明基于顏色統計先驗的不良圖像檢測方法,包括訓練不良圖像分類器和檢測 不良圖像兩個階段。其具體實現參照圖1,描述如下。
[0026] - ·分類器訓練階段:
[0027] 步驟1,獲取訓練集。
[0028] la)從互聯網或現有圖庫里收集包含人體敏感器官的圖像作為不良圖像,同時收 集含日常風景、人物畫像等符合道德標準的圖像作為正常圖像,用這些不良圖像和正常圖 像組成圖像訓練集;
[0029] Ib)根據圖像內容人工標記出每幅訓練圖像的類別,即將訓練圖像分為正常類和 不良類,得到與每幅圖相對應的類別標記信息。
[0030] 步驟2,檢測訓練集中圖像的關鍵特征點。
[0031] 2a)利用高斯差分算子DoG檢測圖像中的極值點:
[0032] 2al)采用隔點采樣的方法變換圖像的分辨率,并且多次改變采樣間隔得到圖像在 多個分辨率尺度下的采樣結果,然后建立圖像多分辨金字塔,其中每一層代表一個分辨率 尺度下的圖像,并且按照分辨率大小排序,最下面是清晰的原始訓練圖像;
[0033] 2a2)用高斯濾波算子對金字塔中每層圖像做濾波,得到原始訓練圖像在不同分辨 率下濾波后的輸出結果,并且對相鄰兩層的結果求差值;
[0034] 2a