專利名稱:基于多層特征的不良圖像自動過濾方法
技術領域:
本發明屬于計算機圖像處理技術領域,涉及一種基于多層特征的不良圖像自動過 濾方法。
背景技術:
隨著互聯網的發展,人們通過網絡獲取、發布、傳播信息使得互聯網上的文字、圖 像、視頻等各種形式的信息急劇增長。由于網絡信息發布缺少有效的監督機制,大量的色 情、暴力、反動等不良信息被發布到互聯網上,影響了和諧網絡環境的構建。不良圖像作為 不良信息的一種,嚴重破壞了健康的網絡環境。為此研究者們提出了多種不良圖像過濾技 術,其中以基于內容分析的過濾方法最為流行。然而,基于內容的不良圖像過濾技術目前仍 存在膚色建模不夠準確、特征提取不夠完備、分類器性能不佳等缺點。基于內容的過濾方法根據圖像的內容特征實現自動分類并過濾。近年來,已有很 多研究機構開展了這方面的研究工作,提出了一些方法,而且取得了一定的效果。這些方法 主要分為兩類基于人體組合的過濾方法和基于特征提取和機器學習的過濾方法。第一種 方法利用人體幾何約束,按照一定規則,先提取有效肢體部件,再從肢體部件按照幾何約束 識別人體。此方法檢測的對象僅限于包含人體較為完整的圖像,對于人體部分遮擋或者多 人擁擠的圖像檢測能力有限,對人體姿勢、形狀在圖像中較為復雜或則非正常化時更難于 檢測。此方法過分依賴于人體各部件的約束關系以及幾何分析,對于約束關系尚不能復雜 到描述人體姿勢的多變以及遮擋的情況。第二種方法多數都是通過構建特征向量,并利用 機器學習的方法訓練分類器。這種方法具有適應多數樣本的能力,檢測速度更快,但缺點也 很明顯,其分類器的性能取決于提取的特征以及分類器本身的分類能力。因此,使用這種方 法必須考慮更加完備的特征,并選擇合適的機器學習方法構建分類器。
發明內容
本發明的目的主要是針對當前不良圖像過濾方法的準確率不高,誤檢率較高、魯 棒性較差等不足,提出了具有較高魯棒性和較高準確率的不良圖像過濾方法。本發明的不良圖像過濾方法包含更加完備的特征提取方法,人體軀干定位方法以 及多層過濾技術。特征提取利用基于RGB顏色空間的快速膚色模型進行膚色檢測,進而提取膚色、 輪廓、空間分布、紋理特征。人體軀干定位方法主要有三種一種是基于頭肩檢測,它使用離線訓練模型檢測 頭肩區域進而定位人體軀干;第二種是基于人臉檢測的定位方法;第三種是采用橢圓擬合 的方法定位人體軀干。本發明的多層過濾技術第一層采用二進制分類樹過濾掉多數正常圖像;第二層 采用基于頭肩檢測的方法定位軀干,提取相關特征后,使用第三層的決策樹分類器進行過 濾;第三層采用基于人臉檢測的方法定位軀干,提取相關特征后,使用第三層的決策樹分類器進行過濾;第四層采用基于橢圓擬合的方法定位人體軀干,提取相關特征后,使用第四層 的二進制分類樹進行過濾。本發明的過濾方法包括如下步驟
步驟Sl 輸入圖像后對圖像進行預處理,所述的預處理包括圖像的縮放處理和平滑處
理;
步驟S2 采用基于RGB顏色空間閾值方法構建的膚色模型進行膚色檢測,獲得膚色掩 碼圖像;
步驟S3 提取圖像的膚色、紋理、空間分布特征作為第一層特征,然后采用第一層二進 制分類樹將圖像分為正常和疑似兩種,其中疑似圖像需進一步過濾;
步驟S4 對步驟S3未濾除的圖像進行基于頭肩檢測的人體軀干定位,如果定位成功則 提取第二層特征,并采用第二層決策樹分類器將圖像分為正常和不良兩種;
步驟S5 對檢測不到頭肩的圖像采用人臉檢測方法定位軀干,提取第三層特征后采用 第三層的決策樹分類器將圖像分為正常和不良兩種;
步驟S6:對于檢測不到人臉的圖像,采用橢圓擬合方法定位人體軀干,提取第四層特 征然后采用第四層的二進制分類樹將圖像分為正常和疑似兩種;
具體地,圖像預處理包括圖像的縮放處理、適當的平滑去噪。圖像的縮放處理是在保證 圖像色彩不失真、主要特征不丟失的情況下,對超過一定大小的圖像進行縮小處理,以加快 檢測速度。圖像一般都會由于各種原因受到一定程度的干擾和損害,從而使圖像中包含噪 聲信號。圖像平滑處理的目的就是為了減少和消除圖像中的噪聲,以改善圖像質量,有利于 接下來的特征提取。具體地,基于RGB顏色空間閾值方法構建的膚色模型。在分析現有膚色模型以及 適用場景的基礎上,根據膚色在RGB顏色空間中的分布特征,提出了適合本發明應用背景 的快速膚色模型,此模型具有較高的膚色像素召回率,受光照及拍攝環境的變化影響較小, 而且應用此模型檢測膚色的速度非常快,能夠滿足于特征提取的時間復雜度要求。具體地,各層的特征提取。第一層特征包括圖像的膚色、紋理、空間分布特征;第二 層特征包括基于膚色掩碼圖像的全局特征、基于軀干信息的圖像局部特征、非膚色全局和 局部特征;第三層特征除基于膚色掩碼圖像的全局特征、非膚色全局特征、局部特征外還包 括人臉面積占圖像的比例、人臉與軀干的大小比例、人臉與軀干內最大塊的比例;第四層特 征除基于膚色掩碼圖像的全局特征、非膚色全局和局部特征外,還包括橢圓的面積之和與 圖像面積比例、最大橢圓與圖像面積的比例、最大橢圓與其周圍橢圓的面積比例。具體地,基于膚色掩碼圖像的全局特征包括
①所有膚色像素占整幅圖像面積的比例;
②經連通域分析后得到的各膚色塊面積和占整幅圖像面積的比例;
③最大獨立膚色塊的面積占膚色總面積的比例; 最大膚色塊輪廓的周長和面積的比例; 最大膚色塊面積占其外接矩形的比例; 具體地,非膚色全局和局部特征包括
①圖像一階顏色矩、二階顏色矩,又分為上半部分、下半部分兩種顏色矩;
(|)膚色塊上的紋理特征提取,比如塊內carmy邊緣點數占膚色面積的比例;
(|)整幅圖像的紋理特征提取; 具體地,基于軀干信息的圖像局部特征包括 ①人體軀干面積占圖像面積的比例;
(|)軀干內部膚色像素總數占軀干面積的比例;
③軀干內膚色最大塊占軀干面積的比例;
④軀干內膚色最大塊的位置相對于軀干中心的位置偏移比例;
具體地,人體軀干定位是用來獲取軀干位置、大小信息的重要方法,通過軀干定位可以 更加準確地提取特征,對于提高分類的準確率有很重要的作用。本發明的人體軀干定位方 法分為如下三種
第一種是基于頭肩檢測技術的定位方法,此方法借鑒了行人檢測的相關技術,通過提 取訓練圖像的HOG特征,利用Adaboost和線性SVM結合的機器學習方法訓練得到頭肩的級 聯分類器,并利用它進行頭肩檢測定位人體軀干。第二種方法是采用基于Adaboost級聯器的快速人臉檢測方法檢測人臉,并利用 人臉的大小、位置信息以及圖像的長寬比信息估計人體軀干的位置及大小。第三種方法是基于橢圓擬合的軀干定位方法,首先將圖像轉換為灰度圖像,然后 采用Carmy算子提取圖像的邊緣,接著進行橢圓擬合,最后根據橢圓的大小、位置以及人體 各部分的組成關系去除噪聲。具體地,多層過濾技術如下
第一層二進制分類樹根據第一層特征定義屬性集,并從屬性集中選擇具有最優分類能 力的屬性組成分類樹;第二層決策樹分類器使用C4. 5決策樹根據屬性的信息增益率選擇 屬性,訓練得到一個由若干屬性組成的分類器;第三層的決策樹分類器訓練方法與第二層 一樣,由于所提取的特征有較大差異,因此訓練得到的分類器在結構和屬性集上有很大不 同;第四層二進制分類樹的生成方法跟第一層的相同,但屬性集不同。本發明相對于現有技術具有以下有益效果本發明方法的實現具有重要的應用價 值,將為整治互聯網低俗之風、凈化互聯網環境產生重大的促進作用,保證網絡視頻、社交 網站等載有多媒體信息較多的互聯網產業健康、持續發展。
圖1表示了本發明不良圖像過濾方法從圖像輸入開始至輸出檢測結果的流程圖。圖2表示本發明中第二層分類器所采用的二叉樹形分類器的結構圖。圖3表示HOG積分圖。圖4表示用于頭肩檢測的級聯分類器。圖5 (a)表示實驗原圖。圖5 (b)表示橢圓擬合的初步結果圖。圖5 (c)表示根據橢圓大小、長短軸比等特征去噪后得到的擬合結果圖。
具體實施例方式下面將結合附圖對本發明加以詳細說明,應指出的是,所描述的實施例僅旨在便 于對本發明的理解,而對其不起任何限定作用。下面將參考附圖詳細介紹本發明的實施例。圖1是本發明過濾方法的流程圖,展示了圖像從輸入到檢測完畢的整個流程。1.圖1中的膚色檢測單元。具體技術方案是利用基于RGB顏色空間的閾值膚色模型進行膚色檢測并獲得膚 色掩碼圖像。因為膚色檢測的性能取決于膚色-非膚色的重疊程度,顏色空間的變換并影 響這一決定因素,RGB及線性顏色空間具有較好的可分離性和分類性能,是比較理想的一類 顏色空間。因此,本發明建立了基于RGB顏色空間的膚色模型,避免了顏色空間的轉換,通 過如下規則對膚色在R、G、B三維空間中的分布進行了刻畫。規則一,單分量的約束R>40,G>55,B>66,三個條件必須同時滿足; 規則二,分量間的大小關系約束R>G,以召-」 認兩個條件必須同時滿足; 規則三,分量間的差值約束Abs (R-G) +Abs (G-B) >20 ;
規則四,為抑制偏紅的顏色必須滿足R<2*G+10。如果某個像素點滿足上述四個規則的約束,則為膚色像素,否則為非膚色像素。2.圖1中的第一層分類器單元。采用第一層過濾目的是快速地過濾掉和不良圖像差異較大的圖像,我們選擇膚 色、紋理、空間分布特征作為第一層過濾算法的主特征,這些特征滿足同一類別的不同個 體之間特征值波動較小,不同類別樣本特征值之間差異較大。利用這些特征通過構建一個 二進制分類樹實現第一層過濾。這種過濾方法實現簡單,速度快能夠滿足第一層過濾的要 求。第一層選擇膚色像素點數占圖像總像素數的比例,有效膚色塊占圖像大小的比 例,關鍵區域的膚色比例,紋理特征,所設計的第一層分類器要解決的是一個兩類問題,即 判別當前圖像是正常或是疑似,這一層的工作是盡量去除那些正常圖像,然后將通過過濾 的疑似圖像送入后面幾層分類器進行過濾。根據如圖2所示的二進制分類樹能夠快速、準 確地過濾掉大部分和不良圖像差異較大的圖像。其中,、(n=0, 1,2,3)分別表示第η次分類后的結果。Xx (η=0, 1,2,3)分別表
示各步驟所選用的特征,分別為膚色像素點數占圖像的比例特征,膚色塊內的紋理特征特征,有效膚色塊的特征等等,^s (n=0, 1,2,3)為各特征的閾值。%和 2分別表示兩類結果, 正常和疑似。3.圖1中的基于頭肩檢測的軀干定位單元。對于不良圖像過濾來說,要想獲得較高的準確率,膚色檢測是基礎,軀干(除人臉 以外的部分)定位是關鍵,如果一幅圖像無法確定人體的存在與否以及人體的位置,對分類 來說具有很大的困難。本發明在研究常用檢測方法之后,提出了合適的三種方法基于頭肩 檢測的定位方法、基于人臉檢測的定位方法、基于橢圓擬合的定位方法。其中基于頭肩檢測 的軀干定位方法借鑒了行人檢測的基于HOG特征的方法。基于頭肩檢測的定位方法的技術方案是首先使用Adaboost與線性SVM結合的方 法訓練得到基于頭肩的人體級聯分類器,然后利用它對圖像進行滑動窗口進行檢測,來實 現人體軀干的定位。本發明還使用了如圖3所示的HOG積分圖來提高HOG特征提取的速度, 使用如圖4所示的級聯結構來加快分類器的速度。訓練級聯分類器的方法如下
訓練樣本大小為64X 64像素,使用HOG特征時將塊大小定義為16 X 16像素,每個塊平 均分為2X2共4個單元,每個單元8X8像素,偏移步長定義為8個像素,共可得到105個 塊,每個塊可生成36維的特征向量。采用大小變化的塊來提取HOG特征向量,在64X64的 窗口中我們定義的塊大小從16X16到64X64范圍內變化,另有1 1、1 2、2 1三種不同的
長寬比,滑動步長{4,6,8}單位像素,如此總共定義了 2000多個塊,每個塊含2 X 2個單元,每
個單元對應9個方向的梯度方向直方圖。每個塊對應一個36維HOG特征向量,利用線性 SVM訓練得到對應的弱分類器。訓練算法如下
1)Input 全局允許的誤檢率;
^ 級聯器中每一級所允許的最大誤檢率;
^aift :每一級所允許的最小檢出率; Pos 正樣本集即含頭肩的圖像; Afeg:負樣本集即不含頭肩的圖像;
2)初始化:i=0,Di =1. 0,Fi =1. 0。Loop Pi > Ftmzet i=i+l;
:1· 0;
Loop Si > fmsn
1)訓練若干線性SVM弱分類器根據正負樣本;
2)將選擇的“最優”SVM分類器加入強分類器中,并更新權重;
3)根據最新的強分類器計算正樣本的檢出率和負樣本的誤檢率;
4)調整閾值使其達到^ttia要求;5)計算在此閾值下的Z
權利要求
1.基于多層特征的不良圖像自動過濾方法,其特征在于該方法包括以下步驟 步驟Sl 輸入圖像后對圖像進行預處理,所述的預處理包括圖像的縮放處理和平滑處理;步驟S2 采用基于RGB顏色空間閾值方法構建的膚色模型進行膚色檢測,獲得膚色掩 碼圖像;所述的基于RGB顏色空間閾值方法構建的膚色模型包括以下規則 規則一,單分量的約束滿足RMO且G>55且B>66 ;其中R表示紅色分量,G表示綠色 分量,B表示藍色分量;規則二,分量間的大小關系約束滿足R>G且G>B-20 ;規則三,分量間的差值約束Abs (R-G)+Abs (G-B)>20,其中Abs表示取絕對值運算; 規則四,為抑制偏紅的顏色,滿足R<2XG+10 ;如果某個像素點滿足上述四個規則的約束,則為膚色像素,否則為非膚色像素; 步驟S3 提取圖像的膚色特征、紋理特征和空間分布特征作為第一層特征,然后采用 第一層二進制分類樹將圖像分為正常和疑似兩種,對于正常圖像,則直接輸出分類結果并 結束;對于疑似圖像則繼續執行;步驟S4:對該疑似圖像進行基于頭肩檢測的人體軀干定位,如果定位成功,則提取第 二層特征,并采用第二層決策樹分類器將圖像分為正常和不良兩種,輸出分類結果并結束; 如果定位不成功,則執行步驟S5 ;所述的基于頭肩檢測的人體軀干定位具體過程為通過提取訓練圖像的梯度方向直方 圖特征,利用Adaboost算法和線性SVM算法結合的機器學習方法訓練得到頭肩的級聯分類 器,并利用級聯分類器進行頭肩檢測定位人體軀干;所述的第二層特征包括基于膚色掩碼圖像的全局特征、第一類基于人體的圖像局部特 征和其它非膚色特征;步驟S5:對定位不成功的圖像采用人臉檢測方法定位軀干,如果定位成功,則提取第 三層特征,然后采用第三層的決策樹分類器將圖像分為正常和不良兩種,輸出分類結果并 結束;如果定位不成功,則執行步驟S6 ;所述的第三層特征包括基于膚色掩碼圖像的全局特征、第二類基于人體的圖像局部特 征和其它非膚色特征;所述的第三層的決策樹分類器,其訓練方法與第二層決策樹分類器訓練方法相同; 步驟S6:對定位不成功的圖像,采用橢圓擬合方法定位人體軀干,提取第四層特征然 后采用第四層的二進制分類樹將圖像分為正常和疑似兩種,輸出分類結果并結束;所述的第四層特征包括基于膚色掩碼圖像的全局特征和基于橢圓擬合結果的特征; 所述的第四層二進制分類樹,其訓練方法與第一層二進制分類樹的訓練方法相同。
全文摘要
本發明涉及一種基于多層特征的不良圖像自動過濾方法。現有的過濾方法效果不好。本發明首先對輸入圖像后對圖像進行預處理,預處理后進行膚色檢測,獲得膚色掩碼圖像;其次提取圖像的第一層特征,采用第一層二進制分類樹將圖像分類,對于疑似圖像進行軀干定位,輸出分類結果;然后對定位不成功的圖像采用人臉檢測方法定位軀干,如果定位成功,則提取第三層特征,采用決策樹分類器將圖像輸出;對定位不成功的圖像,采用橢圓擬合方法定位人體軀干,提取特征后采用二進制分類樹將圖像輸出分類結果并結束。本發明保證網絡視頻、社交網站等載有多媒體信息較多的互聯網產業健康、持續發展。
文檔編號G06K9/66GK102117413SQ20111004828
公開日2011年7月6日 申請日期2011年3月1日 優先權日2011年3月1日
發明者嚴俊杰, 傅政軍, 吳海虹, 周建政, 周渝清, 姚金良, 明建華, 王小華, 王榮波, 諶志群 申請人:天格科技(杭州)有限公司, 金華就約我吧網絡科技有限公司