專利名稱:基于膚色檢測與背景消除的手部識別方法及系統的制作方法
技術領域:
本發明涉及動作識別技術領域,尤其涉及基于膚色檢測與背景消除的手部識別方法及系統。
背景技術:
研究出一種可以用于電視、手機上的支持多種語言的手語合成系統。系統可以把電視和手機中以聲音和文字形式承載的語言信息轉換成手語信息,并通過數字化的虛擬人表示出來。該技術可以讓成千上萬的聾啞人和正常人一樣看電視,使用手機,享受現代化數字技術為人類帶來的便捷。手語合成系統是智能人機接口的一個重要研究課題。合成手語不僅有助于聾人使用各種信息,而且可以幫助聾人參加各項社會活動(如觀看電視),具有十分重要的應用價值和社會意義。
國內主要研究者有中科院計算所的高文教授、王兆其教授等研制的“中國手語合成系統”,該系統采用先進的傳感器設備,包括6D0F傳感器和數據手套,建立中國手語詞庫,然后應用合成技術,對于給定文本句子,可由健聽人話語轉換而成,自動合成相應的人體運動數據。最后應用計算機人體動畫技術,將這些運動數據應用于虛擬人,由虛擬人完成合成的手語的運動。其他研究者有哈爾濱工業大學宋益波,姚鴻勛等和北京工業大學尹寶才教授。目前和本發明相關的現有技術有以下幾種基于ROI分割和相干映射的裸手字母手勢識別,該算法結合改進的差分法提出了實用的手部約束條件,從每幀圖像中提取手部圖像,確定感興趣區域(ROI,region ofinteresting),得到較為滿意的手部分割結果,再對手部圖像特征進行深入分析和提取,利用改進的相干映射算法(VCM,vector coherence mapping)進行跟蹤,針對手的運動增加了約束,保證了頑健性。在這個基礎上,提出了時間相關的運動預測模型,滿足了實時性的要求,保證前后分析結果的一致性。實驗結果證明,在不同光照和復雜背景下系統有最高達99%的識別率,與已有的系統相比,性能顯著提高。一種基于最大似然HausdorfT距離的手勢識別算法針對字母手勢的檢測和跟蹤問題,文章提出一種基于最大似然準則Hausdorff距離的手勢識別算法。該算法首先對字母手勢圖像進行二值化處理,并由字母手勢圖像的邊緣信息中提取字母手勢的關鍵點指根和指尖;然后采用基于最大似然準則的HausdorfT距離對手勢進行識別,搜索策略采用類似于Rucklidge提出的多分辨率搜索方法,在不影響成功率和目標定位精度的情況下,可以顯著地縮短搜索時間。實驗結果表明此方法可以較好地識別字母手勢,同時對部分變形(旋轉和縮放)手勢也有良好的效果。—種膚色干擾下的變形手勢跟蹤方法根據跟蹤過程中所用到的基本手勢特征,提出了一種基于PGH(成對幾何直方圖)的靜態手勢識別方法。為了解決跟蹤過程中的膚色干擾問題,實現了基于Kalman濾波器的手勢預測跟蹤。為了解決跟蹤過程中的初始化問題,提出了一種基于層次結構的跟蹤初始化解決方案。
基于歷史的動態手勢識別基于表觀建模的方法是當前手勢識別的主流,我們采用基于歷史的手勢表示方法,用皮膚歷史圖像建立手勢表觀模型,然后用原型模板匹配的方法進行手勢識別,并使用切線距離來進行測試樣本與模板之間的相似性度量,以消除視覺敏感問題。實驗結果表明,該方法顯著地提高了識別準確率。
發明內容
本發明的目的是為了克服現有技術的缺陷,提供一種基于膚色檢測與背景消除的手部識別方法及系統。通過膚色檢測與背景消除來處理拍攝下來的手勢,使用幾何矩及指尖相關信息作為特征數據進行選取,然后運用Boosting與Random forest分類器進行識別。膚色檢測采用反向投影的方法進行的,采用COdebook背景消除模型進行背景消除。 在特征提取中采用Hu矩作為特征值,通過形態學操作、圖像差分及模塊匹配來實現指尖特征提取。一種基于膚色檢測與背景消除的手部識別系統,包括視頻輸入,手勢分析以及手勢識別,手勢分析可以分為檢測、跟蹤,特征提取這三個階段;首先需要選擇適合研究內容的手勢模型來確定需要提取的特征數據,然后通過檢測算法將手勢從輸入圖像中檢測出來,并運用跟蹤算法對手部運動進行實時追蹤,最后提取被分離出圖像的相關特征數據。靜態手勢識別中識別過程則主要依靠機器學習算法,通過對分析過程中提取的數據集進行學習,建立適合該數據特征的判斷規則,然后根據這些判斷規則對得到的未知數據集進行預測分類,并在輸出時結合相應語法規則來形成對手勢的描述。跟蹤采用基于Mean-Shift開發的camshift算法作為手部跟蹤算法,并對camshift的結果進行了改進,選用Hu矩作為特征值,通過形態學操作,圖像差分,模板匹配進行指尖特征提取。本發明技術方案帶來的有益效果手語合成系統是智能人機接口的一個重要研究課題。合成手語不僅有助于聾人使用各種信息,而且可以幫助聾人參加各項社會活動(如觀看電視),具有十分重要的應用價值和社會意義。
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它的附圖。圖I是本發明中手部識別系統的示意圖;圖2是本發明手勢軟件交互平臺示意圖;圖3是本發明指尖提取過程示意圖;圖4是本發明中反向投影的實驗效果圖;圖5是本發明中Codebook背景消除法得到的效果圖;圖6是本發明中基于膚色與背景消除的雙特征檢測效果圖。
具體實施例方式下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。本發明回顧了當前基于視覺手勢識別的相關技術與理論,著眼于手勢識別人機交互應用,設計并開發了手勢識別軟件模塊,提出了基于膚色檢測與背景消除算法的雙特征手部檢測算法,處理拍攝下來的手勢的方法,使用幾何矩及指尖相關信息作為特征數據,分別運用Boosting與Random forest分類器進行識別,并對比了這兩種算法對于相關特征數據的適應性與識別準確率。同時基于手勢識別軟件模塊設計并開發了手勢軟件交互平臺,利用該平臺能夠實現手勢對視頻播放軟件及電子書閱讀軟件等相關常用軟件的控制。·
如圖I所示,本發明中,手部識別系統被分為三部分,分別是視頻輸入,手勢分析以及手勢識別。大多數情況下,手勢分析可以分為檢測、跟蹤,特征提取這三個階段。首先需要選擇適合研究內容的手勢模型來確定需要提取的特征數據,然后通過檢測算法將手勢從輸入圖像中檢測出來,并運用跟蹤算法對手部運動進行實時追蹤,最后提取被分離出圖像的相關特征數據。靜態手勢識別中識別過程則主要依靠機器學習算法。通過對分析過程中提取的數據集進行學習,建立適合該數據特征的判斷規則,然后根據這些判斷規則對得到的未知數據集進行預測分類,并在輸出時結合相應語法規則來形成對手勢的描述。本發明中對手部模型的研究圍繞三維模型以及基于表觀模型這兩類模型來展開。三維手部模型主要是根據手部關節約束、肌肉韌帶運動功能等特點進行模型構造。三維手勢模型可以分成兩個類型骨骼模型和體模型。骨骼模型直接利用手指角度運動約束以及掌指長度關系的模型。體模型簡單的講,就是通過分析手部三維模型和真實圖像的區別,改變三維模型參數來使得模型與真實圖像呈現相同的外觀顯示。被用來描述真實的人手三維表觀。表觀模型即基于真實圖片的手部模型。這意味著模型的參數不是直接來自于手的三維空間描述,而是通過利用各種手勢的表觀特征作為預定義序列來建立模型。膚色檢測目的在于消除不相關元素,快速地選取到手部方位。運用到得有選擇顏色空間和背景消除技術等。手型檢測手部的形狀特性被用來進行手部檢測。其大多數信息都是通過提取圖片中手部的輪廓來獲得的。運用到了邊界檢測算法,傅立葉描述子等相關技術。手部跟蹤通過運用檢測得到的信息實時的獲得手部在圖片中的位置。基于手部跟蹤的研究理論比較多,包括模板匹配、Mean-shift算法、粒子濾波、運動模板等。本發明主要介紹了模板跟蹤理論和Mean-shift算法。模板跟蹤理論是按照相關策略根據已知模塊在搜索圖像中尋找逼近模塊的匹配過程。Mean-shift算法是一種穩定的在相關數據的密度分布里尋找局部峰值的方法。該發明結合單目視覺識別技術的特點,識別模塊將主要分為檢測與跟蹤、手勢模型、特征提取、識別四部分。
檢測與跟蹤I、檢測研究運用一種基于膚色與輪廓的雙特征檢測方法。經實驗,該方法能夠在負載背景下達到比較好的檢測效果。反向投影反向投影是膚色檢測中較為常用的方法,它能夠記錄像素點在直方圖模型中的分布情況。不斷地改進過程A.要獲得色度直方圖就需要對手部信息進行預采樣,預采樣可以通過內置膚色直方圖以及操作前采樣兩種方式來進行。該文中模塊選擇操作前采樣這種方式。B、對于膚色反向投影的這種情況,模塊采用背景減除法來獲取圖像輪廓作為手部 檢測的第二特征值。采取一種更加高級的背景模型,稱為codebook背景消除模型。C、借助于之前膚色直方圖反向投影的結果,將兩個操作得到的圖像結果進行與運算,可以返回一個比較好的手部檢測結果。同時也能夠獲得了一個較好的手部二值圖像來進行特征提取。反向投射的實驗結果如圖4所示,Codebook背景消除法得到的效果如圖5所示,基于膚色與背景消除的雙特征檢測效果如圖6所示。基于膚色檢測與背景消除算法的手部檢測方法,該方法存在的問題,就是當建立完背景模型,手進入攝像頭畫面時,如果其亮度值與原先整個畫面的亮度值有較大差異且占有比較大的畫面空間,就會使攝像頭所攝畫面重新調整曝光,引起整個畫面的亮度值變化,從而給檢測和分割結果帶入較大雜音。解決方法是通過控制用戶與攝像頭的距離范圍。2、跟蹤采用基于Mean-shift開發的camshift算法作為手部跟蹤算法,并對camshift的結果進行了改進。特征提取選用Hu矩作為特征值。Hu矩是歸一化中心矩的線性組合。它對于輪廓的縮放、旋轉和鏡像映射具有不變性,較為適合作為手部的輪廓的特征值。指尖提取在已經獲得手部二值圖像的情況下主要可以分為三個步驟形態學操作,圖像差分,模板匹配。如圖3所示,為指尖提取過程示意圖。識別算法與實現該發明中模塊實現了兩種當前性能比較好的基于機器學習的識別算法Boosting和Random forest。Random forest和Boosting算法的實現分別基于OpenCV的ML庫中的CvRTrees以及CvBoost兩個類數據集的建立研究選用生活中常用代表數字的十個手勢以及從美國手語字母中抽取的10個字母共二十個手勢作為識別對象。通過將采集到的特征儲存到一維數組中,再通過函數writedata將數據集寫入文本,然后再由人工加上每條數據的標簽。實驗結果實驗識別率比較低,原因在于提取的特征值并不能夠很好的反映手勢之間的差異。應該可以從手指尖的關系以及手型占搜索框的比例等方面添加特征值來改善識別成功率。手勢軟件 如圖2所示,手勢軟件交互平臺通過將手勢轉換成鍵盤與鼠標的輸入命令能夠實現對常用軟件的控制,比如電子書閱讀軟件、視頻播放軟件。手勢識別系統平臺的核心算法取自上一章實現的手勢識別軟件模塊,采用Random forest學習算法進行數據集的分析與預測。為了加強平臺系統的實用性并且節約開發成本,將采用MFC替代C作為平臺系統的開發環境,相關移植是容易實現的。需要注意的是OpenCV所使用的圖像格式Ipllmage并不為MFC所支持,因此我們需要實現Ipllmage與MFC支持的BitMap文件間的互相轉換,才能在MFC環境中使用OpenCV函數庫。系統的建立包括界面設計,軟件操作分析,手勢識別庫的設計,特征設計等。在特征設計中,為了提高本平臺系統應用中的識別率,在指尖數和幾何矩作為特征的基礎上,針對本交互平臺所使用的手勢特點還增加了相關特征值。該文中,利用手勢識別軟件模塊開發了手勢軟件交互平臺系統,能夠完成手勢與相關常用軟件的交互,真正實現了手勢識別技術的實際應用,并對8個手勢命令具有較高的識別率。本發明技術方案帶來的有益效果手語合成系統是智能人機接口的一個重要研究課題。合成手語不僅有助于聾人使用各種信息,而且可以幫助聾人參加各項社會活動(如觀看電視),具有十分重要的應用價值和社會意義。以上對本發明實施例所提供的一種基于膚色檢測與背景消除的手部識別方法及系統,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發明的思想,在具體實施方式
及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。
權利要求
1.一種基于膚色檢測與背景消除的手部識別方法,其特征在于,通過膚色檢測與背景消除來處理拍攝下來的手勢,使用幾何矩及指尖相關信息作為特征數據進行選取,然后運用Boosting與Random forest分類器進行識別。
2.如權利要求I所述的方法,其特征在于,膚色檢測采用反向投影的方法進行的,采用codebook背景消除模型進行背景消除。
3.如權利要求I所述的方法,其特征在于,在特征提取中采用Hu矩作為特征值,通過形態學操作、圖像差分及模塊匹配來實現指尖特征提取。
4.一種基于膚色檢測與背景消除的手部識別系統,其特征在于,包括視頻輸入,手勢分析以及手勢識別,手勢分析可以分為檢測、跟蹤,特征提取這三個階段;首先需要選擇適合研究內容的手勢模型來確定需要提取的特征數據,然后通過檢測算法將手勢從輸入圖像中檢測出來,并運用跟蹤算法對手部運動進行實時追蹤,最后提取被分離出圖像的相關特征數據。
5.如權利要求4所述的系統,其特征在于,靜態手勢識別中識別過程則主要依靠機器學習算法,通過對分析過程中提取的數據集進行學習,建立適合該數據特征的判斷規則,然后根據這些判斷規則對得到的未知數據集進行預測分類,并在輸出時結合相應語法規則來形成對手勢的描述。
6.如權利要求4所述的系統,其特征在于,跟蹤采用基于Mean-shift開發的camshift算法作為手部跟蹤算法,并對camshift的結果進行了改進,選用Hu矩作為特征值,通過形態學操作,圖像差分,模板匹配進行指尖特征提取。
全文摘要
本發明公開了基于膚色檢測與背景消除的手部識別系統。手部識別系統被分為三部分,分別是視頻輸入,手勢分析以及手勢識別。大多數情況下,手勢分析可以分為檢測、跟蹤,特征提取這三個階段。首先需要選擇適合研究內容的手勢模型來確定需要提取的特征數據,然后通過檢測算法將手勢從輸入圖像中檢測出來,并運用跟蹤算法對手部運動進行實時追蹤,最后提取被分離出圖像的相關特征數據。此外,本發明還公開了一種基于膚色檢測與背景消除的手部識別方法。通過該發明的合成手語不僅有助于聾人使用各種信息,而且可以幫助聾人參加各項社會活動,具有十分重要的應用價值和社會意義。
文檔編號G06K9/62GK102930270SQ20121035353
公開日2013年2月13日 申請日期2012年9月19日 優先權日2012年9月19日
發明者鄧代國, 羅笑南, 孟思明, 薛凱軍, 羅微曉 申請人:東莞中山大學研究院, 中山大學