專利名稱::一種基于視覺詞匯本集體的不變性識別方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于模式識別、計算機視覺、圖像理解
技術(shù)領(lǐng)域:
,具體涉及一種不變性識別方法。
背景技術(shù):
:目前計算機視覺面臨的挑戰(zhàn)是不變性識別,它已經(jīng)成為眾多專家學(xué)者研究的一個熱點。不變性識別是指在視角,尺度,光照條件發(fā)生變化時,或存在遮擋,背景噪聲,一定程度的變形時也能準確將物體識別出來。目前存在的研究方法主要有1.基于全局形狀的方法。為了實現(xiàn)不變性識別,許多早期的文獻,其中典型的有文獻[1],應(yīng)用幾何方法提取邊輪廓來表示物體。這種表示方法對于光照有不變性,而且使得二維或三維姿勢的決定相對簡單。但是這種方法依賴于物體輪廓,它們假設(shè)圖像中的邊輪廓能可靠發(fā)現(xiàn),而且這種方法要求識別目標的幾何輪廓已經(jīng)事先知道。2.基于全局外觀統(tǒng)計的方法。文獻[2]中使用局部外觀的聯(lián)合統(tǒng)計直方圖來表示物體。文獻[3]中使用全局圖像方法,利用全局外觀統(tǒng)計信息來分類物體。這種全局方法,盡管它比較簡單,但不變性識別效果欠佳,且由于沒有對局部建模,所以對背景噪聲和遮擋敏感。3.基于局部區(qū)域的方法,主要思想是使用一個區(qū)域檢測器來找到一個感興趣的圖像部分(局部)的集合[4]’[5],然后用某種描述子[6_8]來表示它們,識別成為匹配圖像中的描述子與已知物體的描述子的過程[6]’[9_11],如果找到充足的匹配則認為物體識別到了。要想保持對某種變換的不變性,則區(qū)域和區(qū)域的表示方法均要對此變換保持不變性。這種將對象模型化成局部的集合(collectionsofparts)的思想最先由Fischler和Elschlager[12]在計算機視覺領(lǐng)域中提出。由于這種模型具有很強的靈活性,能很好處理物體類實例的多樣性和各種變換及遮擋,所以近年來這方面的研究日益增多[6]’[13_2°]。目前這種基于局部區(qū)域的方法大多只利用了局部紋理或亮度信息,對于局部幾何形狀信息,以及局部間關(guān)系的信息沒有利用上,所以大多數(shù)的研究只針對特定類有比較好的效果,而且在物體的定位方面效果欠佳。當前對不變性識別研究的共識是[21]第一,物體的形狀和外觀復(fù)雜且同類物體間差異大,所以模型應(yīng)該是豐富的(包含很多的參數(shù),使用混合描述);第二,一個給定類內(nèi)的物體的外觀應(yīng)該是高度變化的,所以模型應(yīng)該是靈活的(允許參數(shù)的變化);第三,為了處理類內(nèi)物體變化和遮擋,模型應(yīng)該由特征組成,或者說部分組成,這些特征不必在所有的實例中檢測到,這些局部的相互位置構(gòu)成了進一步的模型信息;第四,使用先驗知識來模型化類是困難的,最好是從訓(xùn)練樣本中學(xué)習模型;第五,必須考慮計算效率。所以利用機器學(xué)習的方法來進行不變性識別研究是當前的一種研究趨勢。早期的針對特定物體人工建立一個固定模型的方法局限性非常大,根本不可能推廣到多類物體和不同應(yīng)用場景下。但是目前對不變性識別的學(xué)習監(jiān)督程度普遍比較強,有的要求將圖像預(yù)先分割,有的要求對目標物體的矩形定位,有的要求對圖像給予類標簽,除此之外最弱的監(jiān)督樣本也會要求樣本中目標物體以絕對優(yōu)勢占有樣本的中心位置,而且所有的樣本要有同樣的大小。監(jiān)督樣本的獲取代價非常大,那么這就意味著不可能獲取很多的樣本,也不可能所有類的樣本都能獲取到,這就限制了學(xué)習的性能和學(xué)習的寬度。人類的視覺系統(tǒng)會并行利用多種信息來識別物體,并且對于每種不變性都能學(xué)習到一個模型,而這正是集成學(xué)習技術(shù)的思想。集成學(xué)習是近年來發(fā)展起來的一種學(xué)習技術(shù),集成學(xué)習(EnsembleLearning)是指利用多個學(xué)習機解決同一個問題。最近也有利用集成學(xué)習技術(shù)來解決不變性識別問題的文獻,但都只限于使用單個信息,沒有將集成學(xué)習的思想應(yīng)用到多個信息的利用上去,而只是利用監(jiān)督式集成學(xué)習技術(shù)來做后續(xù)的分類工作,最典型的應(yīng)用是boosting方法[22_25]。非監(jiān)督式集成學(xué)習技術(shù)或者說聚類集成技術(shù)近年來得到了一定的發(fā)展,為減少不變性識別的監(jiān)督程度和利用集成學(xué)習技術(shù)的研究提供了基礎(chǔ)。本項發(fā)明的主要貢獻在于提出了一種基于非監(jiān)督式集成學(xué)習技術(shù)進行不變性識別的方法。本發(fā)明能有效減少不變性識別的監(jiān)督程度,綜合利用多種有效信息,并行學(xué)習物體模型,有效提高不變性識別的效率和準確度。
發(fā)明內(nèi)容為了解決傳統(tǒng)物體識別中存在的模型過于復(fù)雜,監(jiān)督程度過強和魯棒性差的問題,本發(fā)明提供了一種利用詞匯本集體來并行利用圖像中存在的多種信息識別物體的方法。本發(fā)明的整體目標是根據(jù)圖像中包含的物體來分類圖像。本發(fā)明是一種視覺詞匯本方法。它包含從圖像中提取興趣點(或稱為顯著區(qū)域),用局部描述子來描述興趣點和用學(xué)習到的視覺詞匯本標注描述后的興趣點矢量。就像在文本分類中一樣,每個標簽出現(xiàn)的次數(shù)統(tǒng)計生成一個全局直方圖用來表示圖像內(nèi)容。直方圖輸入到一個分類器來識別圖像中的物體類別。視覺詞匯本由對訓(xùn)練數(shù)據(jù)的興趣點描述矢量集聚類獲得。圖像分類對于傳統(tǒng)機器學(xué)習算法來說是特別困難的,主要原因是圖像所包含的信息量太大,維度太高。維度太高導(dǎo)致傳統(tǒng)機器學(xué)習方法得到很不穩(wěn)定的模型,且模型的泛化能力很差。本發(fā)明將集成學(xué)習技術(shù)用于圖像分類。不同的聚類器和不同的信息用來形成視覺詞匯本集體?;谝曈X詞匯本集體可以得到同一訓(xùn)練數(shù)據(jù)集的不同量化矢量集。基于包含了不同方面特征的量化訓(xùn)練集,可以訓(xùn)練不同的分類器,從而得到一個分類器集體,每種分類器利用不同的信息來建立物體模型。用學(xué)習到的分類器集體來識別新的圖像時可以得到意想不到的好效果。集成方法通過結(jié)合多個模型的預(yù)測來提高現(xiàn)存的學(xué)習算法。一個好的集體應(yīng)該是集體中成員間的差異性較大。如果集體中的成員都一樣,那集成它們不會帶來性能的提升。所以成員間的差異性是決定集成學(xué)習的泛化誤差的一個重要因素。本發(fā)明提出了生成差異性視覺詞匯本集體和基于視覺詞匯本集體生成相應(yīng)的分類器集體的技術(shù)。本發(fā)明的內(nèi)容闡述如下1、利用數(shù)據(jù)和興趣點采樣以及利用不同描述子表示圖像不同方面信息生成視覺詞匯本集體通過運行多個聚類器,每個利用有限的訓(xùn)練子集和特征子集(這里是興趣點子集)以及不同方面的信息,可以形成一個視覺詞匯本集體。為了像人類一樣利用不同的信息來識別物體,本方法使用不同的描述子來表達圖像不同方面的信息??梢蕴崛☆伾?、紋理和形狀等等方面的信息來形成興趣點的不同表達矢量。每種特征矢量能表達圖像的不同方面的特點?;谶@些不同的特征矢量,運用聚類算法來得到視覺詞匯本集體,其中的成員能捕獲不同的特點。為增加集體的差異性,在生成每個成員視覺詞匯本時,先將訓(xùn)練數(shù)據(jù)隨機采樣得到一個訓(xùn)練子集,然后隨機從每個訓(xùn)練圖像中采樣一部分興趣點,再使用不同的描述子來表示興趣點的不同方面的特征,最后在這些特征矢量上運行聚類器形成視覺詞匯本。本方法不僅運用隨機性和不同的聚類器,而且直接運用多種信息來形成視覺詞匯本集體,所以產(chǎn)生的集體差異性很大。在構(gòu)造詞匯本集體時沒有用類標簽,視覺詞匯本集體的構(gòu)建是非監(jiān)督式的。樣本的類標簽只有在訓(xùn)練分類器時才會用到。使用視覺詞匯本集體與使用分類器集體的目標都是一樣的,即提高結(jié)果的質(zhì)量和魯棒性。本方法的過程描述如下1)首先對訓(xùn)練數(shù)據(jù)集隨機采樣得到訓(xùn)練數(shù)據(jù)子集;2)對此訓(xùn)練子集中的每個圖像提取興趣點,然后從中隨機采樣一部分;3)對采樣得到的興趣點集分別采用不同的描述方法(比如顏色、紋理和形狀等等描述子)描述后,使用聚類算法對其進行聚類得到一個視覺詞匯本;4)重復(fù)步驟1到3,直到生成預(yù)設(shè)大小的視覺詞匯本集體。實驗結(jié)果表明此方法能有效捕獲不同的信息和訓(xùn)練數(shù)據(jù)集的不同數(shù)據(jù)結(jié)構(gòu)。使用詞匯本集體來表達圖像比傳統(tǒng)的使用一個詞匯本來表示圖像有更好的識別性能。2、基于視覺詞匯本集體生成相應(yīng)分類器集體在生成詞匯本集體后,每個成員詞匯本可以得到融合了不同圖像信息的量化訓(xùn)練數(shù)據(jù)集。在融合了不同圖像信息的量化訓(xùn)練數(shù)據(jù)集上訓(xùn)練不同的分類器,從而可以得到一個分類器集體。每個成員分類器根據(jù)不同方面的特征為物體建立模型。實驗結(jié)果表明此方法能抓住圖像的不同特征信息,得到的集體差異性高,從而識別效果好。通過構(gòu)建差異視覺詞匯本集體,可以得到具有高差異性的分類器集體。具有高差異性的集體能有效減少建立一個準確模型所需要的監(jiān)督程度。本發(fā)明并行利用多個可用線索來分類圖像,使用不同的視覺詞匯本來表示圖像不同方面的特點?;谒玫降囊曈X詞匯本集體得到訓(xùn)練數(shù)據(jù)集的不同量化矢量集?;谕挥?xùn)練數(shù)據(jù)集的不同量化矢量集學(xué)習得到分類器集體,集體中的不同模型能捕獲不同的特征。具體的步驟如下1)對于生成的視覺詞匯本集體,每個成員視覺詞匯本融合了不同的圖像信息;2)對于一個成員視覺詞匯本,對訓(xùn)練數(shù)據(jù)進行量化;3)在量化后的訓(xùn)練數(shù)據(jù)集上學(xué)習一個分類器;4)重復(fù)步驟2到步驟3,生成預(yù)設(shè)大小的分類器集體。綜上本發(fā)明方法,首先隨機采樣訓(xùn)練圖像和部分興趣點,然后每次用不同的描述子來描述這些興趣點,在描述后的矢量集上聚類得到一個能表征一種圖像信息的視覺詞匯本?;诖艘曈X詞匯本對原訓(xùn)練圖像集量化,從而得到不同的量化矢量集,在此矢量集上訓(xùn)練得到根據(jù)特定信息來分類物體的模型,見圖1所示。此過程并行進行,每個處理器使用不同描述方式捕捉不同的圖像信息來學(xué)習物體的模型,其中,在提取到新圖像的興趣點后,并行使用視覺詞匯本集體中的成員分別對圖像進行量化,然后使用相應(yīng)的分類器成員進行識另IJ,最后根據(jù)所有成員分類器的識別結(jié)果進行集成給出最終識別結(jié)果,見圖2所示。本發(fā)明通過生成能表達物體多方面信息的視覺詞匯本集體來識別物體。相對于基于單個視覺詞匯本的圖像識別方法,此方法具有魯棒性較強、實踐簡單和平均效果好等優(yōu)勢。本方法將圖像中包含的多種信息分散在基于各個視覺詞匯本的表達中,從而并行生成一個分類器集體,降低了求解的復(fù)雜度,因此這項發(fā)明也能夠有效提高計算效率、減少計算資源的消耗,快速準確的識別物體。本發(fā)明具有在不同領(lǐng)域數(shù)據(jù)集上的平均性能更好,魯棒性強的優(yōu)點,且模型簡單,非常適用于一般操作者。它不需要復(fù)雜參數(shù)的調(diào)整,監(jiān)督程度低,且對訓(xùn)練數(shù)據(jù)的要求低。利用集成學(xué)習固有的并行性,可以在多個處理器上利用少量訓(xùn)練數(shù)據(jù)并行學(xué)習,所以本發(fā)明的效率也相對較高。圖1是本發(fā)明的示例圖。圖2是用學(xué)習到的視覺詞匯本集體和分類器集體對新圖像識別的示例圖。具體實施例方式下面結(jié)合附圖和實施例對本發(fā)明作進一步說明。本發(fā)明優(yōu)選的具體實施例首先隨機采樣60%的訓(xùn)練數(shù)據(jù),然后在此采樣得到的數(shù)據(jù)集上,針對每個訓(xùn)練圖像,首先利用‘canny’邊檢測子檢測圖像的邊,在檢測到的邊上隨機采樣m個點(如60點),分別以這些點作為中心點提取nXn(如16X16)像素大小的塊作為此圖像的興趣點,之后分別使用以下8種描述子描述采樣得到的興趣點(1)顏色描述子興趣點中的每個像素的顏色值用來形成ηΧηΧ3維的特征矢量(如16Χ16X3=768維),用這種類型的描述子來捕獲圖像的顏色信息。(2)顏色小波描述子對每個興趣點的顏色信息進行‘Haar’二維小波一階分解來得到nXnX3維的特征矢量。這種類型的描述子可以融入圖像的多分辨率信息。(3)邊信息描述子‘Canny’邊檢測子用來獲得nXn維(如16X16)描述子。使用這種類型的描述子,物體的形狀信息被用來識別物體。(4)局部范圍描述子(一階紋理特征)輸出每個像素的3X3鄰域內(nèi)的灰度值范圍(灰度最大值-灰度最小值),得到一個nXn維(如16X16)描述子。(5)局部標準差描述子(一階紋理特征)輸出每個像素的3X3鄰域內(nèi)的灰度值標準差,得到一個nXn維(如16X16)描述子。(6)局部熵值描述子(一階紋理特征)輸出每個像素的9X9鄰域內(nèi)的熵值,得到一個nXn維(如16X16)描述子。(7)基于灰度值共生矩陣(co-occurrencematrix)的二階統(tǒng)計描述子考慮距離為1像素,方向分別為水平、對角線、垂直和反對角線的像素對。計算共生矩陣的對比度值、角二階矩值、相關(guān)系數(shù)和方差。這種描述子的維度是16(4方向X4種度量)。(8)基于灰度值共生矩陣(co-occurrencematrix)的二階統(tǒng)計描述子考慮距離為2像素,方向分別為水平和垂直的像素對。計算共生矩陣的對比度值、角二階矩值、相關(guān)系數(shù)和方差。這種描述子的維度是8(2方向X4種度量)。然后使用k-mems聚類得到有8個成員視覺詞匯本的詞匯本集體?;诖艘曈X詞匯本集體,對訓(xùn)練圖像集分別進行量化。在量化時,每個訓(xùn)練圖像在‘cmny,邊上釆樣800個興趣點來量化。量化后得到了8種表述圖像不圖方面特征的量化訓(xùn)練集,在不同的量化訓(xùn)練集上訓(xùn)練線性支持向量機得到大小為8的分類器集體。對新的圖像進行識別時,首先用學(xué)習到的視覺詞匯本集體對圖像分別量化,然后分別用相應(yīng)分類器集體中的成員進行識別;將分類器集體識別結(jié)果集成得到最終識別結(jié)果。這里集成可以使用最簡單的無加權(quán)投票法,也可以根據(jù)先驗知識釆用加權(quán)投票法,給不同特征信息不同的權(quán)重。實驗結(jié)果表明,本發(fā)明優(yōu)選的具體實施例比傳統(tǒng)基于單個視覺詞匯本的識別方法具有更好的性能,甚至超過了一些經(jīng)過精心參數(shù)調(diào)整的復(fù)雜模型的性能。參考文獻[1]D.G.Lowe,〃Theviewpointconsistencyconstraint,〃InternationalJournalofComputerVisionResearch,vol.1,pp.57—72,1987.[2]B.SchieleandJ·L·Crowley,“Objectrecognitionwithoutcorrespondenceusingmultidimensionalreceptivefieldhistograms,“InternationalJournalofComputerVisionResearch,vol.36,pp.31-50,2000.[3]M.Pontil,S.Rogai,andA.Verri,”Recognizing3-dobjectswithlinearsupportvectormachines,“presentedatProceedingsofthe5thEuropeanConferenceonComputerVision,Freiburg,Germany,1998.[4]J.Matas,0.Chum,U.Martin,andT.Pajdla,"Robustwidebaselinestereofrommaximallystableextremalregions,“presentedatProc.BMVC,2002.[5]K.MikolajczykandC.Schmid,”Anaffineinvariantinterestpointdetector,〃presentedatEuropeanConferenceonComputerVision(ECCV),Copenhagen,Denmark,2002.[6]D.G.Lowe,”Distinctiveimagefeaturesfromscale-invariantkeypoints,“IJCV,vol.60,pp.91-110,2004.[7]S.Belongie,J.Malik,andJ.Puzicha,”ShapeMatchingandObjectRecognitionUsingShapeContexts,“IEEEPAMI,2002.[8]Y.KeandR.Sukthankar,/rPCA-SIFT:AMoreDistinctiveRepresentationforLocalImageDescriptors,“CVPR,pp.506-513,2004·[9]C.SchmidandR.Mohr,”Localgreyvalueinvariantsforimageretrieval,〃IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.19,pp.530-534,1997.[10]G.CarneiroandA.D.Jepson,”FlexibleSpatialModelsforGroupingLocalImageFeatures,“CVPR,pp.747-754,2004.[11]P.MoreelsandP.Perona,”Common-FrameModelforObjectRecognition,“NIPS,2004.[12]M.A.FischlerandR.A.Elschlager,“Therepresentationandmatchingofpictorialstructures,”IEEETransactionsonComputer,vol.22,pp.67-92,1973.[13]A.B.Hillel,D.Weinshall,andT.Hertz,“Efficientlearningofrelationalobjectclassmodels,“presentedatIEEEInternationalConferenceonComputerVision,2005.[14]A.Torralba,K.Murphy,andW.Freeman,”Sharingfeatures:efficientboostingproceduresformulticlassobjectdetection,”presentedatCVPR,2004.[15]V.Ferrari,T.Tuytelaars,andL.V.Gool,〃IntegratingMultipleModelViewsforObjectRecognition,“presentedatIEEEComputerVisionandPatternRecognition(CVPR),Washington,USA,2004.[16]V.Ferrari,T.Tuytelaars,andL.V.Gool,〃Simultaneousogjectrecognitionandsegmentationbyimageexploration,“presentedatProc.ECCV,2004.[17]M.A.Ranzato,F.J.Huang,Y.-LBoureau,andY.LeCun,〃UnsupervisedLearningofInvariantFeatureHierarchieswithApplicationstoObjectRecognition,”presentedatIEEEConferenceonComputerVisionandPatternRecognition,2007.[18]B.OmmerandJ.M.Buhmann,”LearningtheCompositionalNatureofVisualObjects,〃presentedatIEEEConferenceonComputerVisionandPatternRecognition,2007.[19]D·ParikhandT.Chen,“UnsupervisedLearningofHierarchicalSemanticsofObjects(hSOs),〃presentedatIEEEConferenceonComputerVisionandPatternRecognition2007.[20]0.ChumandA.Zisserman,”AnExemplarModelforLearningObjectClasses,“presentedatProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2007.[21]F.-F.Li,“VisualRecognition!ComputationalModelsandHumanPsychophysics,“vol.DoctorofPhilosophy.Pasadena,CaliforniaCaliforniaInstituteofTechnology,2005.[22]0.A.,F(xiàn)I,P.Α.,andA.P.,“Weakhypothesesandboostingforgenericobjectdetectionandrecognition,“presentedatECCV,2004.[23]J.Shotton,A.Blake,andR.Cipolla,”Contour-basedlearningforobjectdetection,”presentedatProc.ICCV,2005.[24]B.H.A.,H.T.,andW.D.,”O(jiān)bjectclassrecognitionbyboostingapartbasedmodel,“presentedatCVPR,2005.[25]A.Opelt,A.Pinz,andA.Zisserman,”Incrementallearningofobjectdetectorsusingavisualshapealphabet,“presentedatCVPR,2006o權(quán)利要求一種基于視覺詞匯本集體的不變性識別方法,其特征在于利用數(shù)據(jù)和興趣點采樣以及利用不同描述子表示圖像不同方面信息,生成視覺詞匯本集體,具體步驟如下1)首先對訓(xùn)練數(shù)據(jù)集隨機采樣得到訓(xùn)練數(shù)據(jù)子集;2)對此訓(xùn)練子集中的每個圖像提取興趣點,然后從中隨機采樣一部分;3)對采樣得到的興趣點集分別采用不同的描述方法,使用聚類算法對其進行聚類得到一個視覺詞匯本;4)重復(fù)步驟1到步驟3,直到生成預(yù)設(shè)大小的視覺詞匯本集體。2.根據(jù)權(quán)利要求1所述的方法,其特征在于根據(jù)視覺詞匯本集體生成相應(yīng)分類器集體,具體步驟如下1)對于生成的視覺詞匯本集體,每個成員視覺詞匯本融合了不同的圖像信息;2)對于一個成員視覺詞匯本,對訓(xùn)練數(shù)據(jù)進行量化;3)在量化后的訓(xùn)練數(shù)據(jù)集上學(xué)習一個分類器;4)重復(fù)步驟2到步驟3,生成預(yù)設(shè)大小的分類器集體。3.根據(jù)權(quán)利要求2所述的方法,其特征在于所述對興趣點的描述采用如下8種描述子描述(1)顏色描述子興趣點中的每個像素的顏色值用來形成nXnX3維的特征矢量,用這種類型的描述子來捕獲圖像的顏色信息;(2)顏色小波描述子對每個興趣點的顏色信息進行‘Haar’二維小波一階分解來得到nXnX3維的特征矢量;(3)邊信息描述子‘Canny’邊檢測子用來獲得nXn維描述子;使用這種類型的描述子,物體的形狀信息被用來識別物體;(4)局部范圍描述子輸出每個像素的3X3鄰域內(nèi)的灰度值范圍,得到一個nXn維描述子;(5)局部標準差描述子輸出每個像素的3X3鄰域內(nèi)的灰度值標準差,得到一個nXn維描述子;(6)局部熵值描述子輸出每個像素的9X9鄰域內(nèi)的熵值,得到一個nXn維(如16X16)描述子;(7)基于灰度值共生矩陣的二階統(tǒng)計描述子考慮距離為1像素,方向分別為水平、對角線、垂直和反對角線的像素對;計算共生矩陣的對比度值、角二階矩值、相關(guān)系數(shù)和方差;這種描述子的維度是16;(8)基于灰度值共生矩陣的二階統(tǒng)計描述子考慮距離為2像素,方向分別為水平和垂直的像素對;計算共生矩陣的對比度值、角二階矩值、相關(guān)系數(shù)和方差;這種描述子的維度是8;其中,nXn為圖像的興趣點尺寸,即像素數(shù)。4.根據(jù)權(quán)利要求3所述的方法,其特征在于對新的圖像進行識別時,首先用學(xué)習到的視覺詞匯本集體對圖像分別量化,然后分別用相應(yīng)分類器集體中的成員進行識別;將分類器集體識別結(jié)果集成得到最終識別結(jié)果。全文摘要本發(fā)明屬于模式識別、計算機視覺、圖像理解
技術(shù)領(lǐng)域:
,具體為一種基于視覺詞匯文本集體的不變性識別方法。本發(fā)明首先對訓(xùn)練數(shù)據(jù)采樣后,再對興趣點采樣,然后對興趣點使用不同特征描述方法進行描述,對描述后的矢量進行聚類建立視覺詞匯本。通過利用每次采樣得到的不同數(shù)據(jù)子集,興趣點子集以及不同的特征描述方法得到視覺詞匯本集體?;诋a(chǎn)生的視覺詞匯本集體,得到分類器集體,從而建立物體類的認知模型和模型的學(xué)習方法,使之能根據(jù)當前的識別任務(wù)來自適應(yīng)選擇特征或特征的權(quán)重。實驗結(jié)果表明此方法能得到較好的效果,能有效提高傳統(tǒng)的基于單個視覺詞匯本的圖像識別方法的性能。文檔編號G06K9/66GK101807259SQ201010132099公開日2010年8月18日申請日期2010年3月25日優(yōu)先權(quán)日2010年3月25日發(fā)明者危輝,羅會蘭申請人:復(fù)旦大學(xué)