專利名稱:模式識別中的特征提取方法及裝置的制作方法
技術領域:
本發明涉及模式識別領域,特別涉及模式識別中的特征提取方法及裝置。
技術背景模式是通過對具體的個別事物進行觀測所得到的具有時間和空間分布的信息;把模式所 屬的類別或同一類中模式的總體稱為模式類(或簡稱為類)。而"模式識別"則是在某些一定 量度或觀測基礎上把待識模式劃分到各自的模式類中去。模式識別的研究主要集中在兩方面,即研究生物體(包括人)是如何感知對象的,以及在 給定的任務下,如何用計算機實現模式識別。一個計算機模式識別系統基本上由三個相互關聯而又有明顯區別的過程組成,即數據生 成、模式分析和模式分類。數據生成是將輸入模式的原始信息進行量化處理,轉換為向量, 成為計算機易于處理的形式。模式分析是對數據進行加工,包括特征選擇、特征提取、數據 維數壓縮和決定可能存在的類別等。模式分類則是利用模式分析所獲得的信息,對計算機進 行訓練,從而制定判別標準,以期對待識模式進行分類。其中模式分析中的特征提取對于高效的模式分類是非常重要。模式分類涉及到各個領域, 如圖像分類、語音識別、生物技術、醫學等。分類的效率始終是模式分類研究的重要內容, 在很多實際問題中,可進行模式分類研究的特征變量非常多,如果將所有可供參考的特征變 量都考慮進去進行分類,那么效率將非常低,在實際中無法使用。因此,需要對特征變量進 行提取,將經特征提取得到的特征子集作為客觀分類器的輸入,經過對客觀分類器訓練,利 用特征子集進行分類,從而提高分類的效率。特征提取是基于搜索一個使信息損失量最小的特征子空間,信息量是通過特征子空間和 類變量之間的互信息來度量,特征提取方法不但考慮特征變量與類變量之間的相關性,而且 考慮特征變量之間的相關性。特征提取可應用在中醫學中。辨證論治是中醫的核心,辨證是利用中醫理論來理解和診 斷疾病的一種方法,證候是未知病因的癥狀復合體,是機體發生異常的表征。廣義的癥狀不但包括四診信息,還包括性別、體質、情緒、壓力、飲食、生活習慣等眾多因素。在辨證過 程中,因為有太多的癥狀體征,醫生很難將所有觀察到的癥狀都考慮進去。不同的癥狀體征 在辨證過程中起不同的作用,如何找出包含信息量最大的癥狀體征集合作為某種證候的辨證 標準是中醫界非常重要的問題。特征提取同樣可應用于數字圖像的模式識別。數字圖像的模式識別是根據圖像的像素灰 度值進行模式分類的, 一幅圖像的像素量很多,如常用的1280X960像素、640X480像素、 320X240像素、160X120像素等,如果在模式分類中將所有的像素作為模式分類器的輸入, 那樣的效率將非常低。因此特征提取對于圖像的模式分類也是非常重要的研究內容。在圖像 的特征提取中,將每個像素看作是一個特征變量,選取出對于模式分類最有用的像素作為客 觀分類器的輸入。關于特征變量提取的方法。相關分析是選擇信息量大的特征集合的基礎,特征變量可以 根據它們與類變量的相關度值進行選擇。目前有多種分析相關的統計方法,最簡單的方法是相關系數法,但該方法只適用于分析 線性相關問題,而許多實際中的問題都是非線性關系。通常使用的非線性統計分析方法是邏 輯(logistic)回歸法,該方法需要特征變量之間是相互獨立的,而實際的很多問題難以滿 足這個條件。更重要的是logistic回歸方法的回歸系數不能夠直接反映特征變量與類變量之 間的相關度值,要用勝算比(odds ratio, OR)值來確定,并且OR值沒有實際的物理意義。 主成分分析方法和因子分析方法也可用于相關性分析,這兩種方法也只能分析變量之間的線 性關系,不能度量變量之間任意的相關性。基于熵的互信息方法則不但可以分析數值變量(離散變量和連續變量)之間的相關性, 而且可以度量變量之間的任意相關性。互信息是熵理論中的核心概念之一,是非線性復雜系 統自適應性的重要測度,其實質是事物之間的信息傳遞,隨機變量之間的統計相關性,己被 應用到很多領域,特別是模式識別領域。與傳統方法相比,基于熵的互信息主要有以下優點1) 它既可以度量變量之間線性相關性又可度量變量之間的非線性相關性;2) 與logistic回歸非線性分析方法相比,基于熵的互信息方法對分析的變量沒有互相獨立的條件限制;3)基于熵的互信息方法不但可以分析數值變量(離散變量和連續變量)之間的相關性, 而且可以度量分級變量、符號變量之間的相關性。最優的特征選擇方法,是將所有的特征組合都評估一遍,這通常會產生組合爆炸問題, 因此研究有效的特征提取方法是非常重要的問題。目前,已經有很多學者從事這方面的研究, 幾種有效的特征提取方法已被提出,用來解決組合問題。但在這些方法中,選擇的特征個數 通常被預先人為指定,這樣勢必引入個人的主觀性,因此,不是一個好的截尾準則。發明內容本發明的目的之一在于提一種模式識別中的特征提取方法,能夠有效避免預先指定選擇 的特征個數的主觀性。為達到上述目的,本發明采用的技術方案為該模式識別中的特征提取方法,包括步驟根據樣本的模式原始信息確定離散的特征變量與類變量,并對該特征變量與類變量進行 預處理;設定聯合貢獻度閾值;確定特征變量的組合與類變量的聯合貢獻度;獲取所述聯合貢獻度大于或等于所設定聯合貢獻度閾值的特征變量的組合。在現有的特征提取方法中,選擇的特征個數通常被預先人為指定,這樣勢必引入個人的 主觀性。基于這個問題,本發明提出了一種新的基于互信息的貢獻度定義形式,用指定聯合 貢獻度的閾值代替指定特征個數作為特征提取的截尾準則。根據所指定的聯合貢獻度的閾值, 提取聯合貢獻度大于或等于所設定聯合貢獻度閾值的特征變量的組合,從而獲得一個使信息 損失量最小的特征子空間,這樣能有效避免以往特征提取中的主觀性。本發明的另一目的在于提一種模式識別中的特征提取裝置,能夠有效避免預先指定選擇 的特征個數的主觀性。為達到該目的,所采用的技術方案為該模式識別中的特征提取裝置,包括數值預處理模塊,用于根據樣本的模式原始信息確定離散的特征變量與類變量,并對該 特征變量與類變量進行預處理;確定每個特征變量可能的取值,確定類變量可能的取值,設 定特征子集,并把該特征子集初始化為空集;閾值設定模塊,用于設定聯合貢獻度閾值;聯合貢獻度確定模塊,用于確定特征子集與類變量的聯合貢獻度;特征提取模塊,用于根據該聯合貢獻度,獲取聯合貢獻度大于或等于所設定聯合貢獻度 閾值的特征子集。在現有的特征提取中,選擇的特征個數通常被預先人為指定,這樣勢必引入個人的主觀 性。基于這個問題,本發明提出了一種新的基于互信息的貢獻度定義形式,用設定模塊所預 先設定的聯合貢獻度的閾值代替指定特征個數作為特征提取的截尾準則。通過聯合貢獻度確 定模塊來確定特征子集與類變量的聯合貢獻度,根據設定模塊所預先設定的聯合貢獻度的閾 值,由特征提取模塊提取聯合貢獻度大于或等于所設定聯合貢獻度閾值的特征子集,從而獲 得一個使信息損失量最小的特征子空間,這樣能有效避免以往特征提取中的主觀性。
圖1為本發明模式識別方法的流程圖; 圖2為本發明模式識別裝置的系統框圖;圖3為本發明實施例中每個癥狀與證候之間的互信息示意圖; 圖4為本發明實施例中每個癥狀的貢獻度示意圖; 圖5為本發明實施例中選擇癥狀的聯合貢獻度示意圖。
具體實施方式
為了更好地理解本發明,下面結合附圖和具體實施方式
對本發明作詳細說明。特征提取是要選擇最重要的特征組合,使其信息損失量達到最小,從實用的角度出發, 可以節省大量的分類處理時間。本發明提出了一種基于新的截尾準則的特征提取方法和裝置,這主要是針對離散變量的 特征提取。在該特征提取方法和裝置中,定義了一種新的基于互信息的聯合貢獻度形式,用 指定聯合貢獻度的閾值代替指定特征個數作為特征提取的截尾準則,提取聯合貢獻度大于或 等于所設定聯合貢獻度閼值的特征變量的組合,從而獲得一個使信息損失量最小的特征子空 間,這樣能有效避免以往特征提取中的主觀性,同時,本發明提出的基于樣本量的計算聯合 互信息的方法,能大大降低計算量。一種新的基于互信息的貢獻度定義如下定義設/(x,;;r)"、i,2,…,"表示每個特征變量與類變量之間的互信息,/(AT;;r)表示總的聯合互信息,每個特征變量的基于互信息的貢獻度定義為《=/(Z,;10〃(W = l,2,..、w 特征變量集at的子集s與類變量r之間的聯合貢獻度為 ^ "0s;;r)〃(a:;;r)說明根據基于香農熵互信息的性質,特征變量越多,與類變量之間的互信息越大,因 此,貢獻度與聯合貢獻度的取值范圍在[O, l]之間。基于聯合貢獻度的特征提取具體操作方法介紹如下給定一個已選擇的特征子集s ,該算法從特征集合at中選擇下一個特征變量要滿足該特 征變量加入到s中生成的新的特征子集s <~ 與類變量之間的互信息最大。 一個特征變量要被選擇,那么該特征變量所提供的信息不應該在已選的特征子集s中包含。例如,如果兩個特征變量X,和X)是高度相關的,那么/(Z,.;X》的值就很大,當其中一個變量被選中, 則另一個變量被選中的機會將大大降低。本發明模式識別中的特征提取方法,包括步驟根據樣本的模式原始信息確定離散的特 征變量與類變量,并對該特征變量與類變量進行預處理;設定聯合貢獻度閾值;確定特征變 量的組合與類變量的聯合貢獻度;獲取所述聯合貢獻度大于或等于所設定聯合貢獻度閾值的 特征變量的組合。參考圖1所示,結合中醫的辨證論治問題,本發明模式識別中的特征提取方法,用于對從人體觀測到的中間癥狀信息進行處理,包括如下具體步驟步驟一、根據樣本的模式原始信息確定離散的特征變量與類變量,并對該特征變量與類 變量進行預處理;將所有特征變量組合為特征變量集,并確定每個特征變量可能的取值;確 定類變量可能的取值;設定特征子集,并把該特征子集初始化為空集。分析1022份血瘀證臨床數據。在這些數據里記載了 71個人體癥狀,這些癥狀所對應的 取值也就是模式原始信息,所有癥狀都用離散的特征變量表示,其中, 一些癥狀(特征變量) 有兩個值,用取值0, l表示, 一些癥狀(特征變量)有四個值,用取值0, 1, 2, 3表示; 中醫的證候用類變量表示,該類變量有五個值,分別代表中醫的五個證候氣虛血瘀、氣滯血瘀、陽虛血瘀、痰瘀互阻、瘀血阻絡。 步驟二、設定聯合貢獻度閾值。該閾值的取值范圍為
.具體的取值通常根據實際需求進行確定,閾值越大,提取的 癥狀數越多,根據經驗,該閾值的取值范圍一般為
。本實施例中的聯合貢獻度的 閾值指定為0. 95。步驟三、確定癥狀的組合與癥候之間的聯合貢獻度,具體包括如下步驟5300、 確定每個癥狀與癥候之間的互信息;5301、 確定使癥狀與證候之間的互信息最大的癥狀,將該癥狀從癥狀集合中去除,并加 入到特征子集中;5302、 確定該特征子集與證候的聯合貢獻度。其中,在步驟S300中,每個癥狀與證候的互信息是通過公式;" = ) + //(JO — //(X, ," = 2藝, c,) log r,(,,、來確定的。每個癥狀與證候的互信息公式是這樣的得來的設"個特征變量用集合Ar = {Z1;I2;-;Z }表示,其概率密度函數分別為 p( ),p(x2),…,p(;c") 。 ? e :l,2,…,m,表示變量Z,(癥狀)的所有可能值。類變量(證候)用y表示,它的概率分布用戶(力表示,變量r有A:個可能值ye(c丄z、l,2,…J,即意味著所有的特征被映射到A:類。義,和:r的聯合概率密度函數用p(x',;;)表示,特征變量義,.的 Shannon熵可表示為m,戶i類變量7的Shannon熵可表示為W) = -i>(01og;7(0(=1特征變量JT,和類變量r之間的聯合熵可表示為単,,=-£ t, &) iQg, c')其中可用特征變量集a:的一個子集來代替,即聯合熵可推廣到《個特征變量的情況。類變量F與特征變量X,之間的互信息可表示成/(X,; = //(X,) + (y) - //(X, , = 2 ^>(《,c,) log ,";, )、戶i/=i p("》p(。)其中x,可用特征變量集a:的一個子集來代替。特征變量、類變量和它們的聯合概率分布是通過統計的方法獲得的,具體為令"個特征變量用集合義={《,12,...,1 }表示,變量《有m,個值,即x'e{《},y = l,2, ,w,,類變量用y表示,變量7有A:個值,即;;e {c,}, z'= 1,2,…,t ,假設我 們有iV個隨機樣本r = {x,,乂} e (JxC),其中x, = (x),x,2,...,jc,") e爿={《}x {《}x…x {《}, 乂. =1,2,.-.,^,/ = 1,2,.",", = = 1,2,…,A; 。 JV),/ = 1,2, ,";_/ = 1,2,…,w,表示特征變量義,的值等于《的樣本數,iV,,/^,2,…J表示類變量y的值等于c,的樣本數, ^),"' = 1,2,-,";_/ = 1,2,-,附;;/ = 1,2廣.,^:表示特征變量《的值等于《,同時類變量7的值等 于。的樣本數。這時,特征變量、類變量和它們的聯合概率分布就可以通過統計的方法獲得,即 p(fl;)-iV)/AT ; ; (c,)-7V,/AA ; ; (《,。)=《〃〃,/ = 1,2,..,";_/ = 1,2,.",附,;/ = 1,2,.",& 。 同樣,特征變量子集s與類變量y之間的聯合概率分布也可獲得。通過計算每個癥狀與證候之間的互信息如圖3所示。在步驟S300與步驟S301之間還有步驟從癥狀集合中除去與證候的互信息小于預定值 的癥狀。通過上述互信息計算公式得的到每個癥狀與癥候的互信息后, 一些癥狀的互信息非常小, 因此這些癥狀可以被忽略,對保留下來的癥狀集合進行特征提取,而且這不會對正確分類產 生太大的影響,這樣可大大節省特征提取的時間。在步驟S302中,特征子集與證候的聯合貢獻度是通過公式~ =/OS;;r)//(x;:r) 來確定的。其中,^;表示聯合貢獻度;/(&T)表示聯合互信息,通過公式<formula>formula see original document page 12</formula>來確定;j(;v:;;r)表示總的聯合互信息。 下面介紹關于總的聯合互信息的確定方法。根據貢獻度的定義,需要計算癥狀集合與證候之間總的聯合互信息,當用常規的互信息 計算方法進行計算時,它的計算量非常大,并且當癥狀很多時會產生組合爆炸。例如,有30個癥狀,每個癥狀有4個取值,它們被映射到2類,那么它需要計算大約1.15xl0"個組合值,這在實際運算中是很難完成的。通過統計可以發現,在樣本有限的情況下,很多組合的概率為0,因此可通過樣本而不考慮具體的癥狀組合來計算總的聯合互信息,下面將介紹該計算方法。萬—A, 52,…,^;f是一個頻次向量,表示特征變量(癥狀)的值都相等的樣本數,它的計算過程將在下面描述。D = Py), z、l,2,…,7V; _/ = 1,2,...,&是一個頻次矩陣,表示特征變 量(癥狀)值都相等,同時類變量(證候)的值也相等的樣本數,五-(^,^,…,A,是一個 頻次向量,表示類變量(證候)的值相等的樣本數。該算法可通過下面的步驟來實現步驟S3031:設訓練樣本r已知,初始化參數令向量萬的所有元素值為1,令矩陣D和 向量五的所有元素值都為0。步驟S3032:下面的程序用來獲得計算概率時用到的頻次。 設z、l,2,…,W , 乂-"U + 2,…,iV如果5, =0,那么執行下一個循環;否則如果乂=^,,那么£, =£,+1, / = l,2,",/h 如果x, = x;,那么5, = 5, +1 , 57 = 0; 如果x,. =乂;和少,=c,,另卩么+1, Z-l,2,…,;t 步驟S3033:計算總的聯合互信息/=1 乂=1 乂v說明當A,xAxA等于O時,log(Dy/A^) = 0。利用該算法,很容易計算總的聯合互信息/(AT;:n,當樣本量不是很大的情況下,計算量 可大大的降低。例如,當^ = 2000, " = 30, * = 2時,僅需要A:xiVx(iV + l)/2s4xl06循環來 計算聯合概率,該算法與特征變量(癥狀)個數和每個特征變量(癥狀)可能的取值個數無 關。通過計算本實施例中71個癥狀與證候之間總的聯合互信息為1. 7342。根據每個特征變量的基于互信息的貢獻度的定義,很容易計算每個癥狀的貢獻度,所有 癥狀的單獨貢獻度如圖4所示。步驟四獲取所述聯合貢獻度大于或等于所設定聯合貢獻度閾值的癥狀的組合,具體包 括歩驟將所確定的聯合貢獻度與所設定的聯合貢獻度閾值進行比較,若所確定的聯合貢獻度大于或等于所設定的聯合貢獻度閾值,則獲取該特征子集;若所確定的聯合貢獻度小于所設定的聯合貢獻度閾值,則對于癥狀集合的每個癥狀分別 與特征子集的組合,確定使該組合與證候的互信息最大的癥狀,將該癥狀從癥狀集合中去除,并加入到特征子集中;然后回到步驟三往下執行。通過特征提取,9個癥狀被選擇,他們的聯合貢獻度為0.9711,結果如圖5所示。選擇 的循序依次為急噪易怒,偏身麻木,胸悶,失眠,疲乏無力,職業,舌脈曲張,舌質紫暗, 面色黑,這意味這著這9個癥狀的聯合貢獻度最大,在診斷這五個癥候時包含的信息量最多。為證明所選擇的癥狀組合信息量最大,有效的方法是用這些癥狀來辨證,這里選用多類 支持向量機進行分類,支持向量機的設置為懲罰參數C-20,核函數選為徑向基函數,寬 度設為^:0.1。 863個樣本作為訓練樣本,余下的159個樣本作為測試樣本,當所有癥狀作 為支持向量機的輸入,通過訓練,107個樣本可以被正確分類,分類正確率為0.6729。當經 過特征提取的癥狀組合作為支持向量機的輸入,123個樣本可以被正確分類,分類正確率為 0. 7736。它的正確率高于所有癥狀作為輸入時的正確率是因為在整個癥狀集合中存在噪音, 經過特征提取,噪音可以被降低,因此經過特征提取的癥狀組合是信息量最大的組合。在該特征提取實例中如果用常規的互信息計算方法進行計算,會發生組合爆炸,實際中 無法實現,而根據這里提出的離散變量互信息的快速算法,本特征提取在2個小時左右就可 完成。本發明另一實例為利用本發明對實時集成電路IC P數字字符進行iM別。該實例是要實現對生產的IC卡上面打印的卡號進行快速識別,以檢驗打印的卡號與輸入 的卡號是否符合。每張卡上打印32個數字,這些打印的數字是由阿拉伯數字0-9組合而成的。首先通過圖像采集卡對IC卡上打印的數字進行采集,生成數字圖像,其次通過圖像處理 方法將打印的數字分割為32個數字區域,每個數字區域的大小為8X10個像素,然后對每個 數字區域進行識別,確定其所對應的數字。每秒鐘需要處理6張這樣的IC卡。應用本發明模式識別中的特征提取方法,對每個數字區域進行特征提取,包括如下步驟:SOl、根據樣本的模式原始信息確定離散的特征變量與類變量,并對該特征變量與類變量 進行預處理;將所有特征變量組合為特征變量集,并確定每個特征變量可能的取值;確定類 變量可能的取值;設定特征子集,并把該特征子集初始化為空集。在這里,模式原始信息為IC卡上數字圖像中像素點的灰度值,特征變量為數字圖像的像素點,類變量為數字值。每一個特征變量(像素點)有2個灰度值0和1,特征變量集合 為80個像素點。數字區域可分成10類,即數字0—9。S02、設定聯合貢獻度閾值。本實施例中的聯合貢獻度的閾值指定為0. 95S03,確定像素點的組合與數字之間的聯合貢獻度,具體包括如下步驟5031、 確定每個像素點與數字之間的互信息;5032、 確定使與數字互信息最大的像素點,將該像素點從像素點集合中去除,并加入到 特征子集中;5033、 確定該特征子集與數字之間的聯合貢獻度。其中,在步驟S031中,每個像素點與數字之間的互信息是通過上述公式 /(Z,;y) = (X,) + //(y)-i/(X,,y)=堂土,c,)log ,(,, )、來確定的。在步驟S031與步驟S032之間還有一步從像素點集合中除去與數字的互信息小于預定 值的像素點。通過上述互信息計算公式得的到每個像素點與數字的互信息后, 一些像素點的互信息非 常小,因此這些像素點可以被忽略,對保留下來的像素點集合進行特征提取,而且這不會對 正確分類產生太大的影響,這樣可大大節省特征提取的時間。在步驟S033中,特征子集與數字之間的聯合貢獻度是通過公式f, = 10 / /(AT; y) 來確定的。其中,^表示聯合貢獻度; /(&T)表示聯合互信息;/(A:;;r)表示總的聯合互信息。S04,獲取所述聯合貢獻度大于或等于所設定聯合貢獻度閾值的像素點的組合,具體包括 步驟將所確定的聯合貢獻度與所設定的聯合貢獻度閾值進行比較,若所確定的聯合貢獻度大于或等于所設定的聯合貢獻度閾值,則獲取該特征子集;若所確定的聯合貢獻度小于所設定的聯合貢獻度閾值,則對于像素點集合的每個像素點 分別與特征子集的組合,確定使該組合與數字之間的互信息最大的像素點,將該像素點從像 素點集合中去除,并加入到特征子集中,然后回到步驟S033往下執行。通過該特征提取方法,只有21個像素點就可以達到預期的識別效果,大大提高了 IC卡 上所打印卡號的識別效率。如圖2所示,本發明還提供一種模式識別中的特征提取裝置,包括數值預處理模塊10,根據樣本的模式原始信息確定離散的特征變量與類變量,并對該特 征變量與類變量進行預處理;閾值設定模塊20,用于設定聯合貢獻度閾值;聯合貢獻度確定模塊30,用于確定數值預處理模塊所設定的特征子集與類變量的聯合貢 獻度;特征提取模塊40,用于根據該聯合貢獻度,獲取聯合貢獻度大于或等于所設定聯合貢獻 度閾值的特征子集。其中,所述聯合貢獻度確定模塊30包括互信息確定單元301,用于確定每個特征變量與類變量之間的互信息;最大值確定單元303,用于根據所述互信息,確定使特征變量與類變量之間的互信息最 大的特征變量,將該特征變量從特征變量集中去除,并加入到特征變量集的子集中;對于特 征變量集的每個特征變量分別與特征子集的組合,確定使該組合與類變量的互信息最大的特 征變量,將該特征變量從特征變量集中去除,并加入到特征子集中;聯合貢獻度確定單元304,用于確定特征子集與類變量的聯合貢獻度。為了節省特征提取的時間,在所述互信息確定單元與最大值確定單元之間還有一過濾單元302,用于從特征變量集中除去與類變量的互信息小于預定值的特征變量。這樣,通過上 述互信息計算公式得的到每個癥狀與癥候的互信息后, 一些癥狀的互信息非常小,因此這些 癥狀可以被忽略,對保留下來的癥狀集合進行特征提取,而且這不會對正確分類產生太大的影響,這樣可大大節省特征提取的時間。 所述特征提取模塊40包括比較單元401,用于將所確定的聯合貢獻度與所設定的聯合貢獻度閾值進行比較;提取單元402,用于提取聯合貢獻度大于或等于所設定的聯合貢獻度閾值的特征子集。若比較單元401所確定的聯合貢獻度大于或等于所設定的聯合貢獻度閾值,則提取單元 402將該特征子集;若比較單元401所確定的聯合貢獻度小于所設定的聯合貢獻度閾值,則 由互信息確定單元301確定特征變量集的每個特征變量分別與特征子集的組合與類變量的互 信息,由最大值確定單元303從中確定使該組合與類變量的互信息最大的特征變量,將該特 征變量從特征變量集中去除,并加入到特征子集中;然后由聯合貢獻度確定單元304確定該 特征子集聯合貢獻度。所述閾值設定模塊所設定的聯合貢獻度閾值的取值范圍一般為
。本發明模式識別中的特征提取方法與裝置,主要是針對離散變量的特征提取。在該特征 提取方法和裝置中,定義了一種新的聯合貢獻度形式,這種基于聯合貢獻度的特征提取方法 可有效避免以往特征提取方法預先指定選擇的特征個數的主觀性,并且可以提高提取的速度, 能夠廣泛應用于離散的數字圖像信息、指紋信息、臉紋信息、語音信息或手寫/印刷字符信息 的等的特征提取。
權利要求
1、一種模式識別中的特征提取方法,其特征在于,包括步驟根據樣本的模式原始信息確定離散的特征變量與類變量,并對該特征變量與類變量進行預處理;設定聯合貢獻度閾值;確定特征變量的組合與類變量的聯合貢獻度;獲取所述聯合貢獻度大于或等于所設定聯合貢獻度閾值的特征變量的組合。
2、根據權利要求l所述的模式識別中的特征提取方法,其特征在于,所述的模式原始信息為人體癥狀所對應的取值,特征變量為人體的癥狀,類變量為病人 所屬的疾病類型;或者,所述的模式原始信息為集成電路卡表面的數字圖像中像素點的灰度值,特征變量為數字 圖像的像素點,類變量為數字值。
3、 根據權利要求1或2所述的模式識別中的特征提取方法,其特征在于,對所述特征變 量與類變量進行的預處理為將所有特征變量的組合作為特征變量集,并確定每個特征變量可能的取值; 確定類變量可能的取值;設定特征子集,并把該特征子集初始化為空集。
4、 根據權利要求3所述的模式識別中的特征提取方法,其特征在于,確定特征變量的組 合與類變量的聯合貢獻度的步驟包括-a、 確定每個特征變量與類變量之間的互信息;b、 確定使特征變量與類變量之間的互信息最大的特征變量,將該特征變量從特征變量 集中去除,并加入到特征子集中;c、 確定該特征子集與類變量的聯合貢獻度。
5、 根據權利要求4所述的模式識別中的特征提取方法,其特征在于,在步驟a與步驟b 之間還有步驟從特征變量集中除去與類變量的互信息小于預定值的特征變量。
6、 根據權利要求5所述的模式識別中的特征提取方法,其特征在于,特征子集與類變 量的聯合貢獻度的確定方法具體為其中,G表示聯合貢獻度, /(&T)表示聯合互信息,/(x; y)表示總的聯合互信息。
7、 根據權利要求6所述的模式識別中的特征提取方法,其特征在于,總的聯合互信息 是通過樣本計算獲得的,具體過程為步驟l:用頻次向量B = (A,A,…,S^f表示特征變量的值都相等的樣本數;用頻次矩陣"=(£>》, 1,2,…,7V; j、l,2,…J表示特征變量值都相等,同時類變量的 值也相等的樣本數;用頻次向量五-(^,^,…,A;T表示類變量的值相等的樣本數;步驟2:初始化參數令向量B的所有元素值為1,令矩陣D和向量五的所有元素值都為O; 步驟3:獲得計算概率時用到的頻次設 l,2,…,jV , _/ = / + U + 2,--.,iV如果A =0,那么執行下一個/循環; 否則如果乂=。,那么五/=£/+1, /二1,2,…,A:; 如果x, =xy,那么5, =5, +1, 5y =0; 如果x,-Xj和乂 =c;,那么D,, =£>,,+1, / = 1,2,---,A;; 步驟4:計算總的聯合互信息-<formula>formula see original document page 3</formula>
8、 根據權利要求4所述的模式識別中的特征提取方法,其特征在于,獲取所述聯合貢 獻度大于或等于所設定聯合貢獻度閾值的特征變量組合的步驟包括將所確定的聯合貢獻度與所設定的聯合貢獻度閾值進行比較, 若所確定的聯合貢獻度大于或等于所設定的聯合貢獻度閾值,則獲取該特征子集;若所確定的聯合貢獻度小于所設定的聯合貢獻度閾值,則對于特征變量集的每個特征變 量分別與特征子集的組合,確定使該組合與類變量的互信息最大的特征變量,將該特征變量 從特征變量集中去除,并加入到特征子集中;然后回到步驟c往下執行。
9、 一種模式識別中的特征提取裝置,其特征在于,包括數值預處理模塊,用于根據樣本的模式原始信息確定離散的特征變量與類變量,并對該 特征變量與類變量進行預處理;閾值設定模塊,用于設定聯合貢獻度閾值;聯合貢獻度確定模塊,用于確定數值預處理模塊所設定的特征子集與類變量的聯合貢獻度;特征提取模塊,用于根據該聯合貢獻度,獲取聯合貢獻度大于或等于所設定聯合貢獻度 閾值的特征子集。
10、 根據權利要求9所述的模式識別中的特征提取裝置,其特征在于,所述聯合貢獻 度確定模塊包括互信息確定單元,用于確定每個特征變量與類變量之間的互信息;最大值確定單元,用于根據所述互信息,確定使特征變量與類變量之間的互信息最大的 特征變量,將該特征變量從特征變量集中去除,并加入到特征變量集的子集中;對于特征變 量集的每個特征變量分別與特征子集的組合,確定使該組合與類變量的互信息最大的特征變 量,將該特征變量從特征變量集中去除,并加入到特征子集中;聯合貢獻度確定單元,用于確定特征子集與類變量的聯合貢獻度。
11、 根據權利要求10所述的模式識別中的特征提取裝置,其特征在于,在所述互信息 確定單元與最大值確定單元之間還有一過濾單元,用于從特征變量集中除去與類變量的互信 息小于預定值的特征變量。
12、 根據權利要求9所述的模式識別中的特征提取裝置,其特征在于,所述特征提取 模塊包括比較單元,用于將所確定的聯合貢獻度與所設定的聯合貢獻度閾值進行比較; 提取單元,用于提取聯合貢獻度大于或等于所設定的聯合貢獻度閾值的特征子集。
全文摘要
本發明公開了一種模式識別中的特征提取方法及裝置,為有效避免以往特征提取中預先人為指定選擇的特征個數的主觀性。該特征提取方法包括步驟根據樣本的模式原始信息確定離散的特征變量與類變量,并對該特征變量與類變量進行預處理;設定聯合貢獻度閾值;確定特征變量的組合與類變量的聯合貢獻度;獲取所述聯合貢獻度大于或等于所設定聯合貢獻度閾值的特征變量的組合。該特征提取裝置,包括數值預處理模塊、閾值設定模塊、聯合貢獻度確定模塊和特征提取模塊。本發明模式識別中的特征提取方法及裝置,能夠廣泛應用于離散的數字圖像信息、指紋信息、臉紋信息、語音信息或手寫/印刷字符信息的等的特征提取。
文檔編號G06K9/46GK101334843SQ20071011815
公開日2008年12月31日 申請日期2007年6月29日 優先權日2007年6月29日
發明者孫占全, 西廣成 申請人:中國科學院自動化研究所