專利名稱:一種圖像分類方法和裝置的制作方法
一種圖像分類方法和裝置技術領域
本申請涉及圖像處理技術,特別是涉及一種圖像分類方法和裝置。
技術背景
數字化的醫學影像設備,如CT、MRI, PET等在臨床醫學中被大量應用,使得醫學圖 像的數據量急劇增長,以至于現有的圖像存儲及管理方式、圖像處理與分析方法都面臨著 巨大的挑戰。而基于內容的醫學圖像分類技術作為一種圖像處理技術,可以完成醫學圖像 類別的自動標注任務,使新產生的醫學圖像自動實現類別標注,并進一步完善醫學圖像資 源的存儲與檢索功能。目前的圖像分類技術主要是先根據訓練數據進行分類器的訓練,當 通過訓練得到一個分類器后,再利用訓練得到的分類器對待分類圖像進行分類。
基于內容的醫學圖像分類技術以醫學圖像特征參數的提取為實現前提。由于醫學 圖像自身的特定和應用背景特點使得單一的特征參數提取方法難以在醫學圖像內容的表 達中取得理想的效果。同時,實驗數據也表明,采用多特征參數實現的醫學圖像分類的準確 率要高于采用單一特征參數實現的醫學圖像分類的準確率。因此,采用多特征參數實現醫 學圖像分類成為一個重要的研究內容。
在采用多特征參數實現醫學圖像分類的過程中,會出現提取出的特征參數的特征 數據的維度較高問題。例如,對一個待分類的圖像提取Haralick、灰度直方圖、形狀上下文、 FFT、Gabor這幾種特征參數時,Haralick的特征數據的維度為14,灰度直方圖的特征數據 的維度為16,形狀上下文的特征數據的維度為72,FFT的特征數據的維度為10,GabOr的特 征數據的維度為64。顯然,從待分類圖像中提取的特征參數的特征數據的維度較高。
發明人在研究中發現,如果直接利用高維特征數據進行圖像分類,由于數據維度 過高,以及不同特征數據間的關系被忽略的因素,會直接導致分類器效率和準確度的下降。 如果對高維特征數據進行降維處理,如采用PCA (Principal Component Analysis,主成分 分析)降維方法,會使得原特征數據的信息丟失,沒有充分利用提取的特征信息。發明內容
為了解決上述技術問題,本申請實施例提供了一種分類方法和裝置,以在避免特 征數據的信息丟失的同時,提高分類器效率和準確度。
本申請實施例公開了如下技術方案
一種圖像分類方法,包括分別將從M個已知類別的訓練圖像樣本中提取出的每 一個特征數據劃分為N個訓練數據樣本塊,對所述訓練數據樣本塊進行分類,根據位于同 一順位的訓練數據樣本塊的分類結果統計出實際類別為C/而分類結果為C/的訓練數據 樣本塊個數,將統計得到的訓練數據樣本塊個數除以訓練圖像的樣本總數M,得到概率集 合,預存所述概率集合,其中,其中M、N均為不小于2的整數,Ci'為所述訓練圖像的第i個類別,C/為所述訓練圖像的第j個類別,i = 1,2,......m, j = 1,2,......m,m為所述訓練圖像的類別總數;將從待分類圖像中提取出的特征數據按照所述訓練圖像的劃分方式劃分為N個特征數據塊,對所述特征數據塊進行分類,得到反映特征數據塊類別的數據塊分 類結果,從預存的概率集合中提取出實際類別為所述數據塊分類結果中的類別而被判為Ck 的概率,將提取出的概率值進行乘積運算,得到數據塊分類結果中的每個類別的后驗概率, 從所述數據塊分類結果的所有類別中,選擇后驗概率最大的類別作為所述待分類圖像的分 類結果,其中,Ck為第k個特征數據塊的類別,k = 1,2,......N。
一種圖像分類裝置,包括圖像訓練單元,用于分別將從M個已知類別的訓練圖 像樣本中提取出的每一個特征數據劃分為N個訓練數據樣本塊,對所述訓練數據樣本塊進 行分類,根據位于同一順位的訓練數據樣本塊的分類結果統計出實際類別為C/而分類結 果為C/的訓練數據樣本塊個數,將統計得到的訓練數據樣本塊個數除以訓練圖像的樣本 總數M,得到概率集合,預存所述概率集合,其中,其中M、N均為不小于2的整數,C/為所述訓練圖像的第i個類別,C/為所述訓練圖像的第j個類別,i = 1,2,......m,j = 1,2,......m,m為所述訓練圖像的類別總數;圖像分類單元,用于將從待分類圖像中提取出的特征數據按照所述訓練圖像的劃分方式劃分為N個特征數據塊,對所述特征數據塊進行 分類,得到反映特征數據塊類別的數據塊分類結果,從預存的概率集合中提取出實際類別 為所述數據塊分類結果中的類別而被判為Ck的概率,將提取出的概率值進行乘積運算,得 到數據塊分類結果中的每個類別的后驗概率,從所述數據塊分類結果的所有類別中,選擇 后驗概率最大的類別作為所述待分類圖像的分類結果,其中,Ck為第k個特征數據塊的類 另ij,k = 1,2,......N。
由上述實施例可以看出,與現有技術相比,本申請具有如下優點
(1)高維特征數據被充分利用
高維特征數據全部都參與分類過程,特征數據得到充分利用。因此,避免了高維特 征數據的信息丟失。
(2)基于概率統計決策
在分類過程中,每個劃分后的特征數據塊之間相互獨立,互不干擾,基于后驗概率 統計原理進行最終分類決策。因為分類決策基于統計原理,所以特征數據塊的數量越多,分 類決策越準確。
(3)抗干擾能力強
噪音產生的對某些特征描述效果的干擾會被多個具有異構分類器的葉子分類結 點弱化,提高了分類方法的抗干擾能力。
為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,對于本領域普通技術人員來講,在不付出 創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本申請一種圖像分類方法的一個實施例的流程圖2為本申請的圖像分類過程中分類訓練階段的流程圖3為本申請一種高維特征數據劃分后的數據結構示意圖4為本申請一種數據分配后的數據結構示意圖5為本申請的圖像分類過程中分類應用階段的流程圖;5
圖6為本申請一種圖像分類裝置的一個實施例的結構圖7(a)為本申請一種均勻四分法的圖像分區示意圖7(b)為本申請一種由外向內平分法的圖像分區示意圖7(c)為本申請一種由內向外平分法的圖像分區示意圖8為本申請中基于多特征的醫學圖像分類的區域準確性比對圖。
具體實施方式
下面結合附圖及實施例,對本申請實施例進行詳細描述。應當理解,此處所描述的 具體實施例僅用以解釋本申請,并不用于限定本申請。
實施例一
請參閱圖1,其為本申請一種圖像分類方法的一個實施例的流程圖,包括以下步 驟
步驟101 分別將從M個已知類別的訓練圖像樣本中提取出的特征數據劃分為N 個訓練數據樣本塊,對所述訓練數據樣本塊進行分類,根據位于同一順位的訓練數據樣本 塊的分類結果統計出實際類別為C/而分類結果為C/的訓練數據樣本塊個數,將統計得 到的訓練數據樣本塊個數除以訓練圖像的樣本總數,得到概率集合,預存所述概率集合,其 中,其中M、N均為不小于2的整數,C/為所述訓練圖像的第i個類別,C/為所述訓練圖像 的第j個類別,i = 1,2,......m, j = 1,2,......m,m為所述訓練圖像的類別總數;
步驟102 將從待分類圖像中提取出的特征數據按照所述訓練圖像的劃分方式劃 分為N個特征數據塊,對劃分得到的特征數據塊進行分類,得到反映特征數據塊類別的數 據塊分類結果,從預存的概率集合中提取出實際類別為所述數據塊分類結果中的類別而被 判為Ck的概率,將提取出的概率值進行乘積運算,得到數據塊分類結果中的每個類別的后 驗概率,從所述數據塊分類結果的所有類別中,選擇后驗概率最大的類別作為所述待分類 圖像的分類結果,其中,Ck為第k個特征數據塊的類別,k = 1,2,......N。
其中,從訓練圖像或者待分類圖像中提取出的特征數據通常是高維數據,將高維 的特征數據劃分為一個個的訓練數據樣本塊或者特征數據塊,這樣,每一個劃分后的訓練 數據樣本塊或者特征數據塊都是低維數據。
需要說明的是,本申請實施例對劃分方式不進行具體限定,從劃分的結果來看,劃 分后的訓練數據樣本塊或者特征數據塊之間相互重疊或者互不重疊。另外,本申請實施例 對所劃分的訓練數據樣本塊或者特征數據塊的個數也不進行具體限定,維數越高,所劃分 的特征數據塊的個數越多。
優選的,當特征數據的維度為1000以上時,訓練數據樣本塊或者特征數據塊的個 數至少為15。
還需要說明的是,本申請實施例可以采用現有的任意一種分類方法對劃分得到的 特征數據塊或者訓練數據樣本塊進行分類,因此,本申請實施例對采用的分類方法并不進 行限定。
其中,所述對訓練數據樣本塊進行分類具體包括采用相同的分類方法對劃分得 到的訓練數據樣本塊進行分類;或者,采用不同的分類方法對劃分得到的訓練數據樣本塊 進行分類。
所述特征數據塊進行分類具體包括采用相同的分類方法對劃分得到的特征數據 塊進行分類;或者,采用不同的分類方法對劃分得到的特征數據塊進行分類。
例如,在對5個特征數據塊進行分類時,5個特征數據塊可以采用相同的分類方法 進行分類,也可以分別采用不同的分類方法對5個特征數據塊進行分類,如,前三個特征數 據塊采用分類方法1進行分類,后兩個特征數據塊采用分類方法2進行分類。并且,每個特 征數據塊的分類方法既可以固定不變,也可以被改變。
通過分類后,得到了反映了每一個特征數據塊類別的數據塊分類結果。如,當待分 類圖像的類別共有A和B兩種時,通過分類后,5個特征數據塊的分類結果分別為A類別、 B類別、A類別、B類、A類別。
下面通過一個簡單的例子,來說明上述復雜的后驗概率計算過程。例如,假設,訓練圖像樣本包括訓練圖像1、訓練圖像2......訓練數據5,且,訓練圖像1-訓練圖像5的類別都已知。假設待分類圖像的特征數據被劃分為5個特征數據塊,則按照待分類圖像的 劃分方式,將訓練圖像1的特征數據劃分為5個訓練數據樣本塊訓練數據樣本塊11、訓練數據樣本塊12......訓練數據樣本塊15,將訓練圖像2的特征數據劃分為5個訓練數據樣本塊訓練數據樣本塊21、訓練數據樣本塊22......訓練數據樣本塊25。以此類推,可以獲得共5*5 = 25個訓練數據樣本塊,對上述劃分的25個訓練數據樣本塊分別進行分類。假 設,待訓練圖像的類別共有A和B兩種時,在位于同一順位的訓練數據樣本塊中,如,訓練數據樣本塊11、訓練數據樣本塊21......訓練數據樣本塊51在各自的訓練圖像的特征數據中都位于第一順位,即屬于同一順位,因此,在位于第一順位的這5個訓練數據樣本塊中, 根據這5個訓練數據樣本塊的分類結果統計得到,實際類別為A而分類結果為A的訓練數 據樣本塊個數為2,實際類別為A而分類結果為B的訓練數據樣本塊個數為1,實際類別為B 而分類結果為A的訓練數據樣本塊個數為1,實際類別為B而分類結果為B的訓練數據樣本 塊個數為1。將統計得到的個數除以總數5,因此,根據位于第一順位的5個訓練數據樣本 塊而獲得的概率實際類別為A而分類結果為A的概率為2/5,實際類別為A而分類結果為 B的概率為1/5,實際類別為B而分類結果為A的概率為1/5,實際類別為B而分類結果為B(215 1/5)的概率為1/5。如果用矩陣的形式表示,則為』=1/5 1/5。同樣,根據位于其它順位的 4個訓練數據樣本塊也可以獲得相應的概率,最終得到一個概率集合,預存最終得到的概率皇A朱口 ο
假設待分類圖像的類別共有A和B兩種時,通過分類后,待分類圖像的5個特征數 據塊的分類結果分別為A類別、B類別、A類別、B類、A類別。其中,對于A類別來說,類別 A的后驗概率的計算方法為從上述概率集合的P1中提取出實際類別為A而被分類為A的 概率,從P2中提取出實際類別為A而被分類為B的概率,從P3中提取出實際類別為A而被 分類為A的概率,從P4中提取出實際類別為A而被分類為B的概率,從P5中提取出實際類 別為A而被分類為A的概率,將上述提取出的5個概率進行乘積,最終得到A類別的后驗概 率。根據同樣的方法,從上述概率集合的P1中提取出實際類別為B而被分類為A的概率, 從P2中提取出實際類別為B而被分類為B的概率,從P3中提取出實際類別為B而被分類為 A的概率,從P4中提取出實際類別為B而被分類為B的概率,從P5中提取出實際類別為B而 被分類為A的概率,將上述提取出的5個概率進行乘積,最終得到B類別的后驗概率。
得到類別A和類別B的后驗概率后,擇后驗概率最大的類別作為所述待分類圖像 的分類結果。例如,通過比較發現,類別A的后驗概率最大,因此,待分類圖像的分類結果為 A類。
由上述實施例可以看出,與現有技術相比,本申請具有如下優點
(1)高維特征數據被充分利用
高維特征數據全部都參與分類過程,特征數據得到充分利用。因此,避免了高維特 征數據的信息丟失。
(2)基于概率統計決策
在分類過程中,每個劃分后的特征數據塊之間相互獨立,互不干擾,基于后驗概率 統計原理進行最終分類決策。因為分類決策基于統計原理,所以特征數據塊的數量越多,分 類決策越準確。
(3)抗干擾能力強
噪音產生的對某些特征描述效果的干擾會被多個具有異構分類器的葉子分類結 點弱化,提高了分類方法的抗干擾能力。
實施例二
下面將結合計算公式詳細說明本發明中圖像分類的具體實現過程。在本實施例 中,將整個圖像分類過程主要分為兩個階段,第一階段是分類訓練階段,第二個階段是分類 應用階段。以下將分別對這兩個階段加以說明。首先,請參閱圖2,其為本申請的圖像分類 過程中分類訓練階段的流程圖。包括以下步驟
步驟201 從訓練圖像樣本中提取特征數據;
例如,將81M幅已知類別的醫學圖像作為分類訓練階段的訓練圖像樣本,樣本數 為8154,并最終得到81M組高維特征數據。
步驟202 將訓練圖像樣本的特征數據劃分為訓練數據樣本塊;
例如,請參閱圖3,其為本申請一種高維特征數據劃分后的數據結構示意圖。如圖 3所示,將81M組高維特征數據分別劃分為N個訓練數據樣本塊,最終得到81M*N個訓練 數據樣本塊。
步驟203 將每組高維特征數據的N個訓練數據樣本塊輪詢地分配給N個分類器, 由分類器對訓練數據樣本快進行分類;
例如,請參閱圖4,其為本申請一種數據分配后的數據結構示意圖。如圖4所示,每 組高維特征數據中的第一個訓練數據樣本塊都被分配到了第一個分類器,每組高維特征數據中的第二個訓練數據樣本塊都被分配到了第二個分類器,......直至每組高維特征數據中的第N個訓練數據樣本塊都被分配到了第N個分類器。
這里需要說明的是,N個分類器可以采用相同的分類方法對訓練數據樣本塊進行 分類,也可以采用不同的分類方法進行分類。
步驟204:在同一順位的各個訓練數據樣本塊的分類結果中,統計出實際類別為 C/而分類結果為C/的訓練數據樣本塊個數;
例如,已知的訓練圖像的類別共有m種,則將第k順位中的各個訓練數據樣本塊的 統計結果以矩陣的形式表示如下
權利要求
1.一種圖像分類方法,其特征在于,包括分別將從M個已知類別的訓練圖像樣本中提取出的每一個特征數據劃分為N個訓練數 據樣本塊,對所述訓練數據樣本塊進行分類,根據位于同一順位的訓練數據樣本塊的分類 結果統計出實際類別為C/而分類結果為C/的訓練數據樣本塊個數,將統計得到的訓練 數據樣本塊個數除以訓練圖像的樣本總數M,得到概率集合,預存所述概率集合,其中,其中 M、N均為不小于2的整數,C/為所述訓練圖像的第i個類別,C/為所述訓練圖像的第j個 類別,i = 1,2,......m, j = 1,2,......m,m為所述訓練圖像的類別總數;將從待分類圖像中提取出的特征數據按照所述訓練圖像的劃分方式劃分為N個特征 數據塊,對所述特征數據塊進行分類,得到反映特征數據塊類別的數據塊分類結果,從預存 的概率集合中提取出實際類別為所述數據塊分類結果中的類別而被判為Ck的概率,將提取 出的概率值進行乘積運算,得到數據塊分類結果中的每個類別的后驗概率,從所述數據塊 分類結果的所有類別中,選擇后驗概率最大的類別作為所述待分類圖像的分類結果,其中, Ck為第k個特征數據塊的類別,k = 1,2,......N。
2.根據權利要求1所述的方法,其特征在于,所述對訓練數據樣本塊進行分類具體包括采用相同的分類方法對劃分得到的訓練數據樣本塊進行分類;或者,采用不同的分類方法對劃分得到的訓練數據樣本塊進行分類。
3.根據權利要求1所述的方法,其特征在于,所述對特征數據塊進行分類具體包括采用相同的分類方法對劃分得到的特征數據塊進行分類;或者,采用不同的分類方法對劃分得到的特征數據塊進行分類。
4.根據權利要求1所述的方法,其特征在于,所述訓練數據樣本塊之間,以及,特征數 據塊之間數據互相重疊或者互不重疊。
5.根據權利要求1-4中的任意一項所述的方法,其特征在于,當特征數據的維度為 1000以上時,訓練數據樣本塊或者特征數據塊的個數至少為15。
6.一種圖像分類裝置,其特征在于,包括圖像訓練單元,用于分別將從M個已知類別的訓練圖像樣本中提取出的每一個特征數 據劃分為N個訓練數據樣本塊,對所述訓練數據樣本塊進行分類,根據位于同一順位的訓 練數據樣本塊的分類結果統計出實際類別為C/而分類結果為C/的訓練數據樣本塊個數, 將統計得到的訓練數據樣本塊個數除以訓練圖像的樣本總數M,得到概率集合,預存所述概 率集合,其中,其中M、N均為不小于2的整數,C/為所述訓練圖像的第i個類別,C/為所述訓練圖像的第j個類別,i = 1,2,......m, j = 1,2,......m,m為所述訓練圖像的類別總數;圖像分類單元,用于將從待分類圖像中提取出的特征數據按照所述訓練圖像的劃分方 式劃分為N個特征數據塊,對所述特征數據塊進行分類,得到反映特征數據塊類別的數據 塊分類結果,從預存的概率集合中提取出實際類別為所述數據塊分類結果中的類別而被判 為Ck的概率,將提取出的概率值進行乘積運算,得到數據塊分類結果中的每個類別的后驗 概率,從所述數據塊分類結果的所有類別中,選擇后驗概率最大的類別作為所述待分類圖像的分類結果,其中,Ck為第k個特征數據塊的類別,k = 1,2,......N。
7.根據權利要求6所述的裝置,其特征在于,所述圖像訓練單元包括第一劃分子單元,用于采用相同的分類方法對劃分得到的訓練數據樣本塊進行分類; 或者,第二劃分子單元,用于采用不同的分類方法對劃分得到的訓練數據樣本塊進行分類。
8.根據權利要求6所述的裝置,其特征在于,所述圖像分類單元包括第三劃分子單元,用于采用相同的分類方法對劃分得到的特征數據塊進行分類; 或者,第四劃分子單元,用于采用不同的分類方法對劃分得到的特征數據塊進行分類。
9.根據權利要求6所述的裝置,其特征在于,所述訓練數據樣本塊之間,以及,特征數 據塊之間數據互相重疊或者互不重疊。
10.根據權利要求6-9中的任意一項所述的裝置,其特征在于,當特征數據的維度為 1000以上時,訓練數據樣本塊或者特征數據塊的個數至少為15。
全文摘要
本申請實施例公開了一種圖像分類方法和裝置。其中,所述方法包括將從待分類圖像中提取出的特征數據劃分為至少兩個特征數據塊;對劃分得到的特征數據塊進行分類,得到反映特征數據塊類別的數據塊分類結果;計算數據塊分類結果中的每個類別的后驗概率;從數據塊分類結果的所有類別中,選擇后驗概率最大的類別作為所述待分類圖像的分類結果。根據本申請實施例,可以在避免特征數據的信息丟失的同時,提高分類器效率和準確度。
文檔編號G06K9/66GK102034117SQ20101059426
公開日2011年4月27日 申請日期2010年12月17日 優先權日2010年12月17日
發明者李博, 楊金柱, 栗偉, 趙大哲 申請人:東軟集團股份有限公司