一種醫學領域圖像語義相似度矩陣的生成方法
【技術領域】
[0001] 本發明屬于醫學語義網絡與知識網格計算與檢索技術領域,具體涉及一種醫學領 域圖像語義相似度矩陣的生成方法。
【背景技術】
[0002] 醫學領域知識因其應用的廣泛性,越來越受到相關學者的重視。醫學信息資源因 龐雜、分散、異構而呈現出相對孤立和難于滿足用戶對信息需求的狀況,造成在同一領域內 的圖像數據庫呈現出多樣性與沖突性,使得領域內知識庫間無法進行互操作。
[0003] 伴隨著網絡通訊以及云存儲等技術的迅速發展,包含各種醫學圖像的信息源規模 逐漸擴大。如何從海量數據中獲取隱含的、極具價值的信息成為數據挖掘領域的新方向。圖 像分類技術能夠將以相同或相似主題聚類的圖像歸類,以集合的形式確定主題,該方法使 得用戶不用花費大量的時間與精力去尋找目標圖像,從而更好地將注意力投入到所感興趣 的圖像組。然而圖像分類需要以度量圖像間的語義相似度為前提,同時機器能夠識別的圖 像基本視覺信息有限,無法完全與人類對圖像的內在含義理解相匹配,導致目前對于圖像 語義的分類存在諸多的問題,圖像歸類的效果十分有限,整體效率普遍不高。
[0004] 隨著對領域知識研究與應用的增多,大多數基于圖像檢索技術的領域知識庫研究 組織面向不同的應用開發出不同的領域知識庫系統,系統間存在著較大的差異。盡管這些 不盡相同的領域知識庫系統是對同一領域知識的集中描述,仍不可避免地包含著許多具有 重復語義的圖片信息,造成有限存儲空間的浪費,嚴重降低了醫學圖像語義檢索的效率與 準確性,最終使得領域內各知識實體之間無法進行互操作,大大制約了知識的使用效率。
【發明內容】
[0005] 本發明利用貝葉斯概率理論,對所獲取的領域圖像屬性提取離散化的特征,將領 域圖像知識信息源轉變為基于語義標注的關鍵詞集合,提出基于可辨識差別矩陣理論的概 念特征屬性集約簡方法,降低屬性約簡的計算規模,構建基于多角度語義距離的領域圖像 知識庫,獲取基于圖像語義關系的相似度計算模型。
[0006] 為實現上述目的,本發明的技術方案提出了一種領域圖像間語義相似度矩陣的生 成方法,本發明具體如下:
[0007] -種醫學領域圖像語義相似度矩陣的生成方法,通過計算機調取醫學領域圖像知 識庫內數據,并按如下步驟進行處理:
[0008] 步驟1.用貝葉斯概率模型對醫學領域圖像知識庫中的領域圖像進行語義信息的 標注,并對標注詞賦以權值,獲得賦有權值的標注詞。將賦有權值的標注詞的集合記為"語 義向量空間"。
[0009] 步驟2.對由步驟1獲得的賦有權值的標注詞提取離散化的特征,獲得包含離散化 特性的賦權標注詞。即該包含離散化特性的賦權標注詞與對應的領域圖像一一對應。所述 包含離散化特性的賦權標注詞的集合稱為"圖像屬性的語義空間"。步驟3.對步驟2所獲 得的"圖像屬性的語義空間"進行約簡處理,獲得特征屬性,由特征屬性構建維度最簡的約 簡集。所述約簡包括四個步驟:構造可辨識差別矩陣,求解可辨識差別矩陣的核,刪除可辨 識矩陣的差別屬性項,獲得維度最簡的約簡集。
[0010] 步驟4.由步驟3獲得的維度最簡的約簡集構建領域圖像語義相似度的計算模型, 通過領域圖像語義相似度的計算模型獲得醫學領域圖像語義相似度矩陣。
[0011] 進一步說,領域圖像是指影像報告中的圖片。醫學領域圖像知識庫是由領域圖像 構成的集合。
[0012] 在步驟1中,將領域圖像進行區域分割,形成圖像集合{P1,P2……}。采用人機交 互的方式對領域圖像進行語義標注,形成標注詞集合{C1,C2……}。計算標注詞集合{C1, C2……}中的每個標注詞的后驗概率,獲取帶權值信息的語義向量空間,該帶權值信息的語 義向量空間的集合即為語義向量空間集合。領域圖像是指影像報告中的圖片,醫學領域圖 像知識庫是由領域圖像構成的集合。
[0013] 在步驟2中,將由步驟1獲得的帶有權重的語義向量空間集合作為輸入量,構建條 件決策表。計算圖像屬性的決策閾值參數j,通過動態閾值迭代,遍歷連續圖像屬性的區間 劃分端點,獲取離散圖像屬性,將離散區間按遞減序排列,得到圖像屬性的語義空間,記為 離散編碼集合{A1,A2……}。
[0014] 在步驟3中,利用帶有雙向指針的二叉樹對步驟2獲得的離散編碼集合{A1, A2……}的差別屬性進行存儲,并通過調整初次抽樣系數p以及抽取函數f(0)的抽樣閾 值,構建可變識差別矩陣,獲取圖像屬性集合簇元素的多階方陣,求解圖像屬性維度的約簡 集 red()。
[0015] 在步驟4中,由圖像屬性維度的約簡集red(),計算標注詞節點屬性相似度、標注 詞節點深度屬性、標注詞節點非對稱屬性,度量節點間橫向語義距離、節點間縱向語義距 離、度量節點間非對稱語義距離,利用標注詞線性加權模型求解獲得圖像間語義相似度。
[0016] 有益的技術效果
[0017] 本發明的技術方案旨在解決圖像間語義鴻溝的消解問題,信息集成設計中的準確 度計算問題以及醫學臨床決策判別的圖像間語義距離度量問題,通過系統層面的優化,實 現醫學圖像之間基于語義的自動或半自動融合。本發明使用語義標注詞作為圖像語義信息 的領域知識表示,利用帶有不同層次權值的屬性作為區別重要標注概念的特征向量,提高 領域知識表示的準確率,降低了無關語義對的發生率,從而使得大規模融合領域知識成為 可能。
【附圖說明】
[0018] 圖1是本發明的方法流程圖。
[0019] 圖2是圖1中步驟1的具體流程圖。
[0020] 圖3是圖1中步驟2的具體流程圖。
[0021 ] 圖4是圖1中步驟3的具體流程圖。
[0022] 圖5是圖1中步驟4的具體流程圖。
【具體實施方式】
[0023] 本發明的設計思想是:使用貝葉斯概率模型將圖像所隱藏的語義信息以標注詞集 合的形式顯性表示。利用屬性調整圖像概念的語義權重,通過構造二元條件屬性決策表,獲 取離散屬性值。采用可辨識差別矩陣的方法,縮減標注詞的計算規模。引入多角度語義距 離的矩陣計算,生成語義相似度矩陣。
[0024] 本實施例系統包括領域圖像語義信息標注模塊、條件決策熵生成模塊、標注詞約 簡模塊以及矩陣計算模塊,下面結合附圖對本發明做進一步說明。
[0025] 參見圖1,一種醫學領域圖像語義相似度矩陣生成方法,通過計算機調取醫學領域 圖像知識庫內數據,并按如下步驟進行處理:
[0026] 步驟1.用貝葉斯概率模型對醫學領域圖像知識庫中的領域圖像進行語義信息的 標注,并對標注詞賦以權值,獲得賦有權值的標注詞。
[0027] 將賦有權值的標注詞的集合記為"語義向量空間"。
[0028] 步驟2.對由步驟1獲得的賦有權值的標注詞提取離散化的特征,獲得包含離散化 特性的賦權標注詞。即該包含離散化特性的賦權標注詞與對應的領域圖像一一對應。
[0029] 所述包含離散化特性的賦權標注詞的集合稱為"圖像屬性的語義空間"。
[0030] 步驟3.對步驟2所獲得的"圖像屬性的語義空間"進行約簡處理,獲得特征屬性, 由特征屬性構建維度最簡的約簡集。
[0031] 所述約簡包括四個步驟:構造可辨識差別矩陣,求解可辨識差別矩陣的核,刪除可 辨識矩陣的差別屬性項,獲得維度最簡的約簡集。
[0032] 步驟4.由步驟3獲得的維度最簡的約簡集構建領域圖像語義相似度的計算模型, 通過領域圖像語義相似度的計算模型獲得醫學領域圖像語義相似度矩陣。
[0033] 參見圖1,進一步說,領域圖像是指影像報告中的圖片。醫學領域圖像知識庫是由 領域圖像構成的集合。
[0034] 在步驟1中,將領域圖像進行區域分割,形成圖像集合{Pl,P2……}。
[0035] 采用人機交互的方式對領域圖像進行語義標注,形成標注詞集合{C1,C2……}。計 算標注詞集合{C1,C2……}中的每個標注詞的后驗概率,獲取帶權值信息的語義向量空間, 該帶權值信息的語義向量空間的集合即為語義向量空間集合。領域圖像是指影像報告中的 圖片,醫學領域圖像知識庫是由領域圖像構成的集合。
[0036] 在步驟2中,將由步驟1獲得的帶有權重的語義向量空間集合作為輸入量,構建條 件決策表。計算圖像屬性的決策閾值參數j,通過動態閾值迭代,遍歷連續圖像屬性的區間 劃分端點,獲取離散圖像屬性,將離散區間按遞減序排列,得到圖像屬性的語義空間,記為 離散編碼集合{A1,A2……}。
[0037] 在步驟3中,利用帶有雙向指針的二叉樹對步驟2獲得的離散編碼集合{A1,
[0038] A2……}的差別屬性進行存儲,并通過調整初次抽樣系數p以及抽取函數f( Θ )的 抽樣閾值,構建可變識差別矩陣,獲取圖像屬性集合簇元素的多階方陣,求解圖像屬性維度 的約簡集red ()。
[0039] 在步驟4中,由圖像屬性維度的約簡集red(),計算標注詞節點屬性相似度、標注 詞節點深度屬性、標注詞節點非對稱屬性,度量節點間橫向語義距離、節點間縱向語義距 離、度量節點間非對稱語義距離,利用標注詞線性加權模型求解獲得圖像間語義相似度。
[0040] 參見圖1,步驟1具體按如下步驟進行:
[0041] Sll :初始化語義:通過人機交互的方式,抽取醫生對于影像報告中圖像的標注信 息。將抽取出的標注信息的初始權值清空,初始化關鍵詞標注--即標注信息的賦值為0。 默認所有語義權重對圖像影響效果一樣。形成語義標注詞集合。
[0042] S12 :將用戶待比較語義輸入計算機。計算機依據待比較語義對醫學領域圖像知識 庫中的分類信息概念進行檢索,獲得檢索出的圖像。
[0043] 由用戶向計算機錄入主關鍵詞和非關鍵詞。所