直方向上的移動步長。然后,利用豎線 模板和移動步長掃描前景圖像,按照可分離的豎線的特征(即線段是連續的,且豎線上下 左右一定范圍內的像素值為0),當前景圖像中的線段與該豎線模板中對應位置的豎線匹配 程度大于預設閾值時,則將該線段標記為豎線。實際應用中,預設閾值的大小可以通過多次 試驗來確定。當遍歷完該前景圖像后,可以得到所有可分離的豎線的所在位置的坐標,并將 其存入文本文件中用于后續的識別。
[0074] 2)確定文本的行高和豎線的線寬。對前景圖像中文本區域進行基本處理,例如膨 脹與腐蝕,得到連通域,根據連通域的寬度確定每行文本的高度。并以該每行文本的高度作 為初始化箭頭的大小,即箭頭的高。在檢測過程中不斷加以更新和修正。
[0075] 對定位出的所有的可分離的豎線,本發明實施例采用差分方法計算豎線的線寬。
[0076] 首先構造檢測箭頭的模板。箭頭由豎線和對稱的斜線組成,因此在豎線模板基礎 上構造箭頭模板,即豎線的橫坐標在水平方向分別向左、右取3、6個步長,豎線的縱坐標向 上取2個步長。然后,取與豎線模板大小相同的區域內,在每個豎線所在的位置進行水平投 影。找出水平投影的能量大于能量預設值時的位置,然后計算該位置的差值。當得到該位 置的最大差值時,就是箭頭豎線的線寬。當然,也可以采用同樣的方法獲得豎線的高度。
[0077] 例如:將水平投影能量大于能量預設值時的位置,置為1,否則為0,可以得到一個 多行文本的數組:
[0078] A=[0,0,0, 1,1,1,1,1,0,0];
[0079] 對該數組A中的數據按位取反,得到數組B :
[0080] B= [1,1,1,0,0,0,0,0, 1,1];
[0081] 即數組B中存在1的位置分別為los= 1,2,3,8,9 ;
[0082] 并在所在位置求預計差值:
[0083] c=diff(los) = (1, 1, 5, 1)
[0084] d = max(c) = 5。
[0085] 即可得到此豎線的線寬為5。
[0086] 3)訓練箭頭模板。根據箭頭的特征,本發明實施例構造訓練樣本。通過不斷的訓 練學習,獲得分類器的參數,用于檢測前景圖像中的箭頭。在豎線所在的位置繼續利用分類 器判斷是否符合箭頭所具有的特征,如果識別為箭頭,記下此時的位置,并且認為醫學報告 單此行的指標出現異常。
[0087] 在確定箭頭線寬和線高之后,按照箭頭的特征,將檢測箭頭分為上、下兩個部分。 其中,上半部分包括對稱的斜線,同時箭頭的下半部分豎線周圍預設距離外的像素值全為 0。例如,在上半部分中,本發明實施例中檢測豎線的左、右兩側各一倍的線寬的范圍內是否 包括包含斜線;在下半部分中,斜線的兩側各一倍的線寬范圍內像素值為0。
[0088] 因此,本發明通過訓練并確定分類器的方法來區分可分離的豎線和箭頭。根據箭 頭的組成特性,分別構造訓練樣本,通過不斷的訓練學習,求得分類器參數,用于箭頭的檢 測識別部分。
[0089] 可選地,利用邏輯回歸方法獲得分類器,包括:
[0090] 構造訓練樣本;
[0091] 將所述訓練樣本進行尺寸歸一化,得到相同維數的圖像特征;
[0092] 計算訓練樣本的圖像特征值;
[0093] 根據圖像特征值訓練所述分類器,獲得所述分類器參數。
[0094] 本發明優選Logistic邏輯回歸分類器來訓練豎線兩側是否含有斜線和空白, Logistic邏輯回歸分類器具有實現簡單、分類時計算量非常小、速度很快、存儲資源低等優 點。Logistic是一種線性分類器,函數表達式為:
[0095]
[0096] 其中,P(t)為分類結果,t為特征向量的加權和;
[0097]
[0098]N為特征的維數,Wi為第i維特征的權重系數,xi為第i維特征的特征值。
[0099] 本發明實施例中,采用邏輯回歸方法(Logistic)獲得分類器,包括:
[0100] (1)構造訓練樣本集。搜集大量的箭頭樣本圖像用于訓練,訓練過程中,選擇箭頭 豎線左側上半部分中以一定倍數的線寬值作為寬和高構造方形模板,由于左右對稱,只需 水平翻轉即可得到右側上半部分模板。同樣方法,構造箭頭下半部分,左、右兩側的模板,提 取以上四部分的圖像特征用于訓練分類器。
[0101] ⑵將訓練樣本集的所有樣本的圖像進行尺寸歸一化,此時可得到相同維數的圖 像特征,用于分類器的訓練。
[0102] (3)計算訓練樣本的特征值。將前景圖像的二值化后的像素值及其變換作為圖像 特征,表示形式簡單,計算復雜度低。
[0103] (4)訓練Logistic分類器,獲得分類器參數。
[0104] (5)利用訓練好的分類器參數,用于按照豎線坐標進行標記箭頭的位置。如圖4所 示,虛線框1的放大圖中用虛線框2標出了箭頭的位置。通過箭頭的位置即可得到此項醫 學報告單中的異常指標。如圖5所示,箭頭標出了一個異常指標:醫學報告單中的第20項 指標單核細胞絕對值偏高。
[0105] 本發明實施例只結合箭頭對符號識別方法進行了說明。實際應用中,本發明提供 的符號識別方法還可以應用到其他符號的識別中,例如加號、減號、大于等于號、小于等于 號、句號、嘆號、百分號、羅馬數字和星號等。根據不同符號的特征,例如句號可以看作為對 稱的兩個半圓,嘆號可以分為豎線和點兩部分,百分號可以分為斜線以及位于該斜線兩側 的圓圈等等,可以利用本發明實施例所提供的符號識別方法進行識別與檢測醫學報告單中 的其他符號,在此不再贅述。
[0106] 另一方面,本發明實施例還提供了一種用于醫學報告單的符號識別系統,如圖6 所示,包括:
[0107] 分類器生成模塊,用于根據不同符號的特征構造訓練樣本獲得分類器;
[0108] 符號模板構造模塊,從醫學報告單圖片中前景圖像上采集不同符號,獲得不同符 號的特征以構造符號模板;
[0109] 模板匹配模塊,利用所述分類器識別與檢測符號模板,用于得到醫學報告單中的 異常指標及位置。
[0110] 基于同樣的發明構思,本發明實施例提供的一種用于醫學報告單的符號識別系 統,該符號識別系統由于采用上述的符號識別方法實現,因而可以解決同樣的技術問題,并 取得相同的技術效果,在此不再詳細。
[0111] 在本發明的描述中需要說明的是,術語"上"、"下"等指示的方位或位置關系為基 于附圖所示的方位或位置關系,僅是為了便于描述本發明和簡化描述,而不是指示或暗示 所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作,因此不能理解為對本 發明的限制。
[0112] 雖然結合附圖描述了本發明的實施方式,但是本領域技術人員可以在不脫離本發 明的精神和范圍的情況下做出各種修改和變型,這樣的修改和變型均落入由所附權利要求 所限定的范圍之內。
【主權項】
1. 一種用于醫學報告單的符號識別方法,其特征在于,包括: 根據不同符號的特征構造訓練樣本訓練分類器; 從醫學報告單圖片中前景圖像上采集不同符號,獲得不同符號的特征以構造符號模 板; 利用所述分類器識別與檢測符號模板,用于得到醫學報告單中的異常指標及位置。2. 如權利要求1所述的符號識別方法,其特征在于,所述構造訓練樣本訓練分類器采 用邏輯回歸方法,包括以下步驟: 構造訓練樣本; 將所述訓練樣本進行尺寸歸一化,得到相同維數的圖像特征; 計算訓練樣本的圖像特征值; 根據所述圖像特征值訓練所述分類器,獲得所述分類器參數。3. 根據權利要求1所述的符號識別方法,其特征在于,從醫學報告單圖片中前景圖像 上采集不同符號之前,還包括預處理步驟,具體包括: 利用霍夫變換方法獲得前景圖像的頂點坐標,確定所述前景圖像的尺度信息; 利用透視變換方法對所述前景圖像進行傾斜校正,以獲取正投影的所述前景圖像; 利用局部閾值法將所述前景圖像分成若干區域,對每個所述區域進行二值化。4. 根據權利要求1所述的符號識別方法,其特征在于, 所述從醫學報告單圖片中前景圖像上采集不同符號,還包括確定每行文本的高度的步 驟,包括: 讀取所述前景圖像中的文本區域,對所述文本區域進行膨脹和腐蝕得到連通域; 當所述連通域的水平投影的能量大于能量預設值時,所述水平投影的位置的最大差值 為每行文本的高度。5. 根據權利要求1所述的符號識別方法,其特征在于, 當前景圖像上采集的符號為箭頭時,包括以下步驟: 根據豎線的特征構造豎線模板; 根據所述豎線模板定位所述前景圖像中所有可分離的豎線; 根據所述豎線模板構造箭頭模板; 分別構造訓練樣本,訓練學習得到分類器參數; 在可分離的豎線的位置檢測箭頭位置。6. 根據權利要求5所述的符號識別方法,其特征在于, 所述根據豎線的特征構造豎線模板,包括: 當連續線段的上下左右位置的像素值為〇,且與符號模板對應位置的匹配程度大于預 設閾值時,標記連續線段為可分離的豎線; 遍歷所述前景圖像,定位前景圖像中所有的可分離的豎線。7. 根據權利要求6所述的符號識別方法,其特征在于, 根據所述豎線模板構造箭頭模板,包括: 在每個可分離的豎線所在位置,在與豎線模板大小相同的區域內進行水平投影; 計算水平投影能量值大于能量預設值的位置的最大差值,得到豎線的線寬。8. 根據權利要求6所述的符號識別方法,其特征在于, 所述分類器的函數表達式為:其中,p(t)為分類結果,t為特征向量的加權和;N為特征的維數,Wi為第i維特征的權重系數,xi為第i維特征的特征值。9. 一種用于醫學報告單的符號識別系統,其特征在于,包括: 分類器生成模塊,用于根據不同符號的特征構造訓練樣本訓練分類器; 符號模板構造模塊,用于從醫學報告單圖片中前景圖像上采集不同符號,獲得不同符 號的特征以構造符號模板; 模板匹配模塊,利用所述分類器識別與檢測符號模板,用于得到醫學報告單中的異常 指標及位置。
【專利摘要】本發明涉及一種用于醫學報告單的符號識別方法及系統,其中該符號識別方法包括:根據不同符號的特征構造訓練樣本訓練分類器;從醫學報告單圖片中前景圖像上采集不同符號,獲得不同符號的特征以構造符號模板;利用訓練好的分類器識別與檢測符號模板,用于得到醫學報告單中的異常指標,并確定其所在區域。本發明可以解析醫學報告單中的特殊符號,提高識別和解析效率。
【IPC分類】G06K9/62, G06K9/66, G06K9/20
【公開號】CN104992173
【申請號】CN201510300821
【發明人】劉立, 溫成超, 吳詩展
【申請人】北京好運到信息科技有限公司
【公開日】2015年10月21日
【申請日】2015年6月3日