專利名稱:在文本圖像編碼和解碼系統中匹配符號的設備和方法
技術領域:
本發明涉及一種在文本圖像編碼和解碼系統中匹配符號的設備和方法, 更具體地講,涉及一種在基于模式匹配的編碼和解碼系統中減小匹配運算的 次數并且提高匹配運算的質量/比特率以及速度的設備和方法。
背景技術:
通常,在ITU-T T.88中描述的JBIG2標準定義用于二值圖像(bi-level image)(即,由單個矩形比特平面構成的圖像,每個像素上呈現僅有兩個可能 顏色之一)的壓縮方法。JBIG2標準僅定義對與圖像相應的規范比特流 (compliant bit stream)進行解碼的需求,沒有定義編碼器設計的具體特征,但 是對于能夠提高編碼器設計的質量、壓縮或速度的許多優化很靈活。此外,JBIG2標準是提供二值圖像的有損、無損和有損到無損壓縮,并 且支持用于文本和中間色(halftone)的多頁圖像和基于模型的編碼的第一個國 際標準。JBIG標準也允許壓縮率比先前標準(例如,G3、 G4和JBIG1)好三到 八倍。二值文檔可包含一 頁或多頁,并且每一頁可包含作為輸入二值圖像的文 本數據、中間色數據以及其他數據(例如,藝術線條或噪聲)。期望JBIG2編 碼器將輸入二值圖像分為不同的區域(通常是三個區域),并且使用不同的編碼 方法單獨對每一 區域編碼。圖1是示出作為在JBIG2標準中將被分解為三個區域(例如,文本區域、 中間色區域和一般(generic)區域)的輸入圖像的合成圖像的示圖。JBIG2標準包括使用符號字典對輸入圖像的文本區域編碼。輸入圖像被 分為水平條紋。以光柵順序掃描每一條紋以提取連通域(符號)。將每個提取的 符號與符號字典中的參考符號進行比較。如果在輸入頁的符號和符號字典的參考符號之間找出匹配,則使用以下信息來對輸入圖像的符號編碼相對于 先前符號的位置偏移、指向與符號字典中的參考符號的最佳匹配的字典索引 以及輸入圖像的符號的編碼位圖的細化。如果沒有找出匹配,則與輸入圖像的未匹配符號相應的新的符號被添加到符號字典。基于此模式匹配的編碼系 統被稱為模式匹配和替換(PM&S)。匹配過程通常通過檢查誤碼圖案(誤碼圖案是新符號與字典的參考符號 之間的逐位異或)來運算。在計算誤碼圖案之前,將新符號和參考符號彼此適 當排列,從而新符號和參考符號之一中的每一像素可與新符號和參考符號中 的另一個映射。隨后使用距離度量來估算誤碼圖案。如下確定距離度量。異或(XOR)用于計算誤碼圖案的漢明距離(Hamming distance),也就是, 按照在誤碼圖案中設置的像素的總數測量兩個符號之間的不同。加權異或(WXOR)用于根據誤碼發生的上下文不同地對誤碼像素加權。 每一誤碼像素的作用量等于在其3 x 3鄰域中的誤碼像素的數量。其結果是, 發生在群集(cluster)中的誤碼像素更重要。圖2示出WROR運算,其中,每 一白色圓圈是誤碼像素,圓圏內的數字是相關權重。加權與非(WAN)用于以與WXOR相同的方式對誤碼像素加權,但是對黑 到白誤碼加權與對白到黑誤碼加權不同。改進加權或異或用于讓A和B成為將被比較以在兩個誤碼圖案(E,和E2) 之間產生度量差異的符號和位圖。E,包含在位圖A(而不是B)中設置的像素, E2包含在B(而不是A)中設置的像素。最終誤碼圖案是E!和E2的總和。豪斯多夫距離用于對邊界像素給出小的有效權重并且對距離邊界不是非 常近的像素給出大的有效權重。為了將符號聚集為自相似類別,閾值用于決定應接受還是拒絕匹配。每 一情況的結果是二元判定,即"匹配"或"不匹配"。如果誤碼或距離超過預 定義閾值則拒絕匹配。圖2是示出加權異或距離度量(例如,加權的異或距離度量)的示圖。這 里,采用XOR距離度量,字母"c"和"o"比字母"e"的兩個版本更相似。 然而,采用WXOR,字母"e"之間的距離小于"c"和"o"之間的距離。 XOR距離度量可引起替換錯誤,除非定義非常嚴格的闞值。另一方面,非常 嚴格的閾值可能引起大的符號字典,從而增加比特率。當使用PM&S時在對 文檔編碼中,WXOR距離度量能減小替換錯誤的數量,而不會增加比特率, 然而,與XOR度量相比,其具有一些計算開銷。參照圖2,示圖(a)示出A、 B和A+B以產生通過字母"e"的兩個版本 的比較產生的誤碼圖案,這引起XOR距離29和WXOR距離75。示圖(b)示出C、 D和C+D以產生通過字母"c"和"o"的比較產生的誤碼圖案,這引 起XOR距離23和WXOR距離131。注意WXOR距離分配比在不匹配的"c" 和"o"符號之間的XOR更大的誤碼距離。然而,以上傳統匹配處理具有的缺點在于,增加了處理時間,并且比特 率減小。發明內容本發明總體發明構思提供一種在文本圖像編碼和解碼系統中匹配符號的 設備和方法。本發明總體發明構思提供一種在基于模式匹配的編碼和解碼系統中減小 匹配運算的次數并且提高匹配運算的質量/比特率和速度的設備和方法、以及 在文本圖像編碼和解碼系統中管理包括不同符號的字典的動態符號高速緩存 設備和方法。本發明總體發明構思提供一種使用多個距離和多個參考距離執行匹配處 理的基于模式匹配的編碼和解碼系統。本發明總體發明構思提供一種具有減小匹配處理時間的改善的誤碼圖案 的基于模式匹配的編碼和解碼系統。將在接下來的描述中部分闡述本發明另外的方面和/或優點,還有一部分 通過描述將是清楚的,或者可以經過本發明的實施而得知。可通過提供一種在文本圖像編碼和解碼系統中使用的設備來實現本發明 的上述和/或其他方面,該設備包括匹配單元,計算文本圖像的符號與符號 字典的參考符號之間的第一距離,根據第一距離和第一參考確定所述符號是 否與所述參考符號匹配,如果根據第一距離和第一參考所述符號與參考符號 匹配,則計算符號之一與所述參考符號之間的第二距離,并且根據第二距離 和第二參考確定所述符號是否與所述參考符號匹配。匹配單元可包括第一比較器,比較第一距離和第一參考以確定所述符 號是否與所述參考符號匹配;和第二比較器,比較第二距離和第二參考以確 定所述符號是否與所述參考符號匹配。當才艮據第一比較器的比較,所述符號與所述參考符號不匹配時,可創建 新的參考符號以與所述符號相應,并將所述新的參考符號存儲在符號字典中。配。當根據第二比較器的比較,所述符號與所述參考符號不匹配時,可創建 新的參考符號以與所述符號相應,并將所述新的參考符號存儲在符號字典中。第一參考可包括第一子參考和第二子參考;第一比較器可包括第一子比 較器和第二子比較器,第一子比較器將第一距離與第一子參考進行比較,第 二子比較器將第一距離與第二子參考進行比較;和匹配單元可根據第一子比 較器和第二子比較器的比較確定所述符號是否與所述參考符號匹配。第二參考可以與第 一子參考和第二子參考不同。當根據第一子比較器和第二子比較器的比較,所述符號與所述參考符號 不匹配時,可創建新的參考符號以與所述符號相應,并將所述新的參考符號 存儲在符號字典中。配。該設備可包括編碼單元,當根據第一子比較器和第二子比較器以及第 二比較器的比較,所述符號與所述參考符號匹配時,根據關于所述參考符號 的信息和文本圖像的符號的位置對所述符號編碼。該設備可還包括分解器,分解圖像數據以提取具有包括所述符號的一 個或多個符號的文本圖像;和編碼器,根據關于所述參考符號的信息和文本 圖像中的符號的位置對所述符號編碼。設備可還包括掃描儀,掃描對象以產生作為圖像數據的掃描圖像。設備可還包括控制器,當根據第一距離和第二距離以及第一參考和第 二參考所述符號與所述參考符號不匹配時,控制符號字典創建新的參考符號。第 一距離可以是XOR距離。第二距離可以是WXOR距離。第二參考可具有小于第一參考的值。匹配單元可將XOR距離與第一參考比較以確定是使用所述參考符號代 表所述符號還是將所述符號創建為新的參考符號。可通過提供一種文本圖像編碼和解碼系統的方法來實現本發明的上述和 /或其他方面,該方法包括計算文本圖像的符號與符號字典的參考符號之間 的第一距離;根據第 一距離和第一參考確定所述符號是否與所述參考符號匹 配;如果根據第一距離和第一參考所述符號與所述參考符號匹配,則計算符號之一與所述參考符號之間的第二距離;和根據第二距離和第二參考確定所 述符號是否與所述參考符號匹配。第一距離和第一參考以確定所述符號是否與所述參考符號匹配;和在第二比 較器中比較第二距離和第二參考以確定所述符號是否與參考符號匹配。該方法可還包括當根據第 一 比較器的比較所述符號與所述參考符號不 匹配時,創建新的參考符號以與所述符號相應,并將創建的參考符號存儲在 符號字典中。比較第二距離和第二參考的步驟可包括根據第二控制器的比較確定所述符號是否與所述參考符號匹配。該方法可還包括當根據第二比較器的比較所述符號與參考符號不匹配 時,創建新的參考符號以與所述符號相應,并將創建的參考符號存儲在符號 申典巾。第一參考可包括第一子參考和第二子參考;第一比較器可包括第一子比 較器和第二子比較器,第一子比較器將第一距離與第一子參考進行比較,第 二子比較器將第一距離與第二子參考進行比較;和確定所述符號是否與所述 參考符號匹配的步驟可包括根據第一子比較器和第二子比較器的比較確定所述符號是否與所述參考符號匹配。第二參考可以與第一子參考和第二子參考不同。該方法可還包括當根據第一子比較器和第二子比較器的比較,所述符 號與所述參考符號不匹配時,創建新的參考符號以與所述符號相應,并將創 建的新的參考符號存儲在符號字典中。該方法可還包括根據第二比較器的比較確定所述符號是否與所述參考 符號匹配。該方法可還包括當根據第一子比較器和第二子比較器以及第二比較器 的比較所述符號與所述參考符號匹配時,根據關于所述參考符號的信息和文 本圖像的符號的位置對所述符號編碼。該方法可還包括分解圖像數據以提取具有包括所述符號的一個或多個 符號的文本圖像;和根據關于所述參考符號的信息和文本圖像中的符號的位 置對所述符號編碼。該方法可還包括掃描對象以產生作為圖像數據的掃描圖像。該方法可還包括當根據第一距離和第二距離以及第一參考和第二參考所述符號與所述參考符號不匹配時,控制符號字典創建新的參考符號。可還通過提供一種包含執行在文本圖像編碼和解碼系統中的方法的程序 的計算機可讀代碼的計算機可讀介質來實現本發明的上述和/或其他方面,該方法包括計算文本圖像的符號與符號字典的參考符號之間的第一距離;根 據第一距離和第一參考確定所述符號是否與所述參考符號匹配;如果根據第 一距離和第一參考所述符號與所述參考符號不匹配,則計算符號之一與所述 參考符號之間的第二距離;和根據第二距離和第二參考確定所述符號是否與所述參考符號匹配。可還通過提供一種在文本圖像編碼和解碼系統中使用的設備來實現本發明的上述和/或其他方面,該設備包括匹配單元,根據輸入圖像數據的符號 和字典的參考符號之間的至少兩個不同距離以及至少兩個不同參考值確定所述符號與所述參考符號是否匹配。可還通過提供一種在文本圖像編碼和解碼系統中使用的設備來實現本發 明的上述和/或其他方面,該設備包括匹配單元,根據使用第一距離和第一 參考的粗略運算確定輸入圖像數據的符號和字典的參考符號是否匹配,并且 當在粗略運算中輸入圖像數據的符號和字典的參考符號不匹配時,根據使用 第二距離和第二參考的精細運算確定輸入圖像數據的符號和字典的參考符號是否匹配。可還通過提供一種文本圖像編碼和解碼系統來實現本發明的上述和/或 其他方面,該系統包括編碼設備,計算文本圖像的符號與符號字典的參考 符號之間的第一距離,根據第 一距離和第一參考確定該符號是否與參考符號 匹配,并且如果才艮據第一距離和第一參考,該符號與參考符號不匹配,則計 算符號之一與參考符號之間的第二距離,并且根據第二距離和第二參考確定 該符號是否與參考符號匹配,從而根據使用第一和第二距離與第一和第二參 考的確定產生編碼信號;和解碼設備,接收根據使用第一和第二距離與第一 和第二參考的確定編碼的信號,并且對接收的信號解碼以再現文本圖像。可還通過提供一種文本圖像編碼和解碼系統的方法來實現本發明的上述 和/或其他方面,該方法包括計算文本圖像的符號與符號字典的參考符號之 間的第一距離,以根據第一距離和第一參考確定該符號是否與參考符號匹配; 如果根據第一距離和第一參考該符號與參考符號不匹配,則計算符號之一與參考符號之間的第二距離;根據第二距離和第二參考確定該符號是否與參考 符號匹配,從而根據使用第 一和第二距離與第 一和第二參考的確定產生編碼的信號;對根據使用第一和第二距離與第一和第二參考的確定編碼的信號解碼以再現文本圖像。
通過下面結合附圖對實施例進行的描述,本發明總體發明構思的上述和/或其他方面和優點將會變得更加清楚和更易于理解,其中圖1是在傳統圖像編碼和解碼系統中劃分為三個區域的輸入圖像的示意圖;圖2是示出加權異或距離度量的示圖;圖3是示出可在根據本發明總體發明構思的實施例的文本圖像編碼和解 碼系統中使用的設備的示圖;統的匹配方法的流程圖;圖5是示出在圖3的文本圖像編碼和解碼系統中使用的測試圖像的示圖;圖6是示出傳統圖像編碼和解碼系統和根據本發明總體發明構思的實施 例的文本圖像編碼和解碼系統的壓縮比的示圖;圖7是示出在傳統圖像編碼和解碼系統中需要的符號匹配的平均數和根 據本發明總體發明構思的實施例的文本圖像編碼和解碼系統中需要的符號匹 配的平均數的曲線圖的示圖;和圖8是示出根據本發明總體發明構思的實施例的文本圖像編碼和解碼系 統的匹配方法的流程圖。
具體實施方式
現在將詳細描述本發明的實施例,其示例在附圖中表示,其中,相同的 標號始終表示相同的部件。本發明總體發明構思提供一種在維持可與WXOR度量比較的壓縮比的 同時獲得XOR度量的計算速度的方法。使用XOR度量,該方法能夠在粗略 運算中快速識別符號和參考符號之間的匹配,并且隨后當匹配不確定時, WXOR度量可用作更精確運算。本實施例可應用于二值文檔的JBIG2編碼。在這種情況下,匹配方法在粗略運算和精細運算中用于比較符號并且形成字典。匹配方法的實施例可被稱為預先篩選加權異或(PWXOR)。圖3是示出可在根據本發明總體發明構思的實施例的文本圖像編碼和解 碼系統300中使用的設備的示圖。參照圖3,文本圖像編碼和解碼系統300可包括編碼設備310和解碼設 備360。編碼設備可包括掃描儀320、匹配單元330、編碼器340和控制器350。 解碼設備360可包括解碼單元361和打印單元362。文本圖像編碼和解碼系 統300可包括通過線390(例如,電路、有線網絡或無線網絡)在編碼設備310 和解碼設備360之間發送和接收編碼數據的發送單元370和380。掃描儀320可包括這樣的掃描單元,該掃描單元向文檔發射光,接收從 文檔反射的光,并且從接收的光產生與掃描的圖像相應的輸入信號,作為輸 入圖像(或圖像數據)。傳統掃描儀可用作掃描儀320。匹配單元330可包括分解器331、第一比較器(包括子比較器332和另一 子比較器333)、第二比較器334和字典335(例如作為字典的存儲參考字符的 存儲器)。分解器331將輸入信號(或掃描圖像)分解為表示三個不同區域(例如,文 本區域、中間色區域和一般區域)的二元圖像(binary image)信號(二值圖像信 號)。這里,分解器331可包括將文本區域劃分或分割為一個或多個條紋的劃 分器,并且還可包括從每個條紋(或條紋圖像)提取一個或多個符號的提取器。 每個條紋可以是以光柵順序掃描的測試區域的 一部分以提取連通域作為符—,控制器350控制匹配單元330計算在文本圖像的符號與符號字典的參考 符號之間的第 一距離,并且根據第 一距離和第 一參考確定該符號是否與參考 符號匹配,并且如果根據第一距離和第一參考該符號不與參考符號匹配,則 計算符號之一與參考符號之間的第二距離,并且根據第二距離和第二參考確 定該符號是否與參考符號匹配。控制器350可計算第一距離和第二距離。第 一參考和第二參考可被存儲在控制單元350或匹配單元330中。子比較器332將第一距離與子參考比較,另 一子比較器將第一距離與另 一子參考比較。第二比較器334將第二距離與第二參考比較以確定該符號是否與參考符 號匹配。控制器350控制掃描儀320,控制匹配單元330來確定符號與參考符號 匹配的時候,并且拒絕或接受該符號和參考符號之間的匹配,控制編碼器340 對匹配單元330的輸出信號編碼,并且控制發送單元370通過線390將編碼 信號發送給外部裝置或解碼設備360。解碼單元361接收包括編碼符號的編碼信號以根據關于各個符號和字典 的信息形成條紋圖像。解碼單元361可接收與各個條紋圖像相應的編碼符號以及關于符號和字 典的信息。解碼單元361可接收關于參考符號的索引信息和關于各個條紋中的符號 的位置信息以根據接收的信息再現帶有條紋的圖像。解碼單元361可輸出從其解碼的數據,并且打印單元362可在打印介質 上打印包括形成的包括符號的條紋的輸出數據。解碼單元361可通過電路、 有線網絡或無線網絡將解碼的數據或文本圖像數據輸出給外部裝置。打印單 元362可以是噴墨打印單元、激光束打印單元,其中,噴墨打印單元使用一 個或多個具有一個或多個墨水管口的噴墨頭在打印介質上噴射墨滴,激光束 打印單元使用激光束形成潛像并且使用顯影劑(例如,墨粉)顯現潛像。根據本實施例,可在文本圖像編碼和解碼系統300中使用的設備可包括 匹配單元330,用于根據符號和參考符號之間的至少兩個不同距離以及至少 兩個不同參考值確定輸入圖像數據的符號和字典的參考符號是否匹配。根據本實施例,可在文本圖像編碼和解碼系統300中使用的設備可包括 匹配單元330,根據使用第一距離和第一參考的粗略運算確定輸入圖像數據 的符號和字典的參考符號是否匹配,并且當在粗略運算中輸入圖像數據的符 號和字典的參考符號不匹配時,根據使用第二距離和第二參考的精細運算確 定輸入圖像數據的符號和字典的參考符號是否匹配。才艮據本實施例,文本圖像編碼和解碼系統300可包括編碼設備310, 計算文本圖像的符號與符號字典的參考符號之間的第一距離,根據第一距離 和第一參考確定該符號是否與參考符號匹配,并且如果根據第一距離和第一參考該符號與參考符號不匹配,則計算符號之一與參考符號之間的第二距離, 并且根據第二距離和第二參考確定該符號是否與參考符號匹配,從而根據使 用第 一和第二距離與第 一和第二參考的確定產生編碼信號。文本圖像編碼和解碼系統300可還包括解碼設備360,接收根據使用第 一和第二距離與第 一和第二參考的確定編碼的編碼信號,并且對接收的信 號解碼以再現文本圖像。文本圖像編碼和解碼系統300可還包括打印單元362,根據解碼的信 號在打印介質上打印圖像作為文本圖像。圖4是示出根據本發明總體發明構思的實施例的文本圖像編碼和解碼系 統的匹配方法的流程圖。參照圖3和圖4,在操作410,例如按照參考線或矩心來排列從頁提取的 符號和字典的參考符號,從而從排列的符號和參考符號產生誤碼圖案(error map)。在操作420,通過計算設置在誤碼圖案中的像素的總數來計算XOR距 離(dxoiO。隨后,根據操作420的輸出,篩選法確定是否需要計算這兩個符號 之間的WXOR度量。如果這兩個符號之間的XOR距離大于預定閾值TV則在操作440無需 進一步考慮而拒絕匹配。如果該距離小于闊值的一半(也就是TV2),則接受匹 配,并且認為這兩個符號相似并且算法結束。然而,當在操作450距離小于 T,而大于TV2時,則在操作460計算這兩個符號之間的WXOR運算并且獲 得新的距離dWX0R,并且在^t喿作480估算WXOR距離。當WXOR距離小于 預定閾值T2時,則在操作492接受匹配,否則在操作491拒絕匹配。對于每 一距離度量,在不影響以上方法的分類處理的結果的情況下,盡可能確定并 選擇合適的閾值。圖5是示出在圖3的文本圖像編碼和解碼系統中使用的測試圖像的示圖。 二值圖像被用作如圖5所示的測試圖像。使用三種不同類型的度量(例如 XOR、 WXOR和PWXOR)來對二值圖像編碼。圖像具有以下特征尺寸1566x2122分辨率192 dpi大小407KByte全部是原始字符(clean character) 無變形包含1639個符號圖6是示出傳統圖像編碼和解碼系統和圖3的文本圖像編碼和解碼系統 的壓縮比的示圖,圖7是在傳統圖像編碼和解碼系統中需要的符號匹配的平均數和圖3的文本圖像編碼和解碼系統中需要的符號匹配的平均數的曲線圖 的示圖。參照圖6,本實施例的PWXOR在壓縮比與從WXOR獲得的壓縮比類似 且遠高于從XOR獲得的壓縮比的情況下,提供比WXOR和XOR更快的算法。參照圖7,顯示出在相同質量級別在速度和壓縮比方面,三個匹配度量 (XOR、 WXOR和PWXOR)的比較。圖7比較從頁(文本圖像)提取的每一符號需要的符號匹配的平均數。需 要更大的字典來將每一新的符號與更大數量的符號進行比較。因此,JBIG2 編碼的計算時間與符號字典的大小直接相關。如圖7所示,對于每一符號, XOR和WXOR度量分別需要平均176個匹配運算和平均131個匹配運算, 而對于每一符號,PWXOR僅需要129個XOR運算和14個WXOR運算。根據本實施例,該設備可擴展到使用匹配度量的序列,山、d2.....dn,計算di需要的計算量要比計算di+1的計算量小很多。圖8是示出根據本發明總體發明構思的實施例的文本圖像編碼和解碼系 統的匹配方法的流程圖。參照圖3、圖4和圖8,圖8的操作與圖4的操作類 似。因此,將省略對類似操作的詳細描述。在操作820,計算距離d,,并且在搡作830,將距離di與閾值Tn進行比 較。Ti2、 Tu(T^Ti0是距離di將與之進行比較的閾值。當在操作830不滿足 閾值Tn時,在操作840,無需進一步的計算而拒絕匹配。當在操作830滿足 閾值Tn時,在操作850,將距離di與閾值T!2進一步進行比較。當滿足閾值 丁12時,在操作S870,無需進一步的計算而接受匹配。當不滿足闊值T!2時,在操作860,計算第二距離d2。在操作880,第二 距離d2與閾值T21進行比較。當不滿足閾值T21日于,在操作881拒絕匹配。 當滿足閾值T21時,在操作890,將距離d2與閾值T22進一步進行比較。當 滿足閾值T22時,在操作893,接受匹配。當不滿足閾值T22時,分別在操 作894和操作895計算第三距離d3和第n距離dn。在^喿作896,將第三距離 d3或第n距離dn與第n闊值Tnl進行比較。當第n距離dn小于第n閾值Tm 時,在操作892,接受匹配。當第n距離dn不小于第n閾值Tm時,在操作891拒絕匹配。也就是, 滿足第一條件,并且不滿足第二條件,那么應用下一更復雜的度量dw。這種遞歸預先篩選處理減小總計算量,同時幾乎實現了計算量最大的度量4的精確度。如上所述,根據本實施例,文本圖像編碼和解碼系統的方法包括計算 文本圖像的符號與符號字典的參考符號之間的第一距離,根據第一距離和第 一參考確定該符號是否與參考符號匹配,如果根據第一距離和第一參考該符 號與參考符號匹配,則計算符號之一與參考符號之間的第二距離,并且根據 第二距離和第二參考確定該符號與參考符號是否匹配。如上所述,根據本實施例,文本圖像編碼和解碼系統的方法包括根據符號和參考符號之間的至少兩個不同距離以及至少兩個不同參考值確定輸入 圖像數據的符號與字典的參考符號是否匹配。如上所述,根據本實施例,可在文本圖像編碼和解碼系統使用的設備包 括根據使用第 一距離和第 一 參考的粗略運算確定輸入圖像數據的符號與字 典的參考符號是否匹配,并且當在粗略運算中輸入圖像數據的符號與字典的 參考符號不匹配時,根據使用第二距離和第二參考的精細運算確定輸入圖像 數據的符號與字典的參考符號是否匹配。根據本實施例,組合兩個度量,也就是兩種度量中最快的一種用作計算 更復雜度量的篩選方法。因此,本實施例減小承擔的模版匹配運算的次數, 同時提高了質量/比特率。本發明總體發明構思還可實現為計算機可讀記錄介質上的程序的計算機 可讀代碼。計算機可讀記錄介質是可存儲其后可由計算機系統讀取的數據的 任何數據存儲裝置。計算機可讀記錄介質的例子包括只讀存儲器(ROM)、 隨機存取存儲器(RAM)、 CD-ROM、磁帶、軟盤、光學數據存儲裝置以及載 波(例如,通過互聯網的數據傳輸)。計算機可讀記錄介質也可分布于網絡連接 的計算機系統上,從而以分布式方式存儲和執行計算機可讀代碼。另外,可 由本發明總體發明構思所屬的技術領域的編程人員容易地解釋實現本發明總 體發明構思的功能程序、代碼和代碼段。如上所述,本發明總體發明構思提供一種匹配二元圖像的新方法。由于 文本圖像包含許多重復文本字符,從而在字符級別是高冗余的,因此,文本 圖像是特殊類型的二元圖像。諸如JBIG2的文本圖像壓縮方法通過基于模式 匹配技術對文本進行編碼來利用這種冗余。在基于模式匹配的編碼系統中, 并不是對輸入圖像的所有字符位圖(稱為符號)進行逐像素編碼,而是編碼器首先從所有符號中選擇代表性的符號子集,并且將它們作為字典發送。用于比較兩個符號的距離度量是獲得快速且精確壓縮算法從而引起高壓縮比的關鍵。本發明將兩種現有的距離度量(異或(XOR)和加權異或(WXOR))組合來形成測量距離的新方法,這種新方法減小計算時間,同時維持相同的質量和壓縮比。具體地講,我們的算法使用XOR度量以預先篩選WXOR度 量,從而維持XOR度量的速度以及WXOR度量的質量/壓縮比。本發明(稱 為PWXOR)用于使用模式匹配和替換(PM&S)的任何編碼方法,這是因為本發 明減小了匹配處理的高成本,同時提高了質量/比特比;這里我們將JBIG2用 作使用PWXOR方法的示例性應用。盡管已經顯示和描述了本發明總體發明構思的一些實施例,但是本領域 的技術人員應該理解,在不脫離本發明總體發明構思的原理和精神的情況下, 可以對這些實施例進行改變,本發明總體發明構思的范圍定義在權利要求及 其等同物中。
權利要求
1、一種在文本圖像編碼和解碼系統中使用的設備,包括匹配單元,計算文本圖像的符號與符號字典的參考符號之間的第一距離,根據第一距離和第一參考確定所述符號是否與所述參考符號匹配,如果根據第一距離和第一參考所述符號與參考符號匹配,則計算符號之一與所述參考符號之間的第二距離,并且根據第二距離和第二參考確定所述符號是否與所述參考符號匹配。
2、 如權利要求1所述的設備,其中,匹配單元包括第 一比較器,比較第 一距離和第一參考以確定所述符號是否與所述參考 符號匹配;和第二比較器,比較第二距離和第二參考以確定所述符號是否與所述參考 符號匹配。
3、 如權利要求2所述的設備,其中,當根據第一比較器的比較,所述符 號與所述參考符號不匹配時,創建新的參考符號以與所述符號相應,并將所 述新的參考符號存儲在符號字典中。
4、 如權利要求3所述的設備,其中,匹配單元根據第二比較器的比較確 定所述符號是否與所述參考符號匹配。
5、 如權利要求4所述的設備,其中,當根據第二比較器的比較,所述符 號與所述參考符號不匹配時,創建新的參考符號以與所述符號相應,并將所 述新的參考符號存儲在符號字典中。
6、 如權利要求2所述的設備,其中第 一參考包括第 一子參考和第二子參考;第 一比較器包括第 一子比較器和第二子比較器,第 一子比較器將第 一距 離與第一子參考進行比較,第二子比較器將第 一距離與第二子參考進行比較; 和匹配單元根據第 一子比較器和第二子比較器的比較確定所述符號是否與 所述參考符號匹配。
7、 如權利要求6所述的設備,其中,第二參考與第一子參考和第二子參 考不同。
8、 如權利要求6所述的設備,其中,當根據第一子比較器和第二子比較器的比較,所述符號與所述參考符號不匹配時,創建新的參考符號以與所述 符號相應,并將所述新的參考符號存儲在符號字典中。
9、 如權利要求8所述的設備,其中,匹配單元根據第二比較器的比較確定所述符號是否與所述參考符號匹配。
10、 如權利要求6所述的設備,還包括編碼單元,當根據第一子比較器和第二子比較器以及第二比較器的比較, 所述符號與所述參考符號匹配時,根據關于所述參考符號的信息和文本圖像 的符號的位置對所述符號編碼。
11、 如權利要求l所述的設備,還包括分解器,分解圖像數據以提取具有包括所述符號的一個或多個符號的文 本圖像;和編碼器,根據關于所述參考符號的信息和文本圖像中的符號的位置對所 述符號編碼。
12、 如權利要求11所述的設備,還包括掃描儀,掃描對象以產生作為圖像數據的掃描圖像。
13、 如權利要求l所述的設備,還包括控制器,當根據第一距離和第二距離以及第一參考和第二參考所述符號 與所述參考符號不匹配時,控制符號字典創建新的參考符號。
14、 如權利要求l所述的設備,其中,第一距離包括XOR距離。
15、 如權利要求1所述的設備,其中,第二距離包括WXOR距離。
16、 如權利要求l所述的設備,其中,第二參考具有小于第一參考的值。
17、 如權利要求l所述的設備,其中 第一距離包括XOR距離; 第二距離包括WXOR距離;和匹配單元將XOR距離與第 一參考比較以確定是使用所述參考符號代表 所述符號還是將所述符號創建為新的參考符號。
18、 一種文本圖4象編碼和解碼系統的方法,包括 計算文本圖像的符號與符號字典的參考符號之間的第一距離; 根據第一距離和第一參考確定所述符號是否與所述參考符號匹配; 如果根據第一距離和第一參考,所述符號與所述參考符號匹配,則計算符號之一與所述參考符號之間的第二距離;和根據第二距離和第二參考確定所述符號是否與所述參考符號匹配。
19、 如權利要求18所述的方法,其中,確定所述符號是否與參考符號匹配的步驟包括在第一比較器中比較第一距離和第一參考以確定所述符號是否與所述參 考符號匹配;和在第二比較器中比較第二距離和第二參考以確定所述符號是否與參考符 號匹配。
20、 如權利要求19所述的方法,還包括參考符號以與所述符號相應,并將創建的參考符號存儲在符號字典中。
21、 如權利要求19所述的方法,其中,比較第二距離和第二參考的步驟 包括
22、 如權利要求21所述的方法,還包括當根據第二比較器的比較所述符號與參考符號不匹配時,創建新的參考 符號以與所述符號相應,并將創建的參考符號存儲在符號字典中。
23、 如權利要求19所述的方法,其中 第一參考包括第一子參考和第二子參考;第一比較器包括第一子比較器和第二子比較器,第一子比較器將第一距 離與第一子參考進行比較,第二子比較器將第一距離與第二子參考進行比較;和確定所述符號是否與所述參考符號匹配的步驟包括根據第一子比較器
24、 如權利要求23所述的方法,其中,第二參考與第一子參考和第二子 參考不同。
25、 如權利要求23所述的方法,還包括當根據第一子比較器和第二子比較器的比較,所述符號與所述參考符號 不匹配時,創建新的參考符號以與所述符號相應,并將創建的新的參考符號 存儲在符號字典中。
26、 如權利要求25所述的方法,還包括根據第二比較器的比較確定所 述符號是否與所述參考符號匹配。
27、 如權利要求26所述的方法,還包括當根據第一子比較器和第二子比較器以及第二比較器的比較所述符號與 所述參考符號匹配時,根據關于所述參考符號的信息和文本圖像的符號的位 置對所述符號編碼。
28、 如權利要求18所述的方法,還包括分解圖像數據以提取具有包括所述符號的 一個或多個符號的文本圖像;和根據關于所述參考符號的信息和文本圖像中的符號的位置對所述符號編碼。
29、 如權利要求28所述的方法,還包括 掃描對象以產生作為圖像數據的掃描圖像。
30、 如權利要求18所述的方法,還包括當根據第一距離和第二距離以及第一參考和第二參考所述符號與所述參 考符號不匹配時,控制符號字典創建新的參考符號。
31、 如權利要求18所述的方法,其中,第一距離包括XOR距離。
32、 如權利要求18所述的方法,其中,第二距離包括WXOR距離。
33、 如權利要求18所述的方法,其中,第二參考具有小于第一參考的值。
34、 如權利要求18所述的方法,其中 第一距離包括XOR距離; 第二距離包括WXOR距離;和確定所述符號是否與所述參考符號匹配的步驟包括將XOR距離與第 一參考比較并且將WXOR距離與第二參考比較以確定是使用所述參考符號 代表所述符號還是將所述符號創建為新的參考符號。
35、 一種包含執行在文本圖像編碼和解碼系統中的方法的程序的計算機 可讀代碼的計算機可讀介質,該方法包括計算文本圖像的符號與符號字典的參考符號之間的第一距離;根據第 一距離和第 一參考確定所述符號是否與所述參考符號匹配;如果根據第一距離和第一參考所述符號與所述參考符號匹配,則計算符 號之一與所述參考符號之間的第二距離;和根據第二距離和第二參考確定所述符號是否與所述參考符號匹配。
36、 一種在文本圖像編碼和解碼系統中使用的設備,包括匹配單元,根據輸入圖像數據的符號和字典的參考符號之間的至少兩個
37、 一種在文本圖像編碼和解碼系統中使用的設備,包括匹配單元,根據使用第 一距離和第 一參考的粗略運算確定輸入圖像數據 的符號和字典的參考符號是否匹配,并且當在粗略運算中輸入圖像數據的符 號和字典的參考符號匹配時,根據使用第二距離和第二參考的精細運算確定 輸入圖像數據的符號和字典的參考符號是否匹配。
38、 一種文本圖^J扁碼和解碼系統,包括編碼設備,計算文本圖像的符號與符號字典的參考符號之間的第一距離, 根據第 一距離和第 一參考確定該符號與參考符號是否匹配,并且如果根據第 一距離和第一參考該符號與參考符號匹配,則計算符號之一與參考符號之間 的第二距離,并且根據第二距離和第二參考確定該符號與參考符號是否匹配, 從而根據使用第 一和第二距離與第一和第二參考的確定產生編碼信號;和解碼設備,接收根據使用第 一和第二距離與第 一和第二參考的確定編碼 的信號,并且對接收的信號解碼以再現文本圖像。
39、 一種文本圖^J扁碼和解碼系統的方法,該方法包括 計算文本圖像的符號與符號字典的參考符號之間的第一距離,以根據第一距離和第 一參考確定該符號與參考符號是否匹配;如果根據第一距離和第一參考該符號與參考符號匹配,則計算符號之一與參考符號之間的第二距離;根據第二距離和第二參考確定該符號與參考符號是否匹配,從而根據使 用第一和第二距離與第一和第二參考的確定產生編碼的信號;對根據使用第 一和第二距離與第 一和第二參考的確定編碼的信號解碼以 再現文本圖像。
全文摘要
一種在文本圖像編碼和解碼系統中匹配符號的設備和方法,該設備包括匹配單元,計算文本圖像的符號與符號字典的參考符號之間的第一距離,根據第一距離和第一參考確定所述符號是否與所述參考符號匹配,如果根據第一距離和第一參考所述符號與參考符號匹配,則計算符號之一與所述參考符號之間的第二距離,并且根據第二距離和第二參考確定所述符號是否與所述參考符號匹配。
文檔編號H04N1/417GK101246596SQ20081000876
公開日2008年8月20日 申請日期2008年1月23日 優先權日2007年1月24日
發明者李鐘賢, 查爾斯·A·鮑曼, 玉炯洙, 瑪麗貝爾·費若望 申請人:三星電子株式會社;波爾多研究基金會