一種文字識別方法及裝置的制造方法
【技術領域】
[0001] 本申請涉及計算機技術領域,尤其涉及一種文字識別方法及裝置。
【背景技術】
[0002] 隨著計算機技術的發展,文字識別技術應運而生,通過這種技術,設備可以將圖像 中的文字識別出來,將文字識別技術應用于非數字化信息的錄入就可以顯著提高非數字化 信息的錄入效率。一般方法是,采集非數字化信息的圖像,再利用文字識別技術識別圖像中 的文字,以獲得信息并錄入。顯然,采用文字識別技術對非數字化信息進行錄入時,文字識 別的精度是決定錄入信息的準確性的一個重要因素。
[0003] 其中,利用文字識別技術識別圖像中的文字的核心思想主要是:將圖像中待識別 文字輸入光學字符識別(Optical Character Recognition, OCR)引擎,OCR引擎提取輸入 的待識別文字的特征,并將提取的特征與預先保存在模板庫中的每個標準文字的特征進行 比對,以確定提取的特征與每個標準文字的特征的相似度,將相似度最高的標準文字確定 為該待識別文字。
[0004] 然而,在實際應用場景中,存在著諸多特征較為相似的文字,如"區"和"兇","剁" 和"剎"等。受采集圖像的清晰度、傾斜度等影響,這些特征較為相似的文字往往會存在誤識 別的情況。例如,本應為"地址:朝陽區"的文字,很有可能會由于圖像傾斜度的影響而被誤 識別為"地址:朝陽兇"。因此,為了提高文字識別的精度,在現有技術中,可根據與待識別文 字的特征的相似度較高的若干個標準文字,結合預設的校正模型,對待識別文字進行識別。
[0005] 具體的,針對文字行中的第i個待識別文字,確定該第i個待識別文字的備選文 字,針對確定的每個備選文字,根據已識別出的第i-Ι個文字(第i-Ι個文字是該第i個文 字的前一個文字)以及預設的校正模型,確定在該第i-Ι個文字的條件下,該第i個待識別 文字是該備選文字的后驗概率,將后驗概率最大的備選文字確定為識別出的該第i個待識 別文字。
[0006] 例如,假設從圖像中提取出的文字行中的實際文字是"朝陽區",則在對該文字行 中的這三個字進行識別時,可按照從左到右的順序依次進行識別。假設前兩個字("朝"和 "陽")識別出來后,在對第3個字進行識別時,可根據該第3個字的特征,確定與該第3個 字的特征的相似度較大的標準文字為"區"和"兇",因此,將"區"和"兇"這兩個字作為第 3個字的備選文字。由于識別出的第2個字是"陽",則可根據已識別出的第2個字"陽",以 及預設的校正模型,分別確定P(c 3,g ku)和P(C3 j 1?陽),其中,P(c3,g Ic2^)表示在 第2個字是"陽"的條件下,第3個字是"區"的后驗概率,P(c3j 1? w)表示在第2個字是 "陽"的條件下,第3個字是"兇"的后驗概率。假設根據校正模型,確定P(c 3ig|c2j)大于 P (? M I 4 w ),則將備選文字"區"確定為識別出的該第3個字。
[0007] 但是,在現有技術中,上述預設的校正模型是對出現在實際生活中的各種詞匯的 詞頻進行統計得到的,對于一個詞匯而言,該詞匯在實際生活中出現的詞頻越高,則在該詞 匯中前一個字的條件下,該詞匯中后一個字的后驗概率越大,上述預設的校正模型也可稱 之為通用校正模型。而對于某些特殊的應用場景而言,上述通用校正模型并不適用。
[0008] 例如,假設文字行中第i_l個字被識別為"應",在識別第i個字時,確定該第i個 字的備選文字為"該"和"收",則由于通用校正模型是對出現在實際生活中的詞匯的詞頻進 行統計得到的,而在實際生活中,詞匯"應該"出現的詞頻顯然要遠大于詞匯"應收",因此, 通用校正模型會認為在第i-Ι個字為"應"的條件下,第i個字為"該"的后驗概率大于"收" 的后驗概率,從而將第i個字識別為"該"。
[0009] 在上例中,如果文字行是從報紙、刊物等文件的圖像中提取出的,則得到的識別結 果基本可以認為是正確的,但是如果文字行是從收據、購物小票等單據的圖像中提取出的, 則顯然識別結果為"應收"的可能性應該更大。
[0010] 可見,在特殊的應用場景中,采用通用校正模型并不能準確的識別出符合該特殊 應用場景的文字,導致文字識別的精度較低。
【發明內容】
[0011] 本申請實施例提供一種文字識別方法及裝置,用以解決現有技術在特殊應用場景 中識別文字的精度較低的問題。
[0012] 本申請實施例提供的一種文字識別方法,包括:
[0013] 根據待識別文字的特征,確定所述待識別文字的備選文字;
[0014] 針對每個備選文字,根據已識別的所述待識別文字的前一個文字,采用特殊校正 模型確定所述待識別文字是該備選文字的特殊后驗概率;其中,所述特殊校正模型是預先 根據統計的出現在特殊應用場景中的詞匯的詞頻得到的;
[0015] 根據每個備選文字的特殊后驗概率,對所述待識別文字進行識別。
[0016] 本申請實施例提供的一種文字識別裝置,包括:
[0017] 備選文字確定模塊,根據待識別文字的特征,確定所述待識別文字的備選文字;
[0018] 概率確定模塊,針對每個備選文字,根據已識別的所述待識別文字的前一個文字, 采用特殊校正模型確定所述待識別文字是該備選文字的特殊后驗概率;其中,所述特殊校 正模型是預先根據統計的出現在特殊應用場景中的詞匯的詞頻得到的;
[0019] 識別模塊,根據每個備選文字的特殊后驗概率,對所述待識別文字進行識別。
[0020] 本申請實施例提供一種文字識別方法及裝置,該方法確定待識別文字的備選文 字,并針對每個備選文字,采用特殊校正模型確定該待識別文字是該備選文字的特殊后驗 概率,再根據每個備選文字的特殊后驗概率識別該待識別文字。由于上述特殊校正模型是 預先根據統計的出現在特殊應用場景中的詞匯的詞頻得到的,因此采用特殊校正模型可以 準確的識別出符合特殊應用場景的文字,從而可以提高在特殊應用場景中識別文字的精 度。
【附圖說明】
[0021] 此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申 請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:
[0022] 圖1為本申請實施例提供的文字識別過程;
[0023] 圖2為本申請實施例提供的文字識別裝置結構示意圖。
【具體實施方式】
[0024] 由于在特殊的應用場景中,采用通用校正模型并不能準確的識別出符合該特殊應 用場景的文字,因此,本申請實施例中針對特殊應用場景,預先統計出現在該特殊應用場景 中的詞匯的詞頻,并據此得到特殊校正模型,在對待識別文字進行識別時,采用該特殊校正 模型進行識別,以提高在該特殊應用場景下識別文字的精度。
[0025] 為使本申請的目的、技術方案和優點更加清楚,下面將結合本申請具體實施例及 相應的附圖對本申請技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一 部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做 出創造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
[0026] 圖1為本申請實施例提供的文字識別過程,具體包括以下步驟:
[0027] SlOl :根據待識別文字的特征,確定該待識別文字的備選文字。
[0028] 在本申請實施例中,識別裝置可將待識別文字輸入到OCR引擎中,通過OCR引擎提 取該待識別文字的特征,并將提取的特征與預先保存在模板庫中的每個標準文字的特征進 行比對,以確定該待識別文字的特征與每個標準文字的特征的相似度,再將相似度較大的 若干個標準文字確定為該待識別文字的備選文字。其中,本申請實施例中所述的待識別文 字的特征包括但不限于待識別文字的筆畫特征。
[0029] 具體的,識別裝置可先提取圖像中的文字行,再確定文字行中的文字塊(其中,一 個文字塊中包含一個文字),再按照文字書寫順序(如,從左到右),依次針對每個文字塊,將 該文字塊中的文字作為待識別文字(也即,當前針對的文字塊中包含的就是待識別文字)輸 入到OCR引擎中進行識別。
[0030] 例如,假設提取出的文字行中實際包含的文字為"應收",則識別裝置確定的該文 字行中的文字塊有兩個,一個是"應"字所在的文字塊,另一個是"收"字所在的文字塊。
[0031] 由于一般的文字書寫順序是從左到右,因此,識別裝置按照從左到右的順序,先對 "應"字所在的文字塊中的文字進行識別,再對"收"字所在的文字塊中的文字進行識別。
[0032] S102:針對每個備選文字,根據已識別的該待識別文字的前一個文字,采用特殊校 正模型確定該待識別文字是該備選文字的特殊后驗概率。
[0033] 在本申請實施例中,上述特殊校正模型是預先根據統計的出現在特殊應用場景中 的詞匯的詞頻得到的。例如,假設特殊應用場景為單據應用場景,則可預先從大量的購物小 票、收據中收集大量出現在單據應用場景中的詞匯,并根據這些購物小票和收據,統計出現 在單據應用場景中的各詞匯的詞頻,再根據統計的詞頻得到特殊校正模型。需要說明的是, 即使是同一個詞匯,其出現在普通場景中的詞頻和出現在特殊應用場景中的詞頻很有可能 差距很大,因此,本申請實施例中的特殊校正模型與通用校正模型具有很大差異。對于由文 字A和文字B組成的詞匯AB來說,在特殊應用場景中,如果AB出現的詞頻越大,則在待識 別文字的前一個文字是A的條件下,采用特殊校正模型確定的該待識別文字是B的特殊后 驗概率也越大。<