一種文本識別方法和裝置的制造方法
【技術領域】
[0001] 本發明涉及文本識別技術領域,特別是涉及一種文本識別方法和一種文本識別裝 置。
【背景技術】
[0002] 隨著大數據時代的到來,文本識別是信息提取、數據分析和數據處理中的慣用手 段,例如,在建立電影和演員數據庫過程中,往往需要準確識別并提取演員的名稱信息。
[0003] 目前,正則匹配法是文本識別的慣用手段,通過建立正則表達式,可以識別滿足該 正則表達式的特定文本,對于不滿足該正則表達式的其他文本,往往無法識別或識別出錯。
[0004] 在實際應用中,正則匹配法具有極大的局限性,缺乏通用性,尤其對于復雜的、非 結構化的網絡文本,正則匹配法更是難以適用,例如,在演員名稱的識別過程中,假如存在 第一文本"關德興/鄧碧云/梁醒波/"和第二文本"安德烈?卡拉斯科/AndreyKrasko, 米蓋爾?普萊切科夫/Μ η x",針對第一文本的正則表達式以"/"為演員名稱的分隔符, 然而,將該正則表達式套用在第二文本時,將會識別出"安德烈·卡拉斯科"和"Andrey Krasko"、"米蓋爾?普萊切科夫"和"Μη X"分別為兩個不同的演員名稱,而實際上, "Andrey Krasko"僅為"安德烈?卡拉斯科"的別名,"Μ η X"僅為"米蓋爾?普萊切科夫" 的別名。
【發明內容】
[0005] 鑒于上述問題,提出了本發明實施例以便提供一種克服上述問題或者至少部分地 解決上述問題的一種文本識別方法和相應的一種文本識別裝置。
[0006] 為了解決上述問題,本發明實施例公開了一種文本識別方法,包括:
[0007] 對待識別文本進行分割,獲得若干個分割文本;其中,各個分割文本被分割為一個 或多個字段;
[0008] 將所述各個分割文本中的字段,與預置的文本識別數據庫中的文本進行匹配,獲 得匹配數量;
[0009] 對各個所述字段分配與其匹配數量相應的分值;
[0010] 統計所述各個分割文本的總分值;
[0011] 將總分值最高的分割文本作為所述待識別文本的最優識別結果。
[0012] 優選的,所述將待識別文本分割成若干個分割文本的步驟包括:
[0013] 確定待識別文本中分割符的位置;
[0014] 在所述分割符的位置對所述待識別文本進行分割,獲得2η個分割文本,η為所述待 識別文本中分割符的數量,η為正整數。
[0015] 優選的,所述預置的文本識別數據庫包括主要文本和次要文本,所述將所述各個 分割文本中的字段,與預置的文本識別數據庫中的文本進行匹配,獲得匹配數量的步驟包 括:
[0016] 將所述各個分割文本中的字段,與所述預置的文本識別數據庫中的主要文本進行 匹配,獲得匹配數量;
[0017] 若某字段與所述主要文本進行匹配所獲得的匹配數量為0,則將其與所述預置的 文本識別數據庫中的次要文本進行匹配,獲得匹配數量。
[0018] 優選的,所述對各個所述字段分配與其匹配結果相應的分值的步驟包括:
[0019] 若某字段的匹配數量為0,則分配的分值為
[0020] 若某字段的匹配數量為1,則分配的分值為1 ;
[0021] 若某字段的匹配數量為m,則分配的分值為1,m為大于或等于2的正整數。 m
[0022] 優選的,所述對各個所述字段分配與其匹配結果相應的分值的步驟包括:
[0023] 獲取所述各個分割文本中字段的數量p;
[0024] 若某字段的匹配數量為q,則分配的分值為f,其中,p為正整數,q為0或正整數。
[0025] 本發明實施例還公開了一種文本識別裝置,包括:
[0026] 文本分割模塊,用于對待識別文本進行分割,獲得若干個分割文本;其中,各個分 割文本被分割為一個或多個字段;
[0027] 匹配模塊,用于將所述各個分割文本中的字段,與預置的文本識別數據庫中的文 本進行匹配,獲得匹配數量;
[0028] 分值分配模塊,用于對各個所述字段分配與其匹配數量相應的分值;
[0029] 總分值統計模塊,用于統計所述各個分割文本的總分值;
[0030] 最優識別結果確定模塊,用于將總分值最高的分割文本作為所述待識別文本的最 優識別結果。
[0031] 優選的,所述文本分割模塊包括:
[0032] 分割符位置確定子模塊,用于確定待識別文本中分割符的位置;
[0033] 文本分割子模塊,用于在所述分割符的位置對所述待識別文本進行分割,獲得2n 個分割文本,η為所述待識別文本中分割符的數量,η為正整數。
[0034] 優選的,所述預置的文本識別數據庫包括主要文本和次要文本,所述匹配模塊包 括:
[0035] 第一匹配子模塊,用于將所述各個分割文本中的字段,與所述預置的文本識別數 據庫中的主要文本進行匹配,獲得匹配數量;
[0036] 第二匹配子模塊,用于在某字段與所述主要文本進行匹配所獲得的匹配數量為0 時,則將其與所述預置的文本識別數據庫中的次要文本進行匹配,獲得匹配數量。
[0037] 優選的,所述分值分配模塊包括:
[0038] 第一分值分配子模塊,用于在某字段的匹配數量為0時,則分配的分值為
[0039] 第二分值分配子模塊,用于在某字段的匹配數量為1,則分配的分值為1 ;
[0040] 第三分值分配子模塊,用于在某字段的匹配數量為m,則分配的分值為1,m為大 m 于或等于2的正整數。
[0041] 優選的,所述分值分配模塊包括:
[0042] 字段數量獲取子模塊,用于獲取所述各個分割文本中字段的數量p;
[0043] 第四分值分配子模塊,用于在某字段的匹配數量為q時,則分配的分值為其 中,P為正整數,q為〇或正整數。
[0044] 本發明實施例包括以下優點:
[0045] 本發明實施例可以對待識別文本進行分割,獲得若干個分割文本,將各個分割文 本中的字段,與預置的文本識別數據庫中的文本進行匹配,獲得匹配數量,對各個字段分配 與其匹配數量相應的分值,將總分值最高的分割文本作為待識別文本的最優識別結果,由 于本發明實施例采用的是文本分割方式,獲得的分割文本可以涵括所有的可能分割結果, 最后將總分值最高的分割文本作為所有可能分割結果中的最優識別結果,因此,本發明實 施例可以適用于任意格式的待識別文本,能夠準確識別復雜的、非結構化的網絡文本,相對 于正則匹配法而言,具有更好的通用性和更高的識別準確性。
【附圖說明】
[0046] 圖1是本發明的一種文本識別方法實施例的步驟流程圖;
[0047] 圖2是本發明的一種文本識別裝置實施例的結構框圖。
【具體實施方式】
[0048] 為使本發明的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖和具體實 施方式對本發明作進一步詳細的說明。
[0049] 本發明實施例的核心構思之一在于,本發明實施例采用的是文本分割方式,獲得 的分割文本可以涵括所有的可能分割結果,最后將總分值最高的分割文本作為所有可能分 割結果中的最優識別結果,因此,本發明實施例可以適用于任意格式的待識別文本,能夠準 確識別復雜的、非結構化的網絡文本,相對于正則匹配法而言,具有更好的通用性和更高的 識別準確性。
[0050] 通常,在信息提取