字符轉換系統和字符轉換方法
【專利摘要】本發明提供了一種字符轉換系統,包括:解析單元,解析接收到的數據,確定數據所包含的至少一個字符,并獲取至少一個字符中每個字符對應的屬性信息;判斷單元,對于每個字符,根據屬性信息確定字符的字形位圖,判斷字形位圖是否滿足預設條件;轉換單元,在判斷單元判定滿足預設條件的情況下,根據屬性信息確定字符的初始內碼,并根據初始內碼對字符進行轉換,在判斷單元判定不滿足預設條件的情況下,根據字形位圖識別字符的實際內碼,并根據實際內碼對字符進行轉換。本發明還提出了一種字符轉換方法。通過本發明的技術方案,能夠在字符轉換過程中自動修正內碼錯誤,避免了鑒定錯誤文檔與修復或重建文檔而耗費時間,減輕了字符轉換時系統的負擔。
【專利說明】字符轉換系統和字符轉換方法
【技術領域】
[0001] 本發明涉及文字處理【技術領域】,具體而言,涉及一種字符轉換系統和一種字符轉 換方法。
【背景技術】
[0002] 中文文字有簡體字與繁體字之分,然而因為簡體字與繁體字之間的差異甚大,造 成了這兩種文字的使用者在交流信息上的隔閡。不僅是簡體字的使用者在閱讀繁體字上 有一定的困難,對于沒接觸過簡體字的繁體字使用者來說,閱讀一份簡體字文件也只能理 解其中的部分內容。另外,簡體字與繁體字所使用的編碼也不相同,簡體字是用GB (國標) 編碼,繁體字則是使用Big5碼,因此如果使用者所在的本地端沒有裝設相應的編解碼設備 時,就會有顯示亂碼的情形發生。
[0003] 簡繁轉換工具正是根據此需求產生,無論是網站或文字編輯軟件幾乎都附有這類 的簡繁轉化工具,但要正確無誤的轉換一份簡體字或繁體字文件,卻并不輕松。通常的簡繁 轉換是根據簡/繁體文字的內碼查找相對應的繁/簡體文字內碼來進行轉換,但當遇到內 碼錯誤的情況就會出現轉換出的內容與實際大相徑庭的情況。這種文字內碼與其字形不匹 配的現象稱作亂碼現象。
[0004] 亂碼現象通常存在于含有內嵌字體數據格式的文檔中,比如PDF或ePub等格式的 文檔。含有亂碼(錯誤內碼)的文檔通常是顯示正確,而在提取或復制文字時卻出現亂碼,這 是由于文檔在被制作時使用了特殊的字體或內嵌的字體數據經過了非常規的改動,導致文 檔無法提供正確的文字內碼。另一方面,一部分特殊字體其字形的度量也與一般字體存在 差異,這將導致使用一般字體繪制轉換后的文字時可能出現字符大小顯示異常的問題。由 于歷史原因,這類含有亂碼的文檔是大量存在的。
[0005] 為了轉換含有亂碼的文檔,只能重新制作文檔,或采用OCR (光學字符識別)的技 術手段將文檔逐頁識別出文字再進行轉換,而這兩種方法都需要消耗額外的人力資源。
[0006] 因此,需要一種新的字符轉換技術,能夠在字符轉換過程中自動修正內碼錯誤,降 低人力消耗,并避免了鑒定錯誤文檔與修復或重建文檔而耗費時間,減輕了字符轉換時系 統的負擔。
【發明內容】
[0007] 本發明正是基于上述問題,提出了一種字符轉換技術,能夠在字符轉換過程中自 動修正內碼錯誤,降低人力消耗,并避免了鑒定錯誤文檔與修復或重建文檔而耗費時間,減 輕了字符轉換時系統的負擔。
[0008] 有鑒于此,本發明提出了一種字符轉換系統,包括:解析單元,用于解析接收到的 數據,確定所述數據所包含的至少一個字符,并獲取所述至少一個字符中每個字符對應的 屬性信息;判斷單元,對于所述每個字符,根據所述屬性信息確定所述字符的字形位圖,判 斷所述字形位圖是否滿足預設條件;轉換單元,用于在所述判斷單元判定滿足所述預設條 件的情況下,根據所述屬性信息確定所述字符的初始內碼,并根據所述初始內碼對所述字 符進行轉換,在所述判斷單元判定不滿足所述預設條件的情況下,根據所述字形位圖識別 所述字符的實際內碼,并根據所述實際內碼對所述字符進行轉換。
[0009] 在該技術方案中,可以通過判斷待轉換字符的位圖是否滿足預設條件,來確定待 轉換字符的字體內碼是否正確,并在字體內碼不正確時,可以識別待轉換字符的實際內碼 作為轉換依據,對待轉換字符進行轉換,從而實現了在字符轉換過程中自動修復內碼錯誤, 減少了鑒定錯誤文檔與修復或重建文檔所耗費的時間,達到減輕系統負擔的技術功效。 [0010] 本發明還提出了一種字符轉換方法,包括:解析接收到的數據,確定所述數據所包 含的至少一個字符,并獲取所述至少一個字符中每個字符對應的屬性信息;對于所述每個 字符,根據所述屬性信息確定所述字符的字形位圖,判斷所述字形位圖是否滿足預設條件, 若滿足所述預設條件,則根據所述屬性信息確定所述字符的初始內碼,并根據所述初始內 碼對所述字符進行轉換,若不滿足所述預設條件,則根據所述字形位圖識別所述字符的實 際內碼,并根據所述實際內碼對所述字符進行轉換。
[0011] 在該技術方案中,可以通過判斷待轉換字符的位圖是否滿足預設條件,來確定待 轉換字符的字體內碼是否正確,并在字體內碼不正確時,可以識別待轉換字符的實際內碼 作為轉換依據,對待轉換字符進行轉換,從而實現了在字符轉換過程中自動修復內碼錯誤, 減少了鑒定錯誤文檔與修復或重建文檔所耗費的時間,達到減輕系統負擔的技術功效。
[0012] 通過以上技術方案,能夠在字符轉換過程中自動修正內碼錯誤,降低人力消耗,并 避免了鑒定錯誤文檔與修復或重建文檔而耗費時間,減輕了字符轉換時系統的負擔。
【專利附圖】
【附圖說明】
[0013] 圖1示出了根據本發明的實施例的字符轉換系統的框圖;
[0014] 圖2示出了根據本發明的實施例的字符轉換方法的流程圖;
[0015] 圖3示出了根據本發明的實施例的字符轉換系統的結構圖;
[0016] 圖4示出了根據本發明的實施例的字符轉換方法的具體流程圖;
[0017] 圖5示出了根據本發明的實施例的判斷字形相似度的流程圖;
[0018] 圖6A和圖6B示出了根據本發明的實施例的字形轉換的示意圖。
【具體實施方式】
[0019] 為了能夠更清楚地理解本發明的上述目的、特征和優點,下面結合附圖和具體實 施方式對本發明進行進一步的詳細描述。需要說明的是,在不沖突的情況下,本申請的實施 例及實施例中的特征可以相互組合。
[0020] 在下面的描述中闡述了很多具體細節以便于充分理解本發明,但是,本發明還可 以采用其他不同于在此描述的其他方式來實施,因此,本發明的保護范圍并不受下面公開 的具體實施例的限制。
[0021] 圖1示出了根據本發明的實施例的字符轉換系統的框圖。
[0022] 如圖1所示,根據本發明的實施例的字符轉換系統100包括:解析單元102,用于 解析接收到的數據,確定所述數據所包含的至少一個字符,并獲取所述至少一個字符中每 個字符對應的屬性信息;判斷單元104,對于所述每個字符,根據所述屬性信息確定所述字 符的字形位圖,判斷所述字形位圖是否滿足預設條件;轉換單元106,用于在所述判斷單元 104判定滿足所述預設條件的情況下,根據所述屬性信息確定所述字符的初始內碼,并根據 所述初始內碼對所述字符進行轉換,在所述判斷單元104判定不滿足所述預設條件的情況 下,根據所述字形位圖識別所述字符的實際內碼,并根據所述實際內碼對所述字符進行轉 換。
[0023] 在上述技術方案中,優選地,還包括:相似度確定單元108,用于將所述字形位圖 與標準位圖進行比較得到字形相似度,根據所述字形相似度確定平均相似度,其中,所述判 斷單元104用于判斷平均相似度是否大于或等于預設閾值,所述轉換單元106,用于在判斷 單元104判定平均相似度大于或等于預設閾值時,根據屬性信息確定字符的初始內碼,根 據初始內碼將字符轉化為第一目標字符,以及在判斷單元104判定平均相似度小于預設閾 值時,根據字形位圖識別字符的實際內碼,并根據實際內碼將字符轉化為第二目標字符。
[0024] 可以通過計算待轉換字符的位圖與標準位圖的相似度,再判斷相似度與預設閾值 的關系,來確定待轉換字符的字體內碼是否正確,并在字體內碼不正確時,可以識別待轉換 字符的實際內碼作為轉換依據,將待轉換字符轉換為第二目標字符,從而實現了在字符轉 換過程中自動修復內碼錯誤,減少了鑒定錯誤文檔與修復或重建文檔所耗費的時間,達到 減輕系統負擔的技術功效。
[0025] 需要說明的是,上述第一目標字符和第二目標字符可以是相同類型的字符,也可 以是不同類型的字符。
[0026] 優選地,判斷單元104用于根據所述屬性信息確定所述字符分別對應的字體,并 獲取每種字體對應的預設數目字符的字形位圖,以及獲取所述預設數目字符基于標準字體 的標準位圖。
[0027] 可以根據待轉換字符的字體,獲取其中若干個字符的字形位圖,再根據屬性信息 中的內碼(即初始內碼)獲取上述若干個字符基于標準字體(比如宋體)的標準位圖,然后每 個字符的字形位圖與其標準位圖的進行字形對比為確定字形相似度,再根據每個字符的字 形相似度,計算平均相似度,從而可以準確地判斷待轉換字符的字形相似度與預設閾值的 大小關系,進而準確地判斷待轉換字符的字體的內碼是否正確。
[0028] 優選地,還包括:內碼類別判斷單元110,用于根據屬性信息判斷字符的初始內碼 屬于預設類別;其中,在內碼類別判斷單元110的判斷結果為是的情況下,所述判斷單元 104根據屬性信息確定字符分別對應的字體。
[0029] 當進行字符轉換時,只有在待轉換字符的內碼屬于特定類別的時,才進行轉換,t匕 如在將簡體字轉換為繁體字時,可以檢測待轉換字符的內碼為簡體字內碼,屬于漢字的內 碼類別,則可以進行轉換,但是如果檢測到待轉換字符中存在內碼為數字內碼的字符時,則 不對該字符進行轉換。
[0030] 優選地,還包括:調整度確定單元112,用于將字形位圖的高度和寬度中較大的 值,與標準位圖的高度和寬度中較大的值進行比較,得到字形調整度;字符繪制單元114, 用于根據所述第一目標字符對應的字形調整度調整所述第一目標字符的第一字號,根據校 準后的第一字號繪制所述第一目標字符,根據所述第二目標字符對應的字形調整度校準所 述第二目標字符的第二字號,并根據校準后的第二字號繪制所述第二目標字符,和/或根 據未轉換的字符的字號繪制未轉換的字符。
[0031] 在繪制轉換后的字符之前,如果待繪制的字符的內碼被糾正過(即以實際內碼替 換過),則使用字形調整度調整該字符的字號,使其在轉換后的字號可以與轉換前的字號相 匹配。
[0032] 優選地,轉換單元106通過光學字符識別技術識別字形位圖以得到實際內碼。
[0033] 圖2示出了根據本發明的實施例的字符轉換方法的流程圖。
[0034] 如圖2所示,根據本發明的實施例的字符轉換方法包括:解析接收到的數據,確定 所述數據所包含的至少一個字符,并獲取所述至少一個字符中每個字符對應的屬性信息; 對于所述每個字符,根據所述屬性信息確定所述字符的字形位圖,判斷所述字形位圖是否 滿足預設條件,若滿足所述預設條件,則根據所述屬性信息確定所述字符的初始內碼,并根 據所述初始內碼對所述字符進行轉換,若不滿足所述預設條件,則根據所述字形位圖識別 所述字符的實際內碼,并根據所述實際內碼對所述字符進行轉換。
[0035] 優選地,斷所述字形位圖是否滿足所述預設條件的過程包括:將字形位圖與標準 位圖進行比較得到字形相似度,根據每個字符的字形相似度確定平均相似度,并將所述平 均相似度與預設閾值進行比較;若平均相似度大于或等于預設閾值,則根據屬性信息確定 字符的初始內碼,根據初始內碼將字符轉化為第一目標字符;若平均相似度小于預設閾值, 則根據字形位圖識別字符的實際內碼,并根據實際內碼將字符轉化為第二目標字符。
[0036] 可以通過計算待轉換字符的位圖與標準位圖的相似度,再判斷相似度與預設閾值 的關系,來確定待轉換字符的字體內碼是否正確,并在字體內碼不正確時,可以識別待轉換 字符的實際內碼作為轉換依據,將待轉換字符轉換為第二目標字符,從而實現了在字符轉 換過程中自動修復內碼錯誤,減少了鑒定錯誤文檔與修復或重建文檔所耗費的時間,達到 減輕系統負擔的技術功效。
[0037] 優選地,根據所述屬性信息確定所述字符的字形位圖的過程包括:根據所述屬性 信息確定所述字符分別對應的字體,并獲取每種字體對應的預設數目字符的字形位圖,以 及獲取所述預設數目字符基于標準字體的標準位圖。
[0038] 可以根據待轉換字符的字體,獲取其中若干個字符的字形位圖,再根據屬性信息 中的內碼(即初始內碼)獲取上述若干個字符基于標準字體(比如宋體)的標準位圖,然后每 個字符的字形位圖與其標準位圖的進行字形對比為確定字形相似度,再根據每個字符的字 形相似度,計算平均相似度,從而可以準確地判斷待轉換字符的字形相似度與預設閾值的 大小關系,進而準確地判斷待轉換字符的字體的內碼是否正確。
[0039] 優選地,還包括:根據屬性信息判斷字符的初始內碼屬于預設類別,若屬于,則對 字符進行轉換,若不屬于,則不對字符進行轉換。
[0040] 當進行字符轉換時,只有在待轉換字符的內碼屬于特定類別的時,才進行轉換,t匕 如在將簡體字轉換為繁體字時,可以檢測待轉換字符的內碼為簡體字內碼,屬于漢字的內 碼類別,則可以進行轉換,但是如果檢測到待轉換字符中存在內碼為數字內碼的字符時,則 不對該字符進行轉換。
[0041] 優選地,還包括:將字形位圖的高度和寬度中較大的值,與標準位圖的高度和寬度 中較大的值進行比較,得到字形調整度;字符轉換方法還包括:根據所述第一目標字符對 應的字形調整度調整所述第一目標字符的第一字號,根據校準后的第一字號繪制所述第一 目標字符,根據所述第二目標字符對應的字形調整度校準所述第二目標字符的第二字號, 并根據校準后的第二字號繪制所述第二目標字符,和/或根據未轉換的字符的字號繪制未 轉換的字符。
[0042] 在繪制轉換后的字符之前,如果待繪制的字符的內碼被糾正過(即以實際內碼替 換過),則使用字形調整度調整該字符的字號,使其在轉換后的字號可以與轉換前的字號相 匹配。
[0043] 優選地,還包括:通過光學字符識別技術識別字形位圖以得到實際內碼。
[0044] 下面以將簡體字轉化為繁體字為例,來說明本發明的【具體實施方式】。
[0045] 圖3示出了根據本發明的實施例的字符轉換系統的結構圖。
[0046] 如圖3所示,根據本發明的實施例的字符轉換系統100可以包括:解析模塊302, 評估模塊304,修正模塊306,轉換模塊308,顯示模塊310。
[0047] 簡體到繁體內碼轉換數據庫儲存有所有中文簡體字的內碼及其對應的中文繁體 字內碼;繁體到簡體內碼轉換數據庫儲存有所有中文繁體字的內碼及其對應的中文簡體字 內碼。
[0048] 解析模塊302用于將接收的數據內容解析為字體資源與文字內容;
[0049] 評估模塊304用于評估各個字體,以確定需要進行糾錯處理的字體,并計算出各 字體字形度量的調整值;
[0050] 修正模塊306用于修正使用了含有錯誤內碼的字體的文字內容;
[0051] 轉換模塊308用于把文字內容中的字符逐一轉換為對應的繁/簡體字符;
[0052] 顯示模塊310用于將轉換后的文字內容繪制到輸出設備上,如屏幕或打印機。
[0053] 圖4示出了根據本發明的實施例的字符轉換方法的具體流程圖。
[0054] 如圖4所示,根據本發明的實施例的字符轉換方法具體包括:
[0055] 步驟402,建立包含有多個簡體字內碼及其對應的繁體字內碼的轉換數據庫和包 含有多個繁體字內碼及其對應的簡體字內碼的轉換數據庫;
[0056] 步驟404,接收一數據內容(比如PDF格式的文檔),并解析出其中包含的各個字體 資源以及所有文字內容,其中文字內容包含了其所屬的字體名稱或編號(系統為字體分配 的編號,用于標識字體)、字號(用于描述字符被繪制時的尺寸大小)、其對應的字形編碼以 及對應的字符內碼;
[0057] 步驟406,對每種字體進行評估,從解析出的文字內容中選取一定數量的字符樣 本,這些字符樣本都使用正被評估的字體,且它們的內碼在中文簡體字內碼范圍內,對這些 字符樣本分別獲取同一字號的被評估字體的對應的字形位圖與標準字體(如宋體)的對應 字形位圖,將兩個字形位圖進行字形對比(OCR中常見的一個處理步驟)得到字形相似度,再 將兩個位圖邊長(此邊長為位圖寬度和高度其中的較大值)相除得到字形度量調整度,最后 統計字符樣本的相似度平均值和字形度量調整度平均值;
[0058] 步驟408,判斷相似度平均值是否小于預先設定的閾值,若大于或等于,則進入步 驟 412 ;
[0059] 步驟410,若小于,則判定字符的當前字體內碼錯誤,需要被修正,通過OCR功能識 別字符對應的字形位圖,進而得到正確的字符內碼(即實際內碼),并替換該文字內容中的 內碼;
[0060] 步驟412,判斷字符內碼是否屬于中文漢字內碼范圍內,若不屬于,則無須轉換此 字符;
[0061] 步驟414,若屬于,則在簡體到繁體內碼轉換數據庫中查找與此字符內碼相對應的 繁體字內碼,并且將其所屬的字體名稱或編號改為某一默認繁體字體(如明流);
[0062] 步驟416,依次繪制所有文字內容,對于轉換過的字符可通過內碼獲取其對應的字 形位圖進行繪制,在繪制前使用字形調整度來校準當前字符的字號;
[0063] 步驟418,對于未轉換過的字符可通過字形編碼獲取其對應的字形位圖進行繪制。
[0064] 通過上述的技術手段,本發明減少了鑒定錯誤文檔與修復或重建文檔所耗費的時 間,達到減輕系統負擔的技術功效。
[0065] 圖5示出了根據本發明的實施例的判斷字形相似度的流程圖。
[0066] 如圖5所示,判斷字形相似度的方法包括:
[0067] 步驟502,獲取待轉換字符中的一個字符;
[0068] 步驟504,判斷該字符的字體是否為當前被評估的字體,若不是,則返回步驟502, 獲取下一個字符;
[0069] 步驟506,若是當前被評估的字體,則判斷該字符的內碼是否在簡體字內碼范圍 內,若不在,則返回步驟502,獲取下一字符;
[0070] 步驟508,若在簡體字內碼范圍內,則獲取該字符基于當前字體的字形位圖和基于 標準字體的標準位圖;
[0071] 步驟510,比較字形位圖和標準位圖的字形相似度,并獲取字形位圖中長和寬中的 較大值,與標準位圖中長和寬的較大值相比,得到字形調整度;
[0072] 步驟512,計算若干個字符的字形相似度平均值和字形調整度平均值;
[0073] 步驟514,判斷字形相似度平均值是否小于預設閾值;
[0074] 步驟516,若小于,則判定字符的當前字體為使用錯誤內碼的字體,記錄相應的字 形調整度;
[0075] 步驟518,若大于,則判定字符的當前字體為使用正確內碼的字體,記錄相應的字 形調整度。
[0076] 圖6A和圖6B示出了根據本發明的實施例的字形轉換的示意圖。
[0077] 比如有一篇如圖6A所示的文檔,需要對其做簡體到繁體的轉換。其中第一行字符 內容使用字體A,內碼正確,其余字符內容使用字體B,內碼錯誤。
[0078] 那么首先建立包含有多個簡體字內碼及其對應的繁體字內碼的轉換數據庫和包 含有多個繁體字內碼及其對應的簡體字內碼的轉換數據庫,解析出文檔使用的兩種字體以 及其中所有的文字內容,其中字體中包含了大量字形描述信息,通過字形編碼能夠獲取特 定的字形描述信息進而得到字符位圖,而文字內容是由每個字符所屬的字體名稱或ID、其 對應的字形編碼以及對應的字符內碼組成,具體的文字內容如表1所示:
【權利要求】
1. 一種字符轉換系統,其特征在于,包括: 解析單元,用于解析接收到的數據,確定所述數據所包含的至少一個字符,并獲取所述 至少一個字符中每個字符對應的屬性信息; 判斷單元,對于所述每個字符,根據所述屬性信息確定所述字符的字形位圖,判斷所述 字形位圖是否滿足預設條件; 轉換單元,用于在所述判斷單元判定滿足所述預設條件的情況下,根據所述屬性信息 確定所述字符的初始內碼,并根據所述初始內碼對所述字符進行轉換,在所述判斷單元判 定不滿足所述預設條件的情況下,根據所述字形位圖識別所述字符的實際內碼,并根據所 述實際內碼對所述字符進行轉換。
2. 根據權利要求1所述的字符轉換系統,其特征在于,還包括: 相似度確定單元,用于將所述字形位圖與標準位圖進行比較得到字形相似度,根據所 述字形相似度確定平均相似度, 其中,所述判斷單元用于判斷所述平均相似度是否大于或等于預設闊值,所述轉換單 元在所述判斷單元判定所述平均相似度大于或等于所述預設闊值時,根據所述屬性信息確 定所述字符的初始內碼,根據所述初始內碼將所述字符轉化為第一目標字符,W及在所述 判斷單元判定所述平均相似度小于所述預設闊值時,根據所述字形位圖識別所述字符的實 際內碼,并根據所述實際內碼將所述字符轉化為第二目標字符。
3. 根據權利要求2所述的字符轉換系統,其特征在于,所述判斷單元用于根據所述屬 性信息確定所述字符分別對應的字體,并獲取每種字體對應的預設數目字符的字形位圖, W及獲取所述預設數目字符基于標準字體的標準位圖。
4. 根據權利要求2所述的字符轉換系統,其特征在于,還包括: 調整度確定單元,用于將所述字形位圖的高度和寬度中較大的值,與所述標準位圖的 高度和寬度中較大的值進行比較,得到字形調整度; 字符繪制單元,用于根據所述第一目標字符對應的字形調整度調整所述第一目標字符 的第一字號,根據校準后的第一字號繪制所述第一目標字符,根據所述第二目標字符對應 的字形調整度校準所述第二目標字符的第二字號,并根據校準后的第二字號繪制所述第二 目標字符,和/或根據所述未轉換的字符的字號繪制所述未轉換的字符。
5. 根據權利要求1至4中任一項所述的字符轉換系統,其特征在于,所述轉換單元通過 光學字符識別技術識別所述字形位圖W得到所述實際內碼。
6. -種字符轉換方法,其特征在于,包括: 解析接收到的數據,確定所述數據所包含的至少一個字符,并獲取所述至少一個字符 中每個字符對應的屬性信息; 對于所述每個字符,根據所述屬性信息確定所述字符的字形位圖,判斷所述字形位圖 是否滿足預設條件,若滿足所述預設條件,則根據所述屬性信息確定所述字符的初始內碼, 并根據所述初始內碼對所述字符進行轉換,若不滿足所述預設條件,則根據所述字形位圖 識別所述字符的實際內碼,并根據所述實際內碼對所述字符進行轉換。
7. 根據權利要求6所述的字符轉換方法,其特征在于,斷所述字形位圖是否滿足所述 預設條件的過程包括:將所述字形位圖與標準位圖進行比較,W得到字形相似度;根據所 述字形相似度確定平均相似度,并將所述平均相似度與預設闊值進行比較; 若所述平均相似度大于或等于所述預設闊值,則根據所述屬性信息確定所述字符的初 始內碼,根據所述初始內碼將所述字符轉化為第一目標字符; 若所述平均相似度小于所述預設闊值,則根據所述字形位圖識別所述字符的實際內 碼,并根據所述實際內碼將所述字符轉化為第二目標字符。
8. 根據權利要求7所述的字符轉換方法,其特征在于,根據所述屬性信息確定所述字 符的字形位圖的過程包括;根據所述屬性信息確定所述字符分別對應的字體,并獲取每種 字體對應的預設數目字符的字形位圖,W及獲取所述預設數目字符基于標準字體的標準位 圖。
9. 根據權利要求7所述的字符轉換方法,其特征在于,還包括:將所述字形位圖的高度 和寬度中較大的值,與所述標準位圖的高度和寬度中較大的值進行比較,得到字形調整度; 根據所述第一目標字符對應的字形調整度調整所述第一目標字符的第一字號,根據校準后 的第一字號繪制所述第一目標字符,根據所述第二目標字符對應的字形調整度校準所述第 二目標字符的第二字號,并根據校準后的第二字號繪制所述第二目標字符,和/或根據所 述未轉換的字符的字號繪制所述未轉換的字符。
10. 根據權利要求6至9中任一項所述的字符轉換方法,其特征在于,還包括;通過光 學字符識別技術識別所述字形位圖W得到所述實際內碼。
【文檔編號】G06F17/28GK104462068SQ201310415209
【公開日】2015年3月25日 申請日期:2013年9月12日 優先權日:2013年9月12日
【發明者】徐劍波, 孫浩鵬, 丁力, 王海濤, 耿蕾蕾 申請人:北大方正集團有限公司, 北京方正阿帕比技術有限公司, 方正信息產業控股有限公司