本發明涉及計算機數據處理技術領域,尤其涉及一種文檔查錯方法和裝置。
背景技術:
文檔的自動查錯技術能夠自己檢查出文檔中出現的各種錯誤,有些還可以自動更正,提高了文檔開發和修改的效率。
目前的文檔查錯技術主要是搜索某個錯誤的字詞搭配,發現后進行提醒或更正。這種方法有比較大的局限性,存在無法檢測文檔前后用詞一致性的問題。所以,如何檢查文檔中字詞句前后一致性,成為本發明所要解決的技術問題。
技術實現要素:
本發明提供一種文檔查錯方法和裝置,用以解決現有技術無法檢測文檔前后用詞一致性的問題。
依據本發明的一個方面,提供一種文檔查錯方法,包括:
根據同義字詞句庫,檢查并記錄文檔中出現的同義字詞句;
將記錄的同義字詞句修改為統一用詞。
可選地,本發明所述方法中,在將記錄的同義字詞句修改為統一用詞之前,還包括:
通過語句比對的方式,檢查文檔中出現的同義字詞句,并對檢查到的同義字詞句中不屬于同義字詞句庫中的同義字詞句進行記錄。
可選地,本發明所述方法中,所述通過語句比對的方式,檢查文檔中出現的同義字詞句,包括:
根據配置信息,確定語句長度及語句比對方式;
確定搜索起始位置,得到起始語句,將起始語句與該語句之后的所有語句進行比對,以確定起始語句與該語句之后的所有語句中是否存在同義字詞句;其中,起始語句之后的所有語句為:在起始語句后,起始位置以字符為單位逐漸向后推移得到的各語句;
將搜索起始位置向后移動一個字符,得到新的搜索起始位置后返回上述語句比對步驟。
可選地,本發明所述方法中,所述語句比對方式包括:
將語句劃分為同義字詞句前端字符串+同義字詞句字符串+同義字詞句后端字符串;
將兩個語句相同位置的字符串進行比對,若兩個語句的前端字符串相同、后端字符串相同且同義字詞句字符串不同,則判定兩個語句中的同義字詞句字符串為同義字詞句字符串。
可選地,本發明所述方法還包括:將通過語句對比方式記錄的同義字詞句寫入同義字詞句庫。
可選地,本發明所述方法中,根據同義字詞句庫,檢測并記錄文檔中出現的同義字詞句之前,還包括:
調取歷史修改數據庫;
將所述歷史修改數據庫中記錄的被修改的內容進行全文檔搜索;
呈現搜索到的內容,并根據用戶的指示按歷史修改方式進行修改或忽略。
可選地,本發明所述方法中,將記錄的同義字詞句修改為統一用詞時,還包括:將被修改的內容和修改后的內容記錄到所述歷史修改數據庫。
可選地,本發明所述方法中,所述將記錄的同義字詞句修改為統一用詞,具體包括:
呈現記錄的同義字詞句信息;
基于用戶的修改指示,將文檔中出現的同義字詞句修改為統一用詞;其中, 所述統一用詞為默認的或者用戶指定的某一同義字詞句。
依據本發明的另一個方面,提供一種文檔查錯裝置,包括:
同義字詞句檢查模塊,用于根據同義字詞句庫,檢查并記錄文檔中出現的同義字詞句;
同義字詞句處理模塊,用于將記錄的同義字詞句修改為統一用詞。
可選地,本發明所述裝置中,所述同義字詞句檢查模塊,還用于通過語句比對的方式,檢查文檔中出現的同義字詞句,并對檢查到的同義字詞句中不屬于同義字詞句庫中的同義字詞句進行記錄。
可選地,本發明所述裝置中,所述同義字詞句檢查模塊,具體包括:
信息獲取子模塊,用于根據配置信息,確定語句長度及語句比對方式;
語句比對子模塊,用于確定搜索起始位置,得到起始語句,將起始語句與該語句之后的所有語句進行比對,以確定起始語句與該語句之后的所有語句中是否存在同義字詞句;其中,起始語句之后的所有語句為:在起始語句后,起始位置以字符為單位逐漸向后推移得到的各語句;
輪詢處理子模塊,用于將搜索起始位置向后移動一個字符,得到新的搜索起始位置后,觸發所述語句比對子模塊。
可選地,本發明所述裝置還包括:
歷史修改內容檢查模塊,用于調取歷史修改數據庫,將所述歷史修改數據庫中記錄的被修改的內容進行全文檔搜索,呈現搜索到的內容,并根據用戶的指示按歷史修改方式進行修改或忽略。
本發明有益效果如下:
本發明引入了同義字詞句庫和語句比對方案,實現了對文檔中同義字詞句的檢查及修改,解決現有技術無法檢測文檔前后用詞一致性的問題。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明提供的一種文檔查錯方法的流程圖;
圖2為本發明利用同義字詞句庫搜索同義字詞句的流程圖;
圖3為本發明利用語句比對技術搜索文檔內同義字詞句的流程圖;
圖4為本發明中語句比對技術示意圖;
圖5為本發明對記錄的同義字詞句進行顯示的效果圖;
圖6為本發明應用示例中待檢查文檔的示意圖;
圖7為本發明應用示例中同義字詞句庫中的記錄情況示意圖;
圖8為本發明應用示例中語句比對搜索同義字詞句的示意圖;
圖9為本發明應用示例中利用同義字詞句和語句比對搜索得到的同義字詞句示意圖;
圖10為本發明應用示例中用戶在顯示的同義字詞句中輸入了統一用詞的效果圖;
圖11為本發明應用示例中將同義字詞句修改為統一用詞后的效果示意圖;
圖12為本發明應用示例中更新后的同義字詞句庫的示意圖;
圖13為本發明提供的一種文檔查錯裝置的結構示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
實施例一
本發明實施例提供一種文檔查錯方法,用于檢查文檔中字詞句前后一致性,如圖1所示,所述方法包括:
步驟S101,根據同義字詞句庫,檢查并記錄文檔中出現的同義字詞句;
本實施例中,防止同義字詞句庫中記錄的同義字詞句不全,進而可能出現遺漏的問題,在步驟S101后,優選地,可通過語句比對的方式,檢查文檔中出現的同義字詞句,并對檢查到的同義字詞句中不屬于同義字詞句庫中的同義字詞句進行記錄。同時,將通過語句對比方式記錄的同義字詞句寫入同義字詞句庫,以對同義字詞句庫進行更新。
其中,所述通過語句比對的方式,檢查文檔中出現的同義字詞句,包括:
(1)根據配置信息,確定語句長度及語句比對方式;其中,所述語句比對方式包括但不限于為:將語句劃分為同義字詞句前端字符串+同義字詞句字符串+同義字詞句后端字符串;將兩個語句相同位置的字符串進行比對,若兩個語句的前端字符串相同、后端字符串相同且同義字詞句字符串不同,則判定兩個語句中的同義字詞句字符串為同義字詞句字符串。
(2)確定搜索起始位置,得到起始語句,將起始語句與該語句之后的所有語句進行比對,以確定起始語句與該語句之后的所有語句中是否存在同義字詞句;其中,起始語句之后的所有語句為:在起始語句后,起始位置以字符為單位逐漸向后推移得到的各語句。
(3)將搜索起始位置向后移動一個字符,得到新的搜索起始位置后返回步驟(2)。
步驟S102,將記錄的同義字詞句修改為統一用詞。
該步驟具體包括:呈現記錄的同義字詞句信息,基于用戶的修改指示,將文檔中出現的同義字詞句修改為統一用詞;其中,所述統一用詞可以為默認的某一同義字詞句,或者,用戶指定的某一同義字詞句。
優選地,本實施例還提供一種按照歷史修改操作,對文檔中的字詞句進行 統一的操作,該操作的執行時機可以在S101之前或者S102之后,但優選的是在S101之前,具體處理方式如下:
調取歷史修改數據庫;
將歷史修改數據庫中記錄的被修改的內容進行全文檔搜索;
呈現搜索到的內容,并根據用戶的指示按歷史修改方式進行修改或忽略。
優選地,本實施例中,在將記錄的同義字詞句修改為統一用詞時,還包括:將被修改的內容和修改后的內容記錄到所述歷史修改數據庫。
綜上所述,可知本實施例所述方法,引入了同義字詞句庫和語句比對方案,實現了對文檔中同義字詞句的檢查及修改,解決現有技術無法檢測文檔前后用詞一致性的問題。
實施例二
本實施例提供一種文檔查錯方法,其通過公開更多的技術細節,對本發明提出的文檔查錯方法進行更詳細的說明,本實施例披露的技術細節用于解釋本發明,但不用于唯一限定本發明。
本實施例所述的文檔查錯方法的主要處理流程步驟包括:
步驟A:根據同義字詞句庫中的記錄檢查可能出現的同義字詞句并將結果記錄。在此步驟中,程序會根據同義字詞句庫中的記錄對文檔進行遍歷搜索,并將搜索結果記錄下來。處理完后進入步驟B。
該步驟的詳細處理流程如圖2所示,具體包括:
步驟S201,開始;
步驟S202,檢測同義字詞句庫中是否有記錄,若是,則執行步驟S203;否則,轉步驟S208;
步驟S203,從同義字詞句庫中取出一條記錄;
步驟S204,搜索文檔中符合記錄的內容;
步驟S205,判斷是否搜索到,若是,則執行步驟S206;否則,執行步驟 S207;
步驟S206,將搜索到的結果記錄下來,繼續執行步驟S207;
步驟S207,判斷是否有需要繼續搜索的記錄,若是,則返回步驟S203;否則,執行步驟S208。
步驟S208,結束。
步驟B:對文檔內部相近的字詞句進行搜索并將結果記錄。此步驟是為了避免由于同義字詞句庫中沒有列出同義字詞句而導致一些同義字詞句沒有被搜索到,造成遺漏。在此步驟中,程序會根據配置信息,根據前后文情況,遍歷搜索文檔中可能的近義詞,并就將結果記錄下來。處理完后進入步驟C。
該步驟的詳細處理流程如圖3所示,具體包括:
步驟S301,開始;
步驟S302,讀取配置信息,確定:同義字詞句前段相同字符串的長度;同義字詞句字符串的長度;同義字詞句后端相同字符串的長度;
步驟S303,確定搜索起始位置1,對于初始搜索,起始位置可以是文檔的第一個字符,或者,用戶指定的位置;
步驟S304,從搜索起始位置1,根據配置信息,取出前端字符串1、同義字符串1和后端字符串1;
步驟S305,從搜索起始位置1向后移動一段字符串長度(前端+后端+同義字詞句字符串長度之后)得到搜索起始位置2;
步驟S306,從搜索起始位置2,根據配置信息,取出前端字符串2、同義字詞句字符串2和后端字符串2;如圖4所示,從搜索起始位置1和搜索起始位置2取出字符串的示意圖。
步驟S307,判斷是否前端字符串1和前端字符串2相同,并且前端字符串2和后端字符串2相同,若是,則執行步驟S308;否則,執行步驟S310;
步驟S308,判斷是否同義字詞句字符串1和同義字詞句字符串2相同,若 是,則執行步驟S310;否則,執行步驟S309;
步驟S309,將搜索到的結果記錄下來;
步驟S310,判斷搜索起始位置2是否已經搜索到文檔結尾,若是,執行步驟S312;否則,執行步驟S311;
步驟S311,搜索起始位置2向后移動一個字符長度,返回步驟S306;
步驟S312,判斷搜索起始位置1是否已經搜索到文檔結尾,若是,則結束;否則,將搜索起始位置1向后移動一個字符串長度后,執行步驟S304。
步驟C:此步驟主要是將步驟A和步驟B發現的近義詞顯示出來,供用戶判斷是否需要將近義詞進行統一替換,以保證文檔用語的一致性。此步驟的顯示效果如圖5所示。
步驟D:步驟B和步驟C發現的近義詞顯示出來后,用戶會選擇忽略或將近義詞統一替換。
若選擇忽略,則程序不做任何操作;
若選擇替換,則將近義詞統一替換,同時還進行如下處理:
如果這組近義詞和統一修改的詞已經保存在近義詞庫中,則程序不會對同義字詞句庫進行任何操作;
如果這組近義詞已經保存在近義詞庫中,但統一修改的詞是本次新輸入的,則程序會更新同義字詞句庫中這條記錄,將統一用詞補充進記錄中;
如果這組近義詞在同義字詞句庫中還沒有記錄(是這次新發現的),則程序會將這條記錄填加入同義字詞句庫中;
流程結束。
下面通過一個具體示例,來說明上述方法的具體應用過程,具體如下:
設有一段待檢查的文檔如圖6所示。
此時的同義字詞句庫中的記錄情況如圖7所示。
此時運行檢查程序,會按下列步驟執行:
步驟1:檢查程序會先從同義字詞句庫中取出第一條記錄,即“數據包”和“數據幀”是同義字詞句,然后按照圖2(同義字詞句庫記錄搜索流程圖)流程進行搜索,在文檔中會搜索到這兩個同義字詞句,所以,會將這個搜索結果記錄下來。
步驟2:程序按照圖3(文檔內部同義字詞句搜索流程圖)流程執行(假設此時配置的搜索條件為前端字符串長度5,同義字詞句長度3,后端字符串長度2),則程序會發現文檔中存在同義字詞句“處理單元”,“處理模塊”和“處理程序”,搜索示意圖如圖8所示,圖中的前端字符串和后端字符串都用底色背景標明;
步驟3:程序將步驟2和步驟3檢查出的結果顯示出來,如圖9所示;
步驟4:用戶根據顯示結果,確定了近義詞需要統一使用相同的詞語,所以在顯示結果界面輸入了統一用詞,效果如圖10所示。
步驟5:用戶選擇替換近義詞為統一用詞,程序自動修改文檔和同義字詞句庫。更新后的文檔如圖11所示(修改后的內容用底色背景標明),更新后的同義字詞句庫如圖12所示。
程序執行結束,文檔得到了修改,同義字詞句庫得到了更新。
實施例三
本實施例提供一種文檔差錯裝置,如圖13所示,包括:
同義字詞句檢查模塊1310,用于根據同義字詞句庫,檢查并記錄文檔中出現的同義字詞句;
同義字詞句處理模塊1320,用于將記錄的同義字詞句修改為統一用詞。
優選地,本實施例中,同義字詞句檢查模塊1310,還用于通過語句比對的方式,檢查文檔中出現的同義字詞句,并對檢查到的同義字詞句中不屬于同義字詞句庫中的同義字詞句進行記錄。
同義字詞句檢查模塊1310,具體包括:
信息獲取子模塊,用于根據配置信息,確定語句長度及語句比對方式;
語句比對子模塊,用于確定搜索起始位置,得到起始語句,將起始語句與該語句之后的所有語句進行比對,以確定起始語句與該語句之后的所有語句中是否存在同義字詞句;其中,起始語句之后的所有語句為:在起始語句后,起始位置以字符為單位逐漸向后推移得到的各語句;
輪詢處理子模塊,用于將搜索起始位置向后移動一個字符,得到新的搜索起始位置后,觸發所述語句比對子模塊。
優選地,本實施例所述裝置,還包括:
歷史修改內容檢查模塊,用于調取用以記錄歷史修改內容的歷史修改數據庫,將所述歷史修改數據庫中記錄的被修改的內容進行全文檔搜索,呈現搜索到的內容,并根據用戶的指示按歷史修改方式進行修改或忽略。
進一步地,本實施例中,同義字詞句處理模塊1320在將記錄的同義字詞句修改為統一用詞時,還觸發文檔修改記錄模塊將被修改的內容和修改后的內容記錄到所述歷史修改數據庫。
綜上所述,可知本發明引入了同義字詞句庫和語句比對方案,實現了對文檔中同義字詞句的檢查及修改,解決現有技術無法檢測文檔前后用詞一致性的問題。
本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是其與其他實施例的不同之處。尤其對于裝置實施例而言,由于其基本相似與方法實施例,所以,描述的比較簡單,相關之處參見方法實施例的部分說明即可。
雖然通過實施例描述了本申請,本領域的技術人員知道,本申請有許多變形和變化而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍之內,則本發明也意圖包含這些改動和變型在內。