一種基于語義的pdf文檔的處理方法及處理裝置的制造方法【
技術領域:
】[0001]本發明涉及文件處理
技術領域:
,特別涉及一種基于語義的PDF文檔的處理方法及處理裝置。【
背景技術:
】[0002]PDF全稱PortableDocumentFormat,即“便攜文檔格式”,是一種電子文檔格式。這種格式與操作平臺無關,跨平臺特點突出,可在幾乎所有的平臺上使用。這一特性使它成為在Internet上進行電子文檔發行和數字化信息傳播的首選文檔格式。越來越多的圖書文獻資料首選PDF作為其電子發布的形式,如電子圖書、產品說明、公司公告、網絡資料、電子郵件等。PDF格式已成為用于將信息數字化的一個事實上的工業標準。[0003]PDF格式有其鮮明的技術特色,如跨平臺性優越;可集成多種媒體信息出版和發布,可集成超文本鏈接、聲音及動態影像等電子信息;提供了對網絡信息發布的支持。其中,在TOF的可信可靠,維護信息完整性與一致性及保持信息安全性上,最為使用者所稱道的則是其安全性,數字簽名或使用密碼保護。而其他格式則很容易地可以修改或編輯。[0004]PDF的安全性首先保證了PDF文檔不能被編輯,至少不能被輕易修改;其次可通過設置權限,限制用戶的內容打印、內容復制甚至是評論或批注的添加、修改或刪除。[0005]PDF文檔只供閱讀,不能被修改,確保了內容的完整性與其他特性。[0006]從人們認知習慣的角度或從語義角度看,無論對于圖書、期刊或雜志等紙質文檔,還是其他電子格式出版的文檔,其基本組成結構通常都是段落,特別是文字性的內容,其組織結構或對象類型都可以認為是段,段落之間的連續關系能夠使一個PDF邏輯對象得以重現。[0007]在實際的排版過程中,一個語義上完整的邏輯對象,可能分到不同的頁面中,形成了跨頁的對象。[0008]常常會有這種情況,一篇文章,部分出現在第一頁,而另外一部分卻出現在第η頁上,還有可能剩余的部分出現在第η+X頁上,這些頁面并不連續,但其表達的對象,也就是這篇文章卻是一個整體。[0009]通常,對PDF文檔的處理是逐頁進行的,這樣對跨頁的對象的處理就成了一個問題,最常見的是跨頁段落的連續性處理(連續性處理,針對的是邏輯上關聯,屬于同一個邏輯對象,而物理上被分割開的段落的處理,這些段落位于多個不連續的頁面上,也就是說處于物理上的分割狀態),就是說一個完整的對象處于不同的PDF頁面中時,如何將其重現,如何從語義上完整再現,成了一個問題。[0010]PDF文檔通常包含多個內容對象,這一系列的內容對象,在許多情況下在邏輯上是關聯的,但在物理上是分離的、不連續的。對PDF文檔的逐頁處理,不能有效地將一個完整的邏輯對象抽取出來。[0011]有效地處理好段落的連續性問題,可能助于邏輯對象的重現,有助于人們對TOF文檔的理解,特別是有助于用戶提取某一單獨的PDF文檔。【
發明內容】[0012]本發明要解決的技術問題是提供一種基于語義的PDF文檔的處理方法及處理裝置,解決現有的PDF文檔中一個語義上完整的邏輯對象,可能分到不同的頁面中,形成了跨頁的對象,在進行PDF文檔處理時,不能有效地將一個完整的邏輯對象抽取出來的問題。[0013]為了解決上述技術問題,本發明實施例提供一種基于語義的PDF文檔的處理方法,包括:[0014]獲取PDF文檔的對象模型;[0015]提取所述對象模型的目錄簿;[0016]根據所述目錄簿查找TOF的文章線索記錄;[0017]對所述文章線索記錄中的邏輯對象進行處理,得到完整連續的邏輯對象流。[0018]進一步地,所述提取所述對象模型的目錄簿的步驟包括:[0019]獲取所述對象模型的交叉索引表;[0020]根據所述交叉索引表,獲取得到PDF文檔的追蹤字典;[0021]根據所述追蹤字典,分析得到所述對象模型的目錄簿。[0022]進一步地,所述根據所述追蹤字典,分析得到所述對象模型的目錄簿的步驟具體為:[0023]通過第一預設鍵值查找所述追蹤字典,獲取所述第一預設鍵值對應的對象,得到所述對象模型的目錄簿。[0024]進一步地,所述目錄簿包括:PDF文檔的頁面信息、頁面對應的編碼樹、文檔及I3DF的大綱書簽和所述PDF文檔所擁有的邏輯對象信息。[0025]進一步地,所述根據所述目錄簿查找TOF的文章線索記錄的步驟具體為:[0026]在所述目錄簿中通過第二預設鍵值,查找得到所述TOF文檔的文章線索記錄。[0027]進一步地,所述對所述文章線索記錄中的邏輯對象進行處理,得到完整連續的邏輯對象流的步驟具體為:[0028]對所述文章線索記錄中的每個文章線索對象,通過第三預設鍵值檢索,得到第一個邏輯對象,從第一個邏輯對象開始,依次向后遍歷所有邏輯對象,從而得到一個完整連續的邏輯對象流。[0029]本發明實施例還提供一種基于語義的PDF文檔的處理裝置,包括:[0030]獲取模塊,用于獲取PDF文檔的對象模型;[0031]提取模塊,用于提取所述對象模型的目錄簿;[0032]查找模塊,用于根據所述目錄簿查找TOF的文章線索記錄;[0033]處理模塊,用于對所述文章線索記錄中的邏輯對象進行處理,得到完整連續的邏輯對象流。[0034]進一步地,所述提取模塊,包括:[0035]第一獲取單元,用于獲取所述對象模型的交叉索引表;[0036]第二獲取單元,用于根據所述交叉索引表,獲取得到PDF文檔的追蹤字典;[0037]分析單元,用于根據所述追蹤字典,分析得到所述對象模型的目錄簿。[0038]進一步地,所述分析單元具體為:[0039]通過第一預設鍵值查找所述追蹤字典,獲取所述第一預設鍵值對應的對象,得到所述對象模型的目錄簿。[0040]進一步地,所述查找模塊具體為:[0041]在所述目錄簿中通過第二預設鍵值,查找得到所述PDF文檔的文章線索記錄。[0042]進一步地,所述處理模塊具體為:[0043]對所述文章線索記錄中的每個文章線索對象,通過第三預設鍵值檢索,得到第一個邏輯對象,從第一個邏輯對象開始,依次向后遍歷所有邏輯對象,從而得到一個完整連續的邏輯對象流。[0044]本發明的有益效果是:[0045]上述方案,通過依據邏輯對象對PDF文檔進行處理,獲取得到一篇PDF文檔的完整語義,此種方式,可以依據語義對PDF文檔進行提取,方便了使用者的閱讀。【附圖說明】[0046]圖1表示本發明實施例的處理方法的總體流程圖;[0047]圖2表示本發明實施例的處理裝置的模塊示意圖。【具體實施方式】[0048]為使本發明的目的、技術方案和優點更加清楚,下面將結合附圖及具體實施例對本發明進行詳細描述。[0049]本發明針對現有的PDF文檔中一個語義上完整的邏輯對象,可能分到不同的頁面中,形成了跨頁的對象,在進行PDF文檔處理時,不能有效地將一個完整的邏輯對象抽取出來的問題,提供一種基于語義的PDF文檔的處理方法及處理裝置。[0050]如圖1所示,本發明實施例的所述基于語義的PDF文檔的處理方法,包括:[0051]步驟10,獲取PDF文檔的對象模型;[0052]步驟20,提取所述對象模型的目錄簿;[0053]步驟30,根據所述目錄簿查找TOF的文章線索記錄;[0054]步驟40,對所述文章線索記錄中的邏輯對象進行處理,得到完整連續的邏輯對象流。[0055]本發明上述實施例,通過依據邏輯對象對PDF文檔進行處理,獲取得到一篇PDF文檔的完整語義,此種方式,可以依據語義對PDF文檔進行提取,方便了使用者的閱讀。[0056]可選地,本發明實施例的所述步驟20包括:[0057]步驟21,獲取所述對象模型的交叉索引表;[0058]步驟22,根據所述交叉索引表,獲取得到PDF文檔的追蹤字典;[0059]步驟23,根據所述追蹤字典,分析得到所述對象模型的目錄簿。[0060]具體地,所述步驟23具體為:[0061]通過第一預設鍵值查找所述追蹤字典,獲取所述第一預設鍵值對應的對象,得到所述對象模型的目錄簿。[0062]應當說明的是,所述目錄簿為TOF自身已定義的信息,其包含諸多信息,比如包括:PDF文檔的頁面信息、頁面對應的編碼樹、文檔及TOF的大綱書簽(即TOF的大綱Outlines)和所述PDF文檔所擁有的邏輯對象信息(即PDF文檔所擁有的Article信息)。[0063]可選地,本發明實施例的所述步驟30具體為:[0064]在所述目錄簿中通過第二預設鍵值,查找得到所述PDF文檔的文章線索記錄。[0065]在得到文章線索記錄后便是對每個文章線索進行處理,以得到完整連續的邏輯對當前第1頁1 2