基于本體的數字出版物語義標注優化方法
【技術領域】
[0001]本發明涉及數字出版物技術領域,尤其涉及到一種基于本體的數字出版物語義標注優化方法。
【背景技術】
[0002]知識處理是信息技術發展的必然趨勢,隨著對知識應用要求越來越高,傳統的知識數據庫系統已經不能滿足新的需求,所以將本體引用到知識工程中,將本體相關原理技術運用到知識庫的開發中。
[0003]本體知識系統是20世紀70年代后期,專家系統、知識系統和知識密集型的信息系統的構建技術發展而形成知識工程,所建立的系統簡稱為知識系統(knowledge-basedsystems)。知識系統是人工智能學科最重要的工業化和商業化產物。知識系統用于輔助人們進行問題求解,如檢測信用卡詐騙、加速船舶設計、輔助醫療診斷、使科學軟件更加智能化、向全體決策人員提供金融服務、產品質量的評價和廣告宣傳、支持電子網絡的服務恢復。
[0004]隨著數字出版的不斷發展,現代互聯網數字內容資源的爆炸式增長,現階段也出現了一些對電子出版物的內容提煉標注的技術,但是這些對內容標注的提取是根據基本詞庫以及內容上下文來抽取的。這種提取的標注方式沒有結合出版物的領域背景,會有很多領域相關的關鍵信息被過濾掉,降低了標注在特定領域的準確性;使得標注不能完全表示文檔的核心和主要內容。
[0005]當對該領域的信息根據標注進行檢索時,會使信息查全率和查準率方面有很大的欠缺,沒有充分利用內容標注信息,信息之間的關系及結構也沒有充分的表現出來,使得用戶需要花費大量時間在信息篩選上。
【發明內容】
[0006]本發明所要解決的技術問題是正對上述存在的技術不足,提供一種能夠提高文檔標注的準確性,用戶使用本體知識庫進行知識查詢時能更快速的搜索到有效的文檔,并能提高其他相關聯電子文檔標注的準確性的基于本體的數字出版物語義標注優化方法。
[0007]本發明解決其技術問題所采用的技術方案是:
基于本體的數字出版物語義標注優化方法,其特征在于,包括如下步驟:
文檔內容預處理:在計算機系統中對文檔進行解析,利用關鍵字提取工具提取關鍵字,并基于詞語位置的計算出關鍵字的權值,為后續構建個體提供數據基礎。
[0008]構建本體模型:本體是對某個領域中的類的形式化的明確的表示,每個類的特性描述了類的各個方面及其約束的特性和屬性,因此本體包括了類、對象屬性和數據屬性。內容標注優化方法是基于本體實現的,在計算機系統中通過本體構建工具構建本體,采用自頂向下的方法原則,在工具中完成類、對象屬性、數據屬性的構建。
[0009]構建個體并填充數據屬性值:個體是根據本體中已有的類建立的實例,構建個體是用戶根據文檔內容對文檔進行模型化的過程;填充個體數據屬性信息時,在每個數據屬性對應一個文本框,用來輸入和顯示該數據屬性信息;數據屬性的值是從文檔標注中獲取的,通過標注無法獲取的屬性值就會根據全文檢索獲取關鍵信息作為數據屬性值。
[0010]調整文檔標注及標注權值:獲取文檔原有的標注信息以及上述個體填充的屬性值和屬性值對應的文檔,對文檔中的標注進行調整;根據個體所在類的級別以及數據屬性的優先級給屬性值設置權值并作為文檔的新標注,如果屬性值是文檔原有標注,則原有權值和現有權值合并,然后將新舊標注按照權值排序,選擇權值高的作為文檔的標注。
[0011]存儲標注及標注權值:刪除文檔對應的原有標注,將上述中調整后的標注和權值存儲到標注對應的數據表中;當其他文檔進行內容標注時,標注表中的數據作為影響因子加入到標注的權值計算公式中。
[0012]輸入詞語進行知識查詢,匹配數據并按權值排序:用戶通過知識查詢進行查詢,當根據數據屬性信息匹配個體,在顯示該個體的所有信息時會根據查找屬性值在文檔中的權值進行排序,顯示結果會按照權值的降序排列查詢結果。
[0013]本發明的有益效果在于:
通過本體中個體屬性信息來校準數字出版物中標注的權值,提高了文檔標注的準確性,用戶使用本體知識庫進行知識查詢時能更快速的搜索到有效的文檔;
將通過優化后的標注作為其他文檔抽取標注中權值計算公式的影響因子,提高了其他電子文檔標注的準確性。
[0014]本發明的有益效果是:
能夠對數字出版物提供標注信息的查看,實現數字出版物的帶標注預覽和閱讀方式,能夠方便讀者快速有效的查看文檔中的主題信息。
[0015]同時能為電子文檔之間建立概念網絡、本體庫的建立提供有效的數據支撐。
【附圖說明】
[0016]圖1是本發明實施例的流程圖。
【具體實施方式】
[0017]下面結合【具體實施方式】,對本發明作進一步的說明:
如圖1所示基于本體的數字出版物語義標注優化方法,其特征在于,包括如下步驟:文檔內容預處理:在計算機系統中對文檔進行解析,利用關鍵字提取工具提取關鍵字,并基于詞語位置計算出關鍵字的權值,為后續構建個體提供數據基礎。
[0018]構建本體模型:本體是對某個領域中的類的形式化的明確的表示,每個類的特性描述了類的各個方面及其約束的特性和屬性,因此本體包括了類、對象屬性和數據屬性。內容標注優化方法是基于本體實現的,前提是需要通過本體構建工具構建本體,我們采用自頂向下的方法原則,在工具中完成類、對象屬性、數據屬性的構建。
[0019]構建個體并填充數據屬性值:個體是根據本體中已有的類建立的實例,構建個體是用戶根據文檔內容對文檔進行模型化的過程;填充個體數據屬性信息時,在每個數據屬性對應一個文本框,用來輸入和顯示該數據屬性信息;數據屬性的值是從文檔標注中獲取的,通過標注無法獲取的屬性值就會根據全文檢索獲取關鍵信息作為數據屬性值。
[0020]調整文檔標注及標注權值:獲取文檔原有的標注信息以及上述個體填充的屬性值和屬性值對應的文檔,對文檔中的標注進行調整;將個體所在類的級別以及數據屬性的優先級作為權值因子加入到權值計算公式中,獲取屬性值的權值并作為文檔的新標注,將新舊標注按照權值排序選擇權值高的標注并作為文檔的新標注。如果屬性值是文檔原有標注,則原有權值和現有權值合并,然后將新舊標注按照權值排序,選擇權值高的作為文檔的標注。
[0021]存儲標注及標注權值:刪除文檔對應的原有標注,將上述中調整后的標注和權值存儲到標注對應的數據表中;當其他文檔進行內容標注時,標注表中的數據作為影響因子加入到標注的權值計算公式中。
[0022]輸入詞語進行知識查詢,匹配數據并按權值排序:用戶通過知識查詢進行查詢,當根據數據屬性信息匹配個體,在顯示該個體的所有信息時會根據查找屬性值在文檔中的權值進行排序,顯示結果會按照權值的降序排列查詢結果。
[0023]本發明的保護范圍并不限于上述的實施例,顯然,本領域的技術人員可以對本發明進行各種改動和變形而不脫離本發明的范圍和精神。倘若這些改動和變形屬于本發明權利要求及其等同技術的范圍內,則本發明的意圖也包含這些改動和變形在內。
【主權項】
1.基于本體的數字出版物語義標注優化方法,其特征在于,包括如下步驟: 文檔內容預處理:在計算機系統中對文檔進行解析,利用關鍵字提取工具提取關鍵字,并基于詞語位置計算出關鍵字的權值,為后續構建個體提供數據基礎; 構建本體模型:在計算機系統中通過本體構建工具構建本體,采用自頂向下的方法原貝1J,在工具中完成類、對象屬性、數據屬性的構建,構成包括了類、對象屬性和數據屬性的本體; 構建個體并填充數據屬性值:個體是根據本體中已有的類建立的實例,構建個體是用戶根據文檔內容對文檔進行模型化的過程,并填充個體數據屬性,從文檔標注中獲取數據屬性的值; 調整文檔標注及標注權值:獲取文檔原有的標注信息以及上述個體填充的屬性值和屬性值對應的文檔,對文檔中的標注進行調整,將個體所在類的級別以及數據屬性的優先級作為權值因子加入到權值計算公式中,獲取屬性值的權值并作為文檔的新標注; 存儲標注及標注權值:刪除文檔對應的原有標注,將上述中調整后的標注和權值存儲到標注對應的數據表中;當其他文檔進行內容標注時,標注表中的數據作為影響因子加入到標注的權值計算公式中; 輸入詞語進行知識查詢,匹配數據并按權值排序:用戶通過知識查詢進行查詢,當根據數據屬性信息匹配個體,在顯示該個體的所有信息時會根據查找屬性值在文檔中的權值進行排序,顯示結果會按照權值的降序排列查詢結果。
2.如權利要求1所述的基于本體的數字出版物語義標注優化方法,其特征在于:所述的構建個體并填充數據屬性值中,在每個數據屬性對應一個文本框,用來輸入和顯示該數據屬性信息;數據屬性的值是從文檔標注中獲取的,通過標注無法獲取的屬性值就會根據全文檢索獲取關鍵信息作為數據屬性值。
3.如權利要求1所述的基于本體的數字出版物語義標注優化方法,其特征在于:所述的調整文檔標注及標注權值中,如果屬性值是文檔原有標注,則原有權值和現有權值合并,然后將新舊標注按照權值排序,選擇權值高的作為文檔的標注。
【專利摘要】本發明提供一種基于本體的數字出版物語義標注優化方法。包括如下步驟:文檔內容預處理;構建本體模型;構建個體并填充數據屬性值;調整文檔標注及標注權值;存儲標注及標注權值;輸入詞語進行知識查詢,匹配數據并按權值排序。本發明方法能夠提高文檔標注的準確性,用戶使用本體知識庫進行知識查詢時能更快速的搜索到有效的文檔,并能提高其他相關聯電子文檔標注的準確性。
【IPC分類】G06F17-30
【公開號】CN104750836
【申請號】CN201510156576
【發明人】劉永堅, 白立華, 楊朝陽, 曾瑞, 李文忠, 楊慧
【申請人】武漢理工大學, 時代出版傳媒股份有限公司
【公開日】2015年7月1日
【申請日】2015年4月3日