一種適用于互聯網分析的本體構建方法
【專利摘要】本發明公開了一種適用于互聯網分析的本體構建方法,本體分為行業本體、通用本體兩個部分。其中通用本體又包括公職人員負面本體、機構組織負面本體、職位庫、地域庫。對于行業本體構建采用手工結合自動的構建方法。首先手工分類好公安、消防等行業,定義關鍵詞進行采集信息得到信息集合S,并對信息集合S進行關鍵詞提取并進行手工篩選。對于公職人員、組織機構負面本體本體構建方法與行業本體基本相同,增加了對于關鍵詞的同義詞、關聯詞關系的添加。本發明有效的提高了互聯網信息檢索、擴展。
【專利說明】一種適用于互聯網分析的本體構建方法
【技術領域】
[0001] 本發明屬于信息系統建模和知識工程領域,具體地說是適用于互聯網分析的本體 構建方法。
【背景技術】
[0002] 隨著社會信息化的迅猛發展,網絡已經成為人們獲取信息的重要來源。而網絡信 息具有海量,復雜,非結構化等特點,為網絡信息的獲取以及基于網絡信息搜集的分析與 研究工作都帶來了很大困難。本體(Ontology)的概念起源于哲學領域,指的是對客觀存 在系統的解釋和說明,近幾十年來,在人工智能、計算機科學和知識工程等諸多領域得到 了迅速發展。本體可以實現某種程度的知識共享和重用,使得計算機對信息和對語言的理 解上升到語義層次,并在一定程度上解決語義異構問題,在信息互操作、知識理解和信息 集成等領域具有很大的應用前景。
[0003] 適用于互聯網分析的本體構建方法,一方面應用于輿情管理領域,對搜索采集進 行擴展;另一方面,可以根據本體對采集信息的進行分類。
[0004] 現有構建本體方法主要分為兩類:手工構建和半自動構建。手工構建是以本體描 述捕獲方法為代表,將本體構建的過程分為目標和團隊建立、原始素材采集、素材分析、本 體初步構建、本體精化和驗證等5個步驟,每一步都由人手工完成。半自動構建又稱本體 學習,由計算機程序自動地從文本中抽取出表示概念、概念間關系等的術語,形成初步的本 體,再經過人手工精化和驗證。然而,目前計算機程序自動構建的初步本體在質量上通常很 差,并不能有效降低對人工的依賴,因此手工構建仍是主流方法。
【發明內容】
[0005] 鑒于以上所述現有技術存在的問題和不足,本發明要解決的技術問題是提供一種 可以有效的指導搜索采集信息的適用于互聯網分析的本體構建方法。
[0006] 本發明所要解決的技術問題是通過下述技術方案來實現的,本發明是一種適用于 互聯網分析的本體構建方法,其特點是:其步驟如下: A、 構建行業本體;其操作步驟如下: A1.手工整理歸納面向搜集監測的行業部門; A2.整理行業名稱的同義指代; A3.整理行業的特定職位; A4.整理業務相關的正、負面詞; A5.整理人員相關的正、負面詞; B、 構建通用本體;其操作步驟如下: B1.構建公職人員本體; B2.對公職人員本體分為負面詞和正面詞; B3.其中正面詞又分為核心詞與普通詞; B4.其中每個詞都可以手工構建其同義詞、關聯詞; B5.構建組織機構與構建公職人員本體同理; C、 構建地域本體;其操作步驟如下: C1.手工整理省級地域; C2.擴展整理地市縣地域名,最小化到鎮鄉; C3.其中針對有別名的地名進行同義化處理; D、 構建職位本體;其操作步驟如下: D1.對各部門共有的領導職位進行整理; D2.對普通員工職位進行整理; D3.定義上下級關系及同義指代; 適用于互聯網分析的本體構建方法到此結束。
[0007] 與現有技術相比,本發明的適用于互聯網分析的本體構建方法具有以下效果: 1、 對搜索采集規則進行有效的擴展; 2、 對信息分類進行有效指導。
【專利附圖】
【附圖說明】
[0008] 圖1是本發明方法的一種流程框圖; 圖2是圖1中步驟102所述為構建行業本體過程流程圖; 圖3是圖1中步驟103所述為構建通用本體的流程結構圖; 圖4是圖1中步驟104所述的構建地域本體的流程圖。
[0009] 圖5是圖1中步驟105所述的是構建職位本體的流程圖。
【具體實施方式】
[0010] 下面結合附圖和【具體實施方式】對本發明作進一步詳細的描述。
[0011] 實施例1,一種適用于互聯網分析的本體構建方法,其步驟如下: A、 構建行業本體;其操作步驟如下: A1.手工整理歸納面向搜集監測的行業部門; A2.整理行業名稱的同義指代; A3.整理行業的特定職位; A4.整理業務相關的正、負面詞; A5.整理人員相關的正、負面詞; B、 構建通用本體;其操作步驟如下: B1.構建公職人員本體; B2.對公職人員本體分為負面詞和正面詞; B3.其中正面詞又分為核心詞與普通詞; B4.其中每個詞都可以手工構建其同義詞、關聯詞; B5.構建組織機構與構建公職人員本體同理; C、 構建地域本體;其操作步驟如下: C1.手工整理省級地域; C2.擴展整理地市縣地域名,最小化到鎮鄉; C3.其中針對有別名的地名進行同義化處理; D、構建職位本體;其操作步驟如下: D1.對各部門共有的領導職位進行整理; D2.對普通員工職位進行整理; D3.定義上下級關系及同義指代; 適用于互聯網分析的本體構建方法到此結束。
[0012] 實施例2, 一種適用于互聯網分析的本體構建方法進行的操作實驗,步驟如下: 步驟102、構建行業本體,參照圖2,包括如下步驟: 步驟201.手工整理歸納面向搜集監測的行業部門 步驟202.整理行業名稱的同義指代 步驟203.整理行業的特定職位 步驟204.整理業務相關的正、負面詞 步驟205.整理人員相關的正、負面詞 步驟103構建通用本體,參照圖3,包括如下步驟: 步驟301.構建公職人員本體 步驟302.對公職人員本體分為負面詞和正面詞 步驟303.其中正面詞又分為核心詞與普通詞 步驟304.其中每個詞都可以手工構建其同義詞、關聯詞。
[0013] 步驟305.構建組織機構與構建公職人員本體同理 步驟104、構建地域本體,參照圖3,包括如下步驟: 步驟401.手工整理省級地域 步驟402.擴展整理地市縣地域名,最小化到鎮鄉 步驟403.其中針對有別名的地名進行同義化處理 步驟105、對于職位本體,參照圖4包括如下步驟: 步驟501.對各部門共有的領導職位進行整理 步驟502.對非領導職位進行整理 步驟503.定義職位上下級關系 職位同義指代。
【權利要求】
1. 一種適用于互聯網分析的本體構建方法,其特征在于:其步驟如下: A、 構建行業本體;其操作步驟如下: A1.手工整理歸納面向搜集監測的行業部門; A2.整理行業名稱的同義指代; A3.整理行業的特定職位; A4.整理業務相關的正、負面詞; A5.整理人員相關的正、負面詞; B、 構建通用本體;其操作步驟如下: B1.構建公職人員本體; B2.對公職人員本體分為負面詞和正面詞; B3.其中正面詞又分為核心詞與普通詞; B4.其中每個詞都可以手工構建其同義詞、關聯詞; B5.構建組織機構與構建公職人員本體同理; C、 構建地域本體;其操作步驟如下: C1.手工整理省級地域; C2.擴展整理地市縣地域名,最小化到鎮鄉; C3.其中針對有別名的地名進行同義化處理; D、 構建職位本體;其操作步驟如下: D1.對各部門共有的領導職位進行整理; D2.對普通員工職位進行整理; D3.定義上下級關系及同義指代; 適用于互聯網分析的本體構建方法到此結束。
【文檔編號】G06F17/30GK104063412SQ201310430787
【公開日】2014年9月24日 申請日期:2013年9月22日 優先權日:2013年9月22日
【發明者】喬磊, 陳永江, 仲兆滿, 姜劍, 陳宗華 申請人:江蘇金鴿網絡科技有限公司