單位實體主要包含基本信息、行業信息、經營信息=個基本屬性。
[0071] ?基本信息屬性,包括單位名稱,成立時間,注冊資本,登記機關四個子屬性。四 個子屬性所包含的信息主要來自有關口戶網站,為了準確,建議最主要從企業信用查詢網、 (上海)企業注冊登記信息公開網、全國企業信息用公示系統、上海誠信網等官方網站獲得 (必要時,可向工商部口購買)。
[0072] ?行業信息屬性,該屬性下的信息為相關聯的"單位行業"實體下的單位行業分類 信息(由第=方購買或定制的單位行業知識圖譜所決定)。
[0073] ?經營信息屬性,包括主要業務與主要產品兩個子屬性。兩個字屬性所包含的信 息主要抽取自有關口戶網站。
[0074] 樓宇知識圖譜(局部)示例見圖2。其中圓形表示概念或實體,方形為原子類型 (對應字符串或數字,不再發散)。實線箭頭(用"包含"描述的)表示父子概念,實線箭頭 (用其他關系描述)表示屬性。虛線箭頭表示概念或實體間的所屬關系。圖2的上半部分 為概念層,下半部分為實例層。
[00巧]基于上述樓宇知識圖譜數據庫的構建方法,本發明實施例還提供一種W上述構建 方法構建而成的樓宇知識圖譜數據庫,所述樓宇知識圖譜中的實體包含樓宇實體、單位實 體、捜索標簽實體、捜索點位實體W及單位行業實體;所述樓宇實體的屬性包含樓宇地理信 息屬性、樓宇基礎信息屬性、樓宇所屬與使用者信息屬性和人群捜索與標簽分類信息屬性, 所述人群捜索與標簽分類信息屬性與所述捜索標簽實體、捜索點位實體所包含屬性下的信 息相關聯,所述樓宇所屬與使用者信息屬性與所述單位實體所包含屬性下的信息相關聯; 所述單位實體的屬性包含單位基本信息屬性、單位行業信息屬性和單位經營信息屬性,所 述單位行業信息屬性與所述單位行業實體所包含屬性下的信息相關聯。
[0076] 所述樓宇知識圖譜數據庫的具體實施可W參考上述樓宇知識圖譜數據庫的構建 方法的實施,此處不再寶述。
[0077] 本發明雖然已W較佳實施例公開如上,但其并不是用來限定本發明,任何本領域 技術人員在不脫離本發明的精神和范圍內,都可W利用上述掲示的方法和技術內容對本發 明技術方案做出可能的變動和修改,因此,凡是未脫離本發明技術方案的內容,依據本發明 的技術實質對W上實施例所作的任何簡單修改、等同變化及修飾,均屬于本發明技術方案 的保護范圍。
【主權項】
1. 一種樓宇知識圖譜數據庫的構建方法,其特征在于,包括: 從一個以上數據源獲取樓宇數據,并對獲取到的樓宇數據進行集成;所述樓宇數據包 含用于樓宇分類的類別信息、樓宇地理信息、樓宇基礎信息、樓宇所屬與使用者信息和人群 搜索與標簽分類信息;所述人群搜索與標簽分類信息為針對樓宇內人群的主要搜索內容進 行標簽分類統計與指數計算后得到的信息; 基于集成后的樓宇數據構建樓宇知識圖譜數據庫;所述集成后的樓宇數據經過層級分 類以及結構化處理;所述樓宇知識圖譜中的實體包含樓宇實體、單位實體、搜索標簽實體、 搜索點位實體以及單位行業實體;所述樓宇實體的屬性包含樓宇地理信息屬性、樓宇基礎 信息屬性、樓宇所屬與使用者信息屬性和人群搜索與標簽分類信息屬性,所述人群搜索與 標簽分類信息屬性與所述搜索標簽實體、搜索點位實體所包含屬性下的信息相關聯,所述 樓宇所屬與使用者信息屬性與所述單位實體所包含屬性下的信息相關聯;所述單位實體的 屬性包含單位基本信息屬性、單位行業信息屬性和單位經營信息屬性,所述單位行業信息 屬性與所述單位行業實體所包含屬性下的信息相關聯。2. 根據權利要求1所述的樓宇知識圖譜數據庫的構建方法,其特征在于,所述對獲取 的樓宇數據進行集成包括: 優化所述用于樓宇分類的類別信息的數據結構及其存儲方式,以便進行擴展與分級細 化; 補充與所述用于樓宇分類的類別信息相關的樓宇地理信息與樓宇基礎信息; 針對所述人群搜索與標簽分類信息以及與所述樓宇所屬與使用者信息相關聯的單位 行業信息建立相對獨立且完整的RDF圖數據庫。3. 根據權利要求1所述的樓宇知識圖譜數據庫的構建方法,其特征在于,所述對獲取 到的樓宇數據進行集成包括對獲取到的樓宇數據進行預處理,所述預處理包括:進行格式 清洗,去除噪聲信息;進行自動重排和自動分類,并把樓宇數據轉換成預定格式;進行通用 文本處理,所述通用文本處理包括分詞、詞性標注、句法分析、命名實體識別、聚類和分類。4. 根據權利要求1所述的樓宇知識圖譜數據庫的構建方法,其特征在于,所述基于集 成后的樓宇數據構建樓宇知識圖譜數據庫包括:采用文本信息抽取方法,抽取集成后的樓 宇數據所包含的各類信息以構建樓宇知識圖譜數據庫;所述文本信息抽取方法包括基于人 工構建規則的方法、基于規則學習的方法、基于機器學習的方法中的一種或一種以上組合。5. 根據權利要求1所述的樓宇知識圖譜數據庫的構建方法,其特征在于,采用隔離的 方式確保對所述樓宇知識圖譜中的實體指派唯一標識符,以及采用調和的方式確認相同實 體并將其合并。6. 根據權利要求1所述的樓宇知識圖譜數據庫的構建方法,其特征在于,所述數據源 包括第一數據源、第二數據源和第三數據源;所述第一數據源為已存儲有部分樓宇數據的 關系數據庫,所述人群搜索與標簽分類信息以及與所述樓宇所屬與使用者信息相關聯的單 位行業信息獲取于所述第二數據源,所述第三數據源為互聯網數據;所述人群搜索與標簽 分類信息以及與所述樓宇所屬與使用者信息相關聯的單位行業信息集成于相應建立的RDF 圖數據庫,獲取于所述第三數據源的數據一部分集成于所述關系數據庫,另一部分集成于 所述RDF圖數據庫;所述基于集成后的樓宇數據構建樓宇知識圖譜數據庫包括:將所述關 系數據庫中的數據轉化為RDF圖數據,并與所述RDF圖數據庫中的數據融合于所述樓宇知 識圖譜數據庫。7. 根據權利要求6所述的樓宇知識圖譜數據庫的構建方法,其特征在于,所述互聯網 數據包含與樓宇相關的門戶網站的數據、在線百科的數據以及搜索引擎結果。8. -種樓宇知識圖譜數據庫,其特征在于,所述樓宇知識圖譜數據庫以權利要求1至7 任一項所述的構建方法構建而成;所述樓宇知識圖譜中的實體包含樓宇實體、單位實體、搜 索標簽實體、搜索點位實體以及單位行業實體;所述樓宇實體的屬性包含樓宇地理信息屬 性、樓宇基礎信息屬性、樓宇所屬與使用者信息屬性和人群搜索與標簽分類信息屬性,所述 人群搜索與標簽分類信息屬性與所述搜索標簽實體、搜索點位實體所包含屬性下的信息相 關聯,所述樓宇所屬與使用者信息屬性與所述單位實體所包含屬性下的信息相關聯;所述 單位實體的屬性包含單位基本信息屬性、單位行業信息屬性和單位經營信息屬性,所述單 位行業信息屬性與所述單位行業實體所包含屬性下的信息相關聯。
【專利摘要】一種樓宇知識圖譜數據庫及其構建方法,所述構建方法包括:從一個以上數據源獲取樓宇數據,并對樓宇數據進行集成;樓宇數據包含用于樓宇分類的類別信息、樓宇地理信息、樓宇基礎信息、樓宇所屬與使用者信息和人群搜索與標簽分類信息;人群搜索與標簽分類信息為針對樓宇內人群的主要搜索內容進行標簽分類統計與指數計算后得到的信息;基于集成后的樓宇數據構建樓宇知識圖譜數據庫;集成后的樓宇數據經過層級分類以及結構化處理;樓宇知識圖譜中的實體包含樓宇實體、單位實體、搜索標簽實體、搜索點位實體以及單位行業實體。本發明能更利于樓宇數據維護與融合、有效用于應用程序及進行數據推理,且使樓宇數據體現樓宇與樓宇內的受眾人群的匹配。
【IPC分類】G06F17/30
【公開號】CN105183869
【申請號】CN201510590844
【發明人】江南春, 李美美
【申請人】分眾(中國)信息技術有限公司
【公開日】2015年12月23日
【申請日】2015年9月16日