樓宇知識圖譜數據庫及其構建方法
【技術領域】
[0001] 本發明設及計算機數據庫技術領域,特別設及一種樓宇知識圖譜數據庫及其構建 方法。
【背景技術】
[0002] 互聯網的發展經歷了webl. 0和web2. 0兩個階段,正朝著web3. 0方向發展。 webl.O是W編輯為特征,用戶閱讀網站提供的內容,代表站點為新浪、捜狐和網易=大口 戶。web2.0更注重用戶的交互作用,用戶既是網站內容的消費者(瀏覽者),也是網站內容 的制造者(微博、天涯社區、自媒體)。
[0003] 在運兩代互聯網中,用戶點擊訪問的(或互聯的)最小單位是文檔,文檔與文檔 之間的連接是通過超鏈接實現的;由于HTML語言缺乏語義,因此運兩代互聯網中的內容主 要是面向人類的,難W被計算機自動理解。而web3.0即WebofData(語義網)是數據的 網絡,在其上發布和互聯的將是一個個實體數據(即things,實體是語義網數據的構成單 元),它實現了實體級別(entity-level)的數據互聯和互操作。 陽004] 在WebofData中,所有的實體都使用一個全局唯一確定的ID來進行標識,運個 ID即對應目標的標識符(identifier),運種做法與一個網頁有一個對應的U化、數據庫中 的一條記錄有一個特定的主鍵相似;對象之間的鏈接代表對象之間的關聯,大量實體W及 它們之間的關系形成了一張巨大的圖。使用共享的數據詞典,即本體(本體是指一種形式 化的,對于共享概念體系的明確而又詳細的說明)描述對象和鏈接,可W實現分布式數據 集的鏈接。在此架構下,數據共享、管理、交換更加容易。它是一種松禪合的(此處"松禪 合"即指數據模式去中屯、化,非自頂向下推行事先約定數據模式,而是由各數據源自底向上 自發構建數據模式,并進行數據的關聯與管理)、去中屯、化的互聯網。在Webof化ta技 術框架中,數據是W本體的形式存在的,使用資源描述框架(畑F,ResourceDescription 化amework)、網絡本體語言(OWL,化tologyWebLanguage)等本體描述語言進行數據表示, 并使用本體查詢語言SPARQL進行數據查詢。 陽0化]知識圖譜是基于webofdata技術框架的應用與實現。知識圖譜實現對客觀世界 從字符串描述到結構化語義描述,是對客觀世界的知識映射(mappingworldknowledge), 本體可W作為知識圖譜表示的概念模型和邏輯基礎。知識圖譜可W描述不同層次和粒度的 概念抽象。知識圖譜可W體現為一張巨大的圖,圖中的節點表示數據源,而圖中的邊代表不 同數據源中相同實體鏈接。知識圖譜可W顯示知識發展進程與結構關系的一系列各種不同 的圖形,用可視化技術描述知識資源及其載體。可W用于挖掘、分析、構建、繪制和顯示知識 及它們之間的相互聯系。它將應用數學、圖形學、信息可視化技術、信息科學等學科的理論 與方法加W有效利用可視化地、形象地展示信息。
[0006] 隨著新媒體、新技術的發展,廣告所設及的媒體幾乎無所不包,只要是能傳遞信息 的介質,就可W成為廣告的載體。廣告業競爭日益激烈,對廣告受眾的精準定位要求越來越 高。僅僅憑廣告銷售人員經驗確定樓宇的廣告投放已經不能滿足要求,需要根據與樓宇相 關基本信息(如地段、租金等)、受眾基本信息(如樓宇入住公司等)等數據精準確定樓宇 的廣告投放價值,使廣告發布方能快速地決策廣告的投放,W便獲得最大收益。
[0007] 上述的樓宇相關信息一般可W通過建立樓宇數據庫實現,然而,現有技術中構建 的樓宇數據庫一般采用的是關系數據庫。本領域技術人員知曉,在關系數據庫中,數據定義 描述僅局限于數據庫中,其數據字典與數據注冊主要是提供給人的,而非直接用于機器,其 關系存儲在文件、S化代碼和集體記憶(collectivememories)中,不能直接提供給應用程 序。相比于關系數據庫,RDF圖數據中的關系是一種傳遞性質,是明確的模型,可直接提供 給應用程序。且語義網中的數據模型具有自然的可擴充能力,而關系數據庫中的數據表的 合并或字段增加的代價很高。因此較之傳統關系數據庫,語義網的圖數據更利于數據維護 與數據融合,且其中的數據更能有效用于應用程序,利用統一的推理引擎更可W有效的進 行數據推理。
[0008] 此外,現有技術的樓宇數據庫中的樓宇數據大多需要人為采集并錄入,且存在某 些數據不全或不夠準確的問題,尤其是現有樓宇數據中無法準確體現出樓宇與樓宇內的受 眾人群之間的匹配,從而難W更準確地進行廣告投放。
【發明內容】
[0009] 本發明要解決的問題是現有技術中的樓宇數據庫不利于數據維護與數據融合、難 W有效用于應用程序W及有效地進行數據推理,且樓宇數據中無法準確體現樓宇與樓宇內 的受眾人群的匹配。
[0010] 為解決上述問題,本發明技術方案提供一種樓宇知識圖譜數據庫的構建方法,包 括:
[0011] 從一個W上數據源獲取樓宇數據,并對獲取到的樓宇數據進行集成;所述樓宇數 據包含用于樓宇分類的類別信息、樓宇地理信息、樓宇基礎信息、樓宇所屬與使用者信息和 人群捜索與標簽分類信息;所述人群捜索與標簽分類信息為針對樓宇內人群的主要捜索內 容進行標簽分類統計與指數計算后得到的信息;
[0012] 基于集成后的樓宇數據構建樓宇知識圖譜數據庫;所述集成后的樓宇數據經過層 級分類W及結構化處理;所述樓宇知識圖譜中的實體包含樓宇實體、單位實體、捜索標簽實 體、捜索點位實體W及單位行業實體;所述樓宇實體的屬性包含樓宇地理信息屬性、樓宇基 礎信息屬性、樓宇所屬與使用者信息屬性和人群捜索與標簽分類信息屬性,所述人群捜索 與標簽分類信息屬性與所述捜索標簽實體、捜索點位實體所包含屬性下的信息相關聯,所 述樓宇所屬與使用者信息屬性與所述單位實體所包含屬性下的信息相關聯;所述單位實體 的屬性包含單位基本信息屬性、單位行業信息屬性和單位經營信息屬性,所述單位行業信 息屬性與所述單位行業實體所包含屬性下的信息相關聯。
[0013] 可選的,所述對獲取的樓宇數據進行集成包括:優化所述用于樓宇分類的類別信 息的數據結構及其存儲方式,W便進行擴展與分級細化;補充與所述用于樓宇分類的類別 信息相關的樓宇地理信息與樓宇基礎信息;針對所述人群捜索與標簽分類信息W及與所述 樓宇所屬與使用者信息相關聯的單位行業信息建立相對獨立且完整的RDF圖數據庫。
[0014] 可選的,所述對獲取到的樓宇數據進行集成包括對獲取到的樓宇數據進行預處 理,所述預處理包括:進行格式清洗,去除噪聲信息;進行自動重排和自動分類,并把樓宇 數據轉換成預定格式;進行通用文本處理,所述通用文本處理包括分詞、詞性標注、句法分 析、命名實體識別、聚類和分類。
[0015] 可選的,所述基于集成后的樓宇數據構建樓宇知識圖譜數據庫包括:采用文本信 息抽取方法,抽取集成后的樓宇數據所包含的各類信息W構建樓宇知識圖譜數據庫;所述 文本信息抽取方法包括基于人工構建規則的方法、基于規則學習的方法、基于機器學習的 方法中的一種或一種W上組合。
[0016] 可選的,采用隔離的方式確保對所述樓宇知識圖譜中的實體指派唯一標識符,W 及采用調和的方式確認相同實體并將其合并。
[0017] 可選的,所述數據源包括第一數據源、第二數據源和第=數據源;所述第一數據源 為已存儲有部分樓宇數據的關系數據庫,所述人群捜索與標簽分類信息W及與所述樓宇所 屬與使用者信息相關聯的單位行業信息獲取于所述第二數據源,所述第=數據源為互聯網 數據;所述人群捜索與標簽分類信息W及與所述樓宇所屬與使用者信息相關聯的單位行業 信息集成于相應建立的RDF圖數據庫,獲取于所述第=數據源的數據一部分集成于所述關 系數據庫,另一部分集