更新數據庫中非永久性的關系數據的方法及系統的制作方法
【技術領域】
[0001]本發明涉及互聯網領域,更為具體而言,涉及更新數據庫中非永久性的關系數據的方法及系統。
【背景技術】
[0002]數據庫通常包括實體(所述實體指客觀存在并可相互區別的事物,可以是具體的人、事、物,也可以是抽象的概念)、實體的屬性數據(例如人物實體的出生日期等)以及實體間的關系數據(例如人物實體的夫妻關系數據等)。其中,關系數據可以分為永久性的關系數據(例如父子關系數據等)和非永久性的關系數據(例如夫妻關系數據、職位關系數據等)。其中,非永久性的關系數據可能在某個時間點失效,然而,在現有技術中沒有涉及到數據庫中非永久性的關系數據的更新工作,因此無法保證數據庫中非永久性的關系數據的準確性和時效性。
【發明內容】
[0003]為有效地解決上述技術問題,本發明提供了一種更新數據庫中非永久性的關系數據的方法及系統。
[0004]—方面,本發明的實施方式提供了一種更新數據庫中非永久性的關系數據的方法,所述方法包括:
[0005]抓取網絡中到當前時間點為止的預定時間段內增加或者更新的網頁;
[0006]從抓取到的網頁中提取關系類型屬于待更新的數據庫的非永久性關系集合的關系三元組數據;
[0007]根據提取出的關系三元組數據更新數據庫中非永久性的關系數據。
[0008]另一方面,本發明的實施方式還提供了一種更新數據庫中非永久性的關系數據的系統,所述系統包括:
[0009]抓取模塊,用于抓取網絡中到當前時間點為止的預定時間段內增加或者更新的網頁;
[0010]提取模塊,用于從所述抓取模塊所抓取到的網頁中提取關系類型屬于待更新的數據庫的非永久性關系集合的關系三元組數據;
[0011]更新模塊,用于根據所述提取模塊所提取出的關系三元組數據更新數據庫中非永久性的關系數據。
[0012]實施本發明提供的更新數據庫中非永久性的關系數據的方法及系統可以實時地根據網絡中到當前時間點為止的預定時間段內增加或者更新的網頁,對數據庫中非永久性的關系數據進行更新,從而保證數據庫中非永久性的關系數據的準確性和時效性。
【附圖說明】
[0013]圖1是根據本發明實施方式的一種更新數據庫中非永久性的關系數據的方法的流程圖;
[0014]圖2示出了圖1所示的處理S130的一種實施方式;
[0015]圖3是根據本發明實施方式的另一種更新數據庫中非永久性的關系數據的方法的流程圖;
[0016]圖4示出了圖3所示的處理S240的一種實施方式;
[0017]圖5是根據本發明實施方式的一種更新數據庫中非永久性的關系數據的系統的結構示意圖;
[0018]圖6示出了圖5所示的更新模塊130的一種實施方式;
[0019]圖7示出了圖5所示的更新模塊130的另一種實施方式;
[0020]圖8示出了圖5所示的更新模塊130的又一種實施方式。
【具體實施方式】
[0021]為使本發明的實施例的目的、技術方案和優點更加清楚,下面將結合附圖對本發明作詳細描述。
[0022]圖1是根據本發明實施方式的一種更新數據庫中非永久性的關系數據的方法的流程圖。參見圖1,所述方法包括:
[0023]SllO:抓取網絡中到當前時間點為止的預定時間段內增加或者更新的網頁;
[0024]其中,所述預定時間段例如可以是I小時,本領域的技術人員可以根據實際需要米用其它合理時間;
[0025]S120:從抓取到的網頁中提取關系類型屬于待更新的數據庫的非永久性關系集合的關系三元組數據;
[0026]S130:根據提取出的關系三元組數據更新數據庫中非永久性的關系數據。
[0027]其中,所述關系三元組數據(即SPO:subject-predicate_object,主體-謂詞-客體)可以包括:實體對、關系類型以及輔助信息(例如時間信息);同時,所述非永久性關系集合可以包括:所述待更新的數據庫中的非永久性的關系類型以及所述非永久性的關系類型的關聯關系類型,其中,所述關聯關系類型可以包括:事件關系類型,例如,針對“夫妻”這一非永久性的關系類型,其關聯關系類型可以包括:“結婚”、“離婚”等事件關系類型。
[0028]在本發明的實施方式中,可以預先構建所述非永久性關系集合,并且針對所述非永久性關系集合中的各元素分別構建相應的關系提取器集合(包括兩個以上的關系提取器),關系提取器用于識別實體對的關系類型是否為與所述關系提取器對應的關系類型,同一關系提取器集合中的各關系提取器的用于進行關系類型識別的判定模型不同。
[0029]在本發明的實施方式中,處理S120可以通過以下方式實現:
[0030]通過構建出的所述關系提取器集合從所述抓取到的網頁中提取所述關系三元組數據。
[0031]在本發明的實施方式中,通過處理SllO所抓取到的網頁可以是一個也可以是多個,當抓取到的網頁為多個時,可以針對抓取到的各個網頁分別執行處理S120以及處理S130;同時,通過處理S120所提取出的關系三元組數據可以是一個也可以是多個,當提取出的關系三元組數據是多個時,可以針對提取出的各個關系三元組數據分別執行處理S130o
[0032]為提升數據庫更新的質量,在本發明的一種優選的實施方式中,在執行處理S130前,識別所述提取出的關系三元組數據是否為正確數據,若所述關系三元組數據識別為是正確數據,則繼續執行處理S130,若所述關系三元組數據識別不是正確數據,則刪除所述關系三元組數據;其中,識別所述提取出的關系三元組數據是否為正確數據可以通過以下方式中的任一種實現:
[0033]I)判斷是否不同的關系提取器均確定待識別的關系三元組數據的實體對的基于給定句子的關系類型為目標關系類型,若所述不同的關系提取器均確定待識別的關系三元組數據的實體對的基于給定句子的關系類型為目標關系類型,則確定所述待識別的關系三元組數據是正確數據,若存在確定待識別的關系三元組數據的實體對的基于給定句子的關系類型不為目標關系類型的關系提取器,則確定所述待識別的關系三元組數據不是正確數據,其中,所述目標關系類型為所述待識別的關系三元組數據的關系類型,所述給定的句子為用于提取出所述待識別的關系三元組數據的句子,所述不同的關系提取器均對應于所述目標關系類型;
[0034]2)獲取待識別的關系三元組數據的累積提取次數,將獲取的所述累積提取次數與預定閾值進行比較,若所述累積提取次數大于或者等于所述預定閾值,則確定所述待識別的關系三元組數據是正確數據;若所述累積提取次數小于所述預定閾值,則確定所述待識別的關系三元組數據不是正確數據。
[0035]如圖2所示,處理S130具體可以通過以下方式實現:
[0036]S131:識別提取出的關系三元組數據的關系類型,若所述關系類型識別為事件關系類型,則執行S132,若所述關系類型識別為非永久性的關系類型,則執行S137 ;
[0037]S132:從更新規則庫中獲取與所述事件關系類型對應的更新規則;
[0038]S133:根據獲取的更新規則以及提取出的關系三元組數據,在所述數據庫中定位待更新的非永久性的關系數據;
[0039]S134:識別是否定位到待更新的非永久性的關系數據,若是,則執行S135,若否,則執行S136 ;
[0040]S135:在定位到的數據上執行基于所述提取出的關系三元組數據中的輔助信息以及所述獲取的更新規則的數據處理,跳轉到S139 ;
[0041]S136:在所述數據庫中建立所述待更新的非永久性的關系數據,并在建立的數據上執行基于所述提取出的關系三元組數據中的輔助信息以及所述獲取的更新規則的數據處理,跳轉到S139 ;
[0042]S137:識別所述數據庫中是否存在與提取出的關系三元組數據對應的關系數據,若否,則執行S138,若是,則跳轉到S139 ;
[0043]S138:將提取出的關系三元組數據存儲至所述數據庫中;
[0044]S139:結束。
[0045]以下結合具體例子,對本發明的實施方式進行具體說明。圖3是根據