一種基于局部敏感哈希策略的實例匹配方法
【專利說明】-種基于局部敏感哈希策略的實例匹配方法 【技術(shù)領域】
[0001] 本發(fā)明屬于語義網(wǎng)的數(shù)據(jù)融合技術(shù)領域。 【【背景技術(shù)】】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,大數(shù)據(jù)時代已經(jīng)到來。該些數(shù)據(jù)一般都來自不同的領域, 例如公司、學校、政府、醫(yī)院等等。但是到目前為止,該些數(shù)據(jù)大多分散在各處,并沒有一個 統(tǒng)一的標準來組織該些數(shù)據(jù),而語義網(wǎng)的提出則為數(shù)據(jù)的集成應用打開了新的通路。
[0003] 語義網(wǎng)(SemanticWeb),是由WorldWideWeb(W3C)組織發(fā)起的一個運動,旨在 把當前的面向文檔的網(wǎng)絡演變?yōu)槊嫦驍?shù)據(jù)的網(wǎng)絡(webofdata),該一概念最早是由互聯(lián) 網(wǎng)創(chuàng)始人TimBerners-Lee在1998年提出的,目標是通過給萬維網(wǎng)上的文檔添加能夠被計 算機所理解的語義,使得整個互聯(lián)網(wǎng)成為一個通用的信息交換平臺。2001年Scientific American雜志出版了由TimBerners-Lee等的一篇文章,描繪了把現(xiàn)存互聯(lián)網(wǎng)轉(zhuǎn)化為語義 網(wǎng)的愿景。2006年,對語義網(wǎng)該一偉大設想的實現(xiàn)仍在探索中。2007年一個名為Linking 化en化ta(LOD)的項目吸引了很多的注意力,它是W主語、謂語、賓語S元組的方式來組織 數(shù)據(jù),一個實例由多個=元組進行描述,如《算法導論》該本書就是一個實例,關于它的描述 例如"《算法導論》屬于計算機類型"、"《算法導論》的價格是70元",該里《算法導論》是主 語,"屬于"和"價格"是謂語,"計算機類型"和"70元"是賓語。目前已經(jīng)有很多數(shù)據(jù)集開 始發(fā)布在它上面,其中一項重要的任務就是建立數(shù)據(jù)集之間的owl:sameAs連接。
[0004] 目前為止,已經(jīng)有許多的方法來解決該個問題。該些方案中大多數(shù)都關注于如何 準確并全面的檢測出匹配的實例。但是用于實例匹配的算法很多不得不對每對實例都進行 匹配,所W它并不適用于大數(shù)據(jù)集。一些成熟的系統(tǒng),例如Si化和LIMES,都通過使用用戶 提前定義好的匹配規(guī)則來實現(xiàn)目標,該不適用于對數(shù)據(jù)集不太熟悉的用戶。而另一些系統(tǒng), 例如化M0M2013和化INT+,試圖在沒有用戶參與的條件下實現(xiàn)目標,目前有兩種方法可W 在沒有用戶參與的情況下實現(xiàn)匹配:一種是通過半監(jiān)督學習的算法來迭代優(yōu)化匹配規(guī)則, 并根據(jù)規(guī)則找出置信度高的匹配對;另一種是通過非監(jiān)督學習的算法來找到候選實例對, W此來減少匹配的數(shù)量;該些算法在小規(guī)模數(shù)據(jù)集上表現(xiàn)較佳,但并不能擴展到大規(guī)模數(shù) 據(jù)集。 【
【發(fā)明內(nèi)容】
】
[0005]本發(fā)明提出了一種基于局部敏感哈希策略的實例匹配方法,解決語義網(wǎng)中快速提 取兩個數(shù)據(jù)集間描述相同事物實例的難題。Linked化ta是語義網(wǎng)的一個具體實現(xiàn),WRDF =元組作為基礎數(shù)據(jù)模型。RDF=元組是由主語、謂語、賓語組成的描述事物特征的框架,數(shù) 據(jù)集中的實例由多個畑FS元組組成。Linked化ta中包括大量的數(shù)據(jù)集,而且任何人都能 在其上發(fā)布新的數(shù)據(jù)集,但新發(fā)布的數(shù)據(jù)集需要與現(xiàn)存數(shù)據(jù)集存在鏈接數(shù)據(jù),即把描述相 同事物的實例標記出來。
[0006]本發(fā)明針對現(xiàn)有數(shù)據(jù)集規(guī)模較大、來源廣泛、語義異構(gòu)的特點,設計了基于局部敏 感哈希策略的實例匹配方法,充分利用實例的謂語和賓語對該實例的辨別性,設計并實現(xiàn) 了基于局部敏感哈希策略進行實例匹配的方法。
[0007] 本發(fā)明提供的基于局部敏感哈希策略的實例匹配方法詳細步驟包括:
[000引第1、根據(jù)謂語的覆蓋率和辨別率找到重要謂語
[0009] 重要的謂語一般具有兩個特征:一是該謂語應該覆蓋大多數(shù)的實例;二是該謂語 的賓語應該存儲了每個實例的特殊信息,從而能夠區(qū)分不同的實例。所W,我們使用覆蓋率 和辨別率作為指標來評估謂語的重要性水平。
[0010] 第1. 1、謂語的覆蓋率
[0011] 謂語的覆蓋率是指謂語在整個數(shù)據(jù)集所有實例中出現(xiàn)的頻率,如90%的實例都有 一個謂語r壯s:l油el來表示實例的名字,那么r壯s:l油el該個謂語的覆蓋率就是90%。
[0012] 計算方法;
[0013] 計算謂語Pk覆蓋率Cov(Pk)的方法如公式(1)所示。符號<s,Pk,〇>代表畑F
[0014] S元組的主語、謂語和賓語。X,t和D分別代表實例、S元組和數(shù)據(jù)集。
[0015]
【主權(quán)項】
1. 一種基于局部敏感哈希策略的實例匹配方法,解決語義網(wǎng)中快速提取兩個數(shù)據(jù)集間 描述相同事物實例的難題;Linked Data是語義網(wǎng)的一個具體實現(xiàn),以RDF三元組作為基礎 數(shù)據(jù)模型;RDF三元組是由主語、謂語和賓語組成的描述事物特征的框架,數(shù)據(jù)集中的實例 由多個RDF三元組組成;Linked Data中包括大量的數(shù)據(jù)集,而且任何人都能在其上發(fā)布新 的數(shù)據(jù)集,但新發(fā)布的數(shù)據(jù)集需要與現(xiàn)存數(shù)據(jù)集存在鏈接數(shù)據(jù),即把描述相同事物的實例 標記出來,該實例匹配方法能夠在用戶不了解數(shù)據(jù)集的情況下快速提取匹配的實例對; 所述實例匹配方法詳細步驟如下: 第1、根據(jù)謂語的覆蓋率和辨別率找到重要謂語 第1. 1、計算謂語的覆蓋率;謂語覆蓋率是謂語在整個數(shù)據(jù)集所有實例中出現(xiàn)的頻率; 第1. 2、計算謂語的辨別率;謂語辨別率是從數(shù)據(jù)集中辨別出某一個實例的能力; 第1. 3、計算重要謂語;重要謂語是指數(shù)據(jù)集中謂語覆蓋率和謂語辨別率都大于各自 指定閾值的謂語; 第2、匹配不同數(shù)據(jù)集間的重要謂語得到候選謂語對; 第2. 1、匯總同一數(shù)據(jù)類型的謂語;對第1. 3步得到的重要謂語進行分類,謂語的類型 是由RDF賓語的類型決定,將謂語類型劃分為四種,包括string,URI,數(shù)值和日期,對同一 類型的謂語進行匯總,兩兩組成一個謂語對; 第2. 2、計算每個謂語對匹配的置信度;對第2. 1步中每一個類型的所有謂語對分別 計算其匹配的置信度,將謂語的所有賓語放在一個集合中,然后分別計算賓語間的Jaccard 距離,也就是謂語對匹配的置信度; 第2. 3、篩選候選謂語對;通過閾值來篩選所有謂語對,只有當匹配對的置信度高于閾 值時,該匹配對才能加入到候選謂語匹配對進入接下來的步驟中; 第3、根據(jù)局部敏感哈希策略提取候選實例對 第3. 1、構(gòu)建實例的向量空間模型;對RDF三元組的賓語進行分詞,以詞語ID作為特征 值,這些特征用向量的方式來表達,將整個數(shù)據(jù)集轉(zhuǎn)化為一個實例ID對應一個特征向量V 的向量空間模型; 第3. 2、局部敏感哈希處理;采用基于Jaccard距離的局部敏感哈希函數(shù)族,隨機產(chǎn)生 η個哈希函數(shù),對第3. 1步的每個實例ID計算得到其簽名向量,簽名向量匯總在一起,整個 數(shù)據(jù)集就轉(zhuǎn)化為一個最小哈希簽名矩陣,然后通過行條化處理得到候選實例對; 第4、實例匹配 設置實例匹配相似度的閾值,利用謂語匹配的置信度采用加權(quán)平均的方式計算實例匹 配的相似度,大于相似度閾值的實例對即為最終的實例匹配結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于第1步所述的覆蓋率的計算方法如公式 (1)所示:
其中,D表示數(shù)據(jù)集,X表示數(shù)據(jù)集D中的實例,t表示一個RDF三元組,s表示三元組 中的主語、Pk表示三元組中的謂語、〇表示三元組中的賓語;該公式能夠計算出謂語pk在 整個數(shù)據(jù)集D所有實例中的出現(xiàn)頻率,即數(shù)據(jù)集中包含謂語pk的實例數(shù)量與數(shù)據(jù)集中所有 實例數(shù)量的比值。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于第1步所述的辨別率的計算方法如公式 (2) 所示:
該公式描述了謂語賓語的個數(shù)與三元組個數(shù)的比值,反映了謂語對應賓語的多樣性;D 表示數(shù)據(jù)集,X表示數(shù)據(jù)集D中的實例,t表示一個RDF三元組,s表示三元組中的主語、pk 表示三元組中的謂語、〇表示三元組中的賓語;該公式能夠計算每個謂語Pk對實例的辨別 能力,即每個謂語包含所有賓語的種類與包含所有賓語的個數(shù)的比值。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于第1步所述的重要謂語的計算方法如公式 (3) 所示: {p I p e D, Cov (p) > a MDis (ρ) > β } (3) 其中α、β由人工指定,默認將α設置為覆蓋率Cov (pk)的平均值,將β設置為辨別 率Dis(Pk)的平均值;如果一個謂語的頻率和辨別率分別大于給定的閾值α和β,那么這 個謂語就是重要的。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于第2步所述的謂語對匹配的置信度的計算 方法如公式(4)所示:
其中R表示對賓語的處理工作,對于日期、數(shù)值類型不做任何處理,采用原來的值;對 于string和URI進行文本處理,包括文本分詞、停用詞過濾和詞干提取。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于第3步所述的基于Jaccard距離的局部敏 感哈希函數(shù)族如公式(5)所示: hP (A) = min {P (a) I a e A} (5) 其中P是a的一個投影變換,隨機選擇η個哈希函數(shù),即η種投影變換策略。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于第4步所述的實例匹配相似度計算方法如 公式(6)所示:
Ok= {〇 IX e Dk, <s, pk, 〇> e χ} 其中A表示源數(shù)據(jù)集和目標數(shù)據(jù)集中的已經(jīng)匹配的重要謂語所組成的謂語對, conf(ps,ρτ)表示謂語&與p 配的置信度,Ok表示謂語pk相關的所有賓語組成的集合, F (0S,Ot)表示計算ps與p τ相關賓語的相似度,對于string、URI i十算兩者文本處理后所包 含的詞語TF-IDF值的余弦相似度,對于數(shù)值和日期,先將數(shù)值精確到兩位小數(shù),日期取原 始值,然后直接對比它們是否相同,若相同則為1,若不同則為0。
【專利摘要】一種基于局部敏感哈希策略的實例匹配方法。解決語義網(wǎng)中快速提取兩個數(shù)據(jù)集間描述相同事物實例的難題,本發(fā)明提出了一種新穎的通過局部敏感哈希來進行實例匹配的方法,該方法包括:重要的謂語選擇;匹配不同數(shù)據(jù)集間的重要謂語;根據(jù)匹配的謂語提取候選實例對;提煉候選集得到實例匹配結(jié)果。
【IPC分類】G06F17-30, G06F17-27
【公開號】CN104866471
【申請?zhí)枴緾N201510307301
【發(fā)明人】張海威, 石彬, 解曉芳, 袁曉潔
【申請人】南開大學
【公開日】2015年8月26日
【申請日】2015年6月5日