一種同類數(shù)據(jù)對(duì)象的匹配方法和裝置制造方法
【專利摘要】本申請(qǐng)涉及一種同類數(shù)據(jù)對(duì)象的匹配方法和裝置。其中,該方法包括:分別獲得多個(gè)同類數(shù)據(jù)對(duì)象集合;分別挖掘所述同類數(shù)據(jù)對(duì)象集合的每一數(shù)據(jù)對(duì)象的核心詞,獲取各同類數(shù)據(jù)對(duì)象集合的核心詞詞組;計(jì)算任意兩個(gè)同類數(shù)據(jù)對(duì)象集合的核心詞詞組的相似度;當(dāng)所述相似度大于設(shè)定閾值時(shí),將發(fā)生比較的兩個(gè)同類數(shù)據(jù)對(duì)象集合中的數(shù)據(jù)對(duì)象確定為同類數(shù)據(jù)對(duì)象。其通過根據(jù)數(shù)據(jù)對(duì)象的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽,挖掘出核心詞,在來自各數(shù)據(jù)平臺(tái)的多個(gè)同類數(shù)據(jù)對(duì)象集合中進(jìn)一步做匹配,最終在各數(shù)據(jù)平臺(tái)海量數(shù)據(jù)對(duì)象中確定絕對(duì)同類數(shù)據(jù)對(duì)象,從而解決跨平臺(tái)準(zhǔn)確匹配同類數(shù)據(jù)對(duì)象的問題,提高跨數(shù)據(jù)平臺(tái)的同類數(shù)據(jù)對(duì)象匹配的準(zhǔn)確性。
【專利說明】一種同類數(shù)據(jù)對(duì)象的匹配方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種同類數(shù)據(jù)對(duì)象的匹配方法和裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,當(dāng)前進(jìn)入了信息爆炸的時(shí)代,將海量數(shù)據(jù)對(duì)象同時(shí) 呈現(xiàn)給用戶,使用戶很難從中發(fā)現(xiàn)自己感興趣的部分。基于同類數(shù)據(jù)對(duì)象匹配的方法可以 在海量數(shù)據(jù)對(duì)象中將具有相同數(shù)據(jù)標(biāo)簽的多個(gè)數(shù)據(jù)對(duì)象(同類數(shù)據(jù)對(duì)象)匹配在一起,進(jìn)而 將同類數(shù)據(jù)對(duì)象聚合在一起,得到同類數(shù)據(jù)對(duì)象的集合,通過這樣的方法可以為用戶分類 展示不同的數(shù)據(jù)對(duì)象,使用戶更容易發(fā)現(xiàn)自己感興趣的數(shù)據(jù)對(duì)象,從而增強(qiáng)了用戶體驗(yàn)效 果。
[0003] 目前對(duì)同一個(gè)數(shù)據(jù)平臺(tái)中的大量的數(shù)據(jù)對(duì)象進(jìn)行同類數(shù)據(jù)對(duì)象匹配的技術(shù),已經(jīng) 成為各個(gè)數(shù)據(jù)平臺(tái)解決為用戶展示的數(shù)據(jù)對(duì)象過于分散的問題的重要技術(shù)之一,并且該技 術(shù)已經(jīng)日趨成熟。
[0004] 然而對(duì)于來自跨數(shù)據(jù)平臺(tái)的數(shù)據(jù)對(duì)象卻不能進(jìn)行同類數(shù)據(jù)對(duì)象的匹配。具體而 言,在每一個(gè)數(shù)據(jù)平臺(tái)中可以依據(jù)海量數(shù)據(jù)對(duì)象普遍擁有的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽在海量 數(shù)據(jù)中對(duì)同類數(shù)據(jù)對(duì)象進(jìn)行匹配,進(jìn)而實(shí)現(xiàn)同類數(shù)據(jù)對(duì)象的聚合,例如,當(dāng)數(shù)據(jù)對(duì)象為書籍 時(shí),可以將書籍普遍擁有的分類號(hào)作為數(shù)據(jù)標(biāo)簽對(duì)書籍進(jìn)行匹配,如,將海量書籍中分類號(hào) 包括"D"(政治法律類)的書籍進(jìn)行匹配,進(jìn)而可以將政治法律類書籍(同類書籍)聚合在一 起。
[0005] 但是每一個(gè)數(shù)據(jù)平臺(tái)擁有各自的同類數(shù)據(jù)對(duì)象的匹配方法,例如,在不同類目下, 使用不同的數(shù)據(jù)標(biāo)簽進(jìn)行數(shù)據(jù)對(duì)象的匹配,若使用其中一個(gè)數(shù)據(jù)平臺(tái)的匹配方法將多個(gè)數(shù) 據(jù)平臺(tái)中的海量數(shù)據(jù)對(duì)象進(jìn)行匹配,所匹配出的同類數(shù)據(jù)對(duì)象會(huì)由于匹配方法的差異存在 準(zhǔn)確性低的問題,例如:對(duì)不同的數(shù)據(jù)平臺(tái)中包含"上海"(數(shù)據(jù)標(biāo)簽)的數(shù)據(jù)對(duì)象進(jìn)行匹配, 該不同的數(shù)據(jù)平臺(tái)可以是旅游網(wǎng)站、購物網(wǎng)站、閱讀網(wǎng)站等等,則將這些網(wǎng)站中包含"上海" 的數(shù)據(jù)對(duì)象進(jìn)行匹配,可能得到地理類(旅游路書)、商品類(商品)、人文類(文章)等不同的 數(shù)據(jù)對(duì)象,即,所得到的數(shù)據(jù)對(duì)象并非都是同類數(shù)據(jù)對(duì)象,也未達(dá)到同類數(shù)據(jù)對(duì)象聚合的目 的。所以現(xiàn)有技術(shù)中跨數(shù)據(jù)平臺(tái)的數(shù)據(jù)對(duì)象匹配結(jié)果準(zhǔn)確性不高。
【發(fā)明內(nèi)容】
[0006] 本申請(qǐng)的主要目的在于提供一種同類數(shù)據(jù)對(duì)象的匹配方法和裝置,以克服現(xiàn)有技 術(shù)存在的跨數(shù)據(jù)平臺(tái)匹配同類數(shù)據(jù)對(duì)象準(zhǔn)確性低的缺陷,解決跨平臺(tái)準(zhǔn)確匹配同類數(shù)據(jù)對(duì) 象的問題。
[0007] 本申請(qǐng)一方面提供的一種同類數(shù)據(jù)對(duì)象的匹配方法,包括:分別獲得多個(gè)同類數(shù) 據(jù)對(duì)象集合;分別挖掘所述同類數(shù)據(jù)對(duì)象集合的每一數(shù)據(jù)對(duì)象的核心詞,獲取各同類數(shù)據(jù) 對(duì)象集合的核心詞詞組;計(jì)算任意兩個(gè)同類數(shù)據(jù)對(duì)象集合的核心詞詞組的相似度;當(dāng)所述 相似度大于設(shè)定閾值時(shí),將發(fā)生比較的兩個(gè)同類數(shù)據(jù)對(duì)象集合中的數(shù)據(jù)對(duì)象確定為同類數(shù) 據(jù)對(duì)象。
[0008] 進(jìn)一步的,多個(gè)同類數(shù)據(jù)對(duì)象集合分別來自不同數(shù)據(jù)平臺(tái)。
[0009] 進(jìn)一步的,在每一個(gè)所述數(shù)據(jù)平臺(tái),對(duì)多個(gè)數(shù)據(jù)對(duì)象進(jìn)行匹配,以聚合得到一個(gè)或 多個(gè)同類數(shù)據(jù)對(duì)象的集合;其中,所述同類數(shù)據(jù)對(duì)象集合中包含一個(gè)或多個(gè)具有相同的一 個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽的數(shù)據(jù)對(duì)象。
[0010] 進(jìn)一步的,分別獲得多個(gè)同類數(shù)據(jù)對(duì)象集合包括:將來自各個(gè)不同數(shù)據(jù)平臺(tái)的包 含相同的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽的多個(gè)同類數(shù)據(jù)對(duì)象集合進(jìn)行關(guān)聯(lián)。
[0011] 進(jìn)一步的,一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽包括第一數(shù)據(jù)標(biāo)簽、第二數(shù)據(jù)標(biāo)簽和/或第三數(shù) 據(jù)標(biāo)簽。
[0012] 進(jìn)一步的,挖掘所述同類數(shù)據(jù)對(duì)象集合的每一個(gè)數(shù)據(jù)對(duì)象的核心詞,包括,基于所 述每一個(gè)數(shù)據(jù)對(duì)象所包含的內(nèi)容和/或數(shù)據(jù)標(biāo)簽,挖掘所述每一個(gè)數(shù)據(jù)對(duì)象的核心詞。
[0013] 進(jìn)一步的,計(jì)算任意兩個(gè)同類數(shù)據(jù)對(duì)象集合的核心詞詞組的相似度,包括,計(jì)算每 一個(gè)所述核心詞詞組中的每一個(gè)核心詞所占的權(quán)重;基于所述每一個(gè)所述核心詞詞組中 每一個(gè)核心詞所占的權(quán)重,計(jì)算所述多個(gè)相關(guān)聯(lián)的所述同類數(shù)據(jù)對(duì)象集合之間的余弦相似 度。
[0014] 本申請(qǐng)另一方面提供的一種同類數(shù)據(jù)對(duì)象的匹配裝置,包括:獲得模塊,用于分別 獲得多個(gè)同類數(shù)據(jù)對(duì)象集合;挖掘與獲取模塊,用于分別挖掘所述同類數(shù)據(jù)對(duì)象集合的每 一數(shù)據(jù)對(duì)象的核心詞,獲取各同類數(shù)據(jù)對(duì)象集合的核心詞詞組;計(jì)算模塊,用于計(jì)算任意兩 個(gè)同類數(shù)據(jù)對(duì)象集合的核心詞詞組的相似度;確定模塊,用于當(dāng)所述相似度大于設(shè)定閾值 時(shí),將發(fā)生比較的兩個(gè)同類數(shù)據(jù)對(duì)象集合中數(shù)據(jù)對(duì)象確定為同類數(shù)據(jù)對(duì)象。
[0015] 進(jìn)一步的,同類數(shù)據(jù)對(duì)象集合分別來自不同數(shù)據(jù)平臺(tái)。
[0016] 進(jìn)一步的,獲得模塊還包括,在每一個(gè)所述數(shù)據(jù)平臺(tái),對(duì)多個(gè)數(shù)據(jù)對(duì)象進(jìn)行匹配, 以聚合得到一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象的集合,其中,所述同類數(shù)據(jù)對(duì)象集合中包含一個(gè)或 多個(gè)具有相同的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽的數(shù)據(jù)對(duì)象。
[0017] 進(jìn)一步的,獲得模塊還包括,將來自各個(gè)不同數(shù)據(jù)平臺(tái)的包含相同的一個(gè)或多個(gè) 數(shù)據(jù)標(biāo)簽的多個(gè)同類數(shù)據(jù)對(duì)象集合進(jìn)行關(guān)聯(lián)。
[0018] 進(jìn)一步的,一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽包括第一數(shù)據(jù)標(biāo)簽、第二數(shù)據(jù)標(biāo)簽和/或第三數(shù) 據(jù)標(biāo)簽。
[0019] 進(jìn)一步的,挖掘與獲取模塊還包括:基于所述每一個(gè)數(shù)據(jù)對(duì)象所包含的內(nèi)容和/ 或數(shù)據(jù)標(biāo)簽,挖掘所述每一個(gè)數(shù)據(jù)對(duì)象的核心詞。
[0020] 進(jìn)一步的,計(jì)算模塊還包括計(jì)算每一個(gè)所述核心詞詞組中的每一個(gè)核心詞所占的 權(quán)重;基于所述每一個(gè)所述核心詞詞組中每一個(gè)核心詞所占的權(quán)重,計(jì)算所述多個(gè)相關(guān)聯(lián) 的所述同類數(shù)據(jù)對(duì)象集合之間的余弦相似度。
[0021] 與現(xiàn)有技術(shù)相比,根據(jù)本申請(qǐng)的技術(shù)方案具有以下有益效果:
[0022] 本申請(qǐng)可以通過先在每個(gè)數(shù)據(jù)平臺(tái)中各自進(jìn)行同類數(shù)據(jù)對(duì)象的匹配,然后根據(jù)數(shù) 據(jù)對(duì)象的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽挖掘核心詞,在來自各數(shù)據(jù)平臺(tái)的多個(gè)同類數(shù)據(jù)對(duì)象集合中 進(jìn)行進(jìn)一步地匹配,最終在各數(shù)據(jù)平臺(tái)的海量數(shù)據(jù)對(duì)象中確定出同類數(shù)據(jù)對(duì)象(絕對(duì)同類 數(shù)據(jù)對(duì)象),進(jìn)而以此提高跨數(shù)據(jù)平臺(tái)的同類數(shù)據(jù)對(duì)象匹配的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0023] 此處所說明的附圖用來提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申 請(qǐng)的示意性實(shí)施例及其說明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:
[0024] 圖1是根據(jù)本申請(qǐng)一實(shí)施例的同類數(shù)據(jù)對(duì)象的匹配的示意圖;
[0025] 圖2是根據(jù)本申請(qǐng)一實(shí)施例的同類數(shù)據(jù)對(duì)象的匹配方法的流程圖;
[0026] 圖3是根據(jù)本申請(qǐng)一實(shí)施例的同類數(shù)據(jù)對(duì)象的類目結(jié)構(gòu)示意圖;
[0027] 圖4是根據(jù)本申請(qǐng)一實(shí)施例的計(jì)算同類數(shù)據(jù)對(duì)象集合的相似度的方法的流程圖;
[0028] 圖5是根據(jù)本申請(qǐng)一實(shí)施例的同類數(shù)據(jù)對(duì)象的匹配裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0029] 本申請(qǐng)的主要思想在于,在各數(shù)據(jù)平臺(tái)中,先利用數(shù)據(jù)對(duì)象的一個(gè)或多個(gè)數(shù)據(jù)標(biāo) 簽,在海量數(shù)據(jù)對(duì)象中實(shí)現(xiàn)同類數(shù)據(jù)對(duì)象的匹配獲得同類數(shù)據(jù)對(duì)象集合(一個(gè)或多個(gè)這樣 的集合),再以此為基礎(chǔ),將各個(gè)平臺(tái)的"相對(duì)"同類數(shù)據(jù)對(duì)象集合進(jìn)行關(guān)聯(lián)和挖掘,以進(jìn)一 步匹配獲得跨平臺(tái)下海量數(shù)據(jù)對(duì)象中的"絕對(duì)"同類數(shù)據(jù)對(duì)象,以提高跨平臺(tái)海量數(shù)據(jù)中搜 索同類數(shù)據(jù)對(duì)象的效率和精確度,從而使得搜索結(jié)果更準(zhǔn)確。
[0030] 為使本申請(qǐng)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下結(jié)合附圖及具體實(shí)施例,對(duì)本 申請(qǐng)作進(jìn)一步地詳細(xì)說明。
[0031] 如圖1所示,根據(jù)本申請(qǐng)一實(shí)施例的同類數(shù)據(jù)對(duì)象的匹配的示意圖。在各數(shù)據(jù)平 臺(tái)中,如以兩個(gè)數(shù)據(jù)平臺(tái)為例,第一數(shù)據(jù)平臺(tái)101、第二數(shù)據(jù)平臺(tái)102,分別利用數(shù)據(jù)對(duì)象的 數(shù)據(jù)標(biāo)簽(即標(biāo)識(shí)該數(shù)據(jù)對(duì)象的數(shù)據(jù)屬性特征),比如第一數(shù)據(jù)標(biāo)簽、第二數(shù)據(jù)標(biāo)簽、葉子類 目(第三數(shù)據(jù)標(biāo)簽),在海量數(shù)據(jù)對(duì)象中進(jìn)行同類數(shù)據(jù)對(duì)象的匹配,從而得到第一數(shù)據(jù)平臺(tái) 101的一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象集合1011以及第二數(shù)據(jù)平臺(tái)102的一個(gè)或多個(gè)同類數(shù)據(jù) 對(duì)象集合1012。以此為基礎(chǔ),可以基于各個(gè)數(shù)據(jù)平臺(tái)匹配出的一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象集 合1011、1012,做進(jìn)一步地?cái)?shù)據(jù)加工。具體而言,可以將各數(shù)據(jù)平臺(tái)(如第一數(shù)據(jù)平臺(tái)101、 第二數(shù)據(jù)平臺(tái)102)具有相同的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽的同類數(shù)據(jù)對(duì)象集合1011U012進(jìn)行 關(guān)聯(lián)。例如,第一數(shù)據(jù)平臺(tái)101的一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象集合1011包括集合S1,第二數(shù) 據(jù)平臺(tái)102的一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象集合1012包括集合S2。如果集合Sl及集合S2中 的數(shù)據(jù)對(duì)象具有共同的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽,則將集合Sl與集合S2,進(jìn)行關(guān)聯(lián)。
[0032] 其中,所述數(shù)據(jù)平臺(tái)可以是為用戶提供互聯(lián)網(wǎng)數(shù)據(jù)交互的平臺(tái),例如,新華網(wǎng)、搜 索門戶網(wǎng)、電商網(wǎng)等等。數(shù)據(jù)對(duì)象可以是用戶進(jìn)行數(shù)據(jù)訪問、搜索和/或其他交互行為的各 種數(shù)據(jù)對(duì)象,例如,商品信息、文獻(xiàn)等。具體地,數(shù)據(jù)對(duì)象,例如產(chǎn)品信息、圖片和視頻的文字 說明、以及文檔等,一般可以由文字信息表現(xiàn)或描述。進(jìn)一步的,可以利用自然語言處理技 術(shù)分別對(duì)集合SI、S2的數(shù)據(jù)對(duì)象進(jìn)行分詞,并抽取出核心詞,得到包含一個(gè)或多個(gè)核心詞 的核心詞詞組。其中,所述核心詞可以是預(yù)先指定類型的分詞,比如名詞;對(duì)于表示產(chǎn)品信 息的數(shù)據(jù)對(duì)象,核心詞可以是產(chǎn)品詞。
[0033] 挖掘每一個(gè)集合S1、S2中數(shù)據(jù)對(duì)象的核心詞詞組。例如,在相關(guān)聯(lián)的集合Sl和集 合S2中各自進(jìn)行核心詞的挖掘,分別得到核心詞詞組106、108。計(jì)算核心詞詞組106與核 心詞詞組108的相似度。根據(jù)核心詞詞組106與核心詞詞組108的相似度判斷集合Sl和 集合S2是否是互為同類數(shù)據(jù)對(duì)象集合,以此可以確定相關(guān)聯(lián)的同類數(shù)據(jù)對(duì)象集合是否絕 對(duì)同類。這里的絕對(duì)同類即分別來自兩個(gè)或兩個(gè)以上(多個(gè))同類數(shù)據(jù)對(duì)象集合中的數(shù)據(jù)對(duì) 象也互為同類數(shù)據(jù)對(duì)象。聚合這兩個(gè)或兩個(gè)以上(多個(gè))同類數(shù)據(jù)對(duì)象形成新的集合,從而 獲得跨數(shù)據(jù)平臺(tái)下海量數(shù)據(jù)對(duì)象中的"絕對(duì)"同類數(shù)據(jù)對(duì)象。通過該方式得到的同類數(shù)據(jù) 對(duì)象則更具準(zhǔn)確性。
[0034] 本申請(qǐng)的一種同類數(shù)據(jù)對(duì)象的匹配方法,如圖2所示的根據(jù)本申請(qǐng)一實(shí)施例的同 類數(shù)據(jù)對(duì)象的匹配方法的流程圖。
[0035] 在步驟S210處,獲取多個(gè)同類數(shù)據(jù)對(duì)象集合。
[0036] 其中,多個(gè)同類數(shù)據(jù)對(duì)象集合分別來自不同的數(shù)據(jù)平臺(tái)。
[0037] 在多個(gè)數(shù)據(jù)平臺(tái)的每一個(gè)數(shù)據(jù)平臺(tái)中,對(duì)可以被搜索到的數(shù)據(jù)對(duì)象,進(jìn)行同類數(shù) 據(jù)對(duì)象的匹配,形成每一個(gè)數(shù)據(jù)平臺(tái)中的一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象集合。
[0038] 在每個(gè)數(shù)據(jù)平臺(tái)上都分別可以得到一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象集合。這些同類數(shù)據(jù) 對(duì)象,在一個(gè)數(shù)據(jù)平臺(tái)上,能提高用戶的搜索結(jié)果完整性和準(zhǔn)確性。例如,某用戶利用網(wǎng)頁 進(jìn)行訪問搜索時(shí),搜索到一個(gè)數(shù)據(jù)對(duì)象,提供搜索服務(wù)的數(shù)據(jù)平臺(tái)基于已經(jīng)匹配聚合的同 類數(shù)據(jù)對(duì)象的集合,可以將該數(shù)據(jù)對(duì)象的同類數(shù)據(jù)對(duì)象也一并提供出來作為搜索結(jié)果來處 理,使得這些同類數(shù)據(jù)對(duì)象可以以集合的形式,都提供給用戶。提供搜索服務(wù)的數(shù)據(jù)平臺(tái)可 以通過列表展示(如在網(wǎng)頁上顯示結(jié)果列表)或其他方式,輸出搜索結(jié)果給用戶。一個(gè)數(shù)據(jù) 平臺(tái)上,可以有一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象集合(或至少一個(gè)同類數(shù)據(jù)對(duì)象集合)。這里,同類 數(shù)據(jù)對(duì)象,可以是具有相同的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽的數(shù)據(jù)對(duì)象。同類數(shù)據(jù)對(duì)象集合,可以包 含一個(gè)或多個(gè)具有相同的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽的數(shù)據(jù)對(duì)象。進(jìn)一步地,可以將同類數(shù)據(jù)對(duì) 象共同的數(shù)據(jù)標(biāo)簽(即將同類數(shù)據(jù)對(duì)象聚合、匹配起來的這些相同的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽) 作為所屬的同類數(shù)據(jù)對(duì)象集合所具有的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽。
[0039] 運(yùn)用每個(gè)數(shù)據(jù)平臺(tái)的同類數(shù)據(jù)對(duì)象的匹配方法,對(duì)每個(gè)數(shù)據(jù)平臺(tái)中的數(shù)據(jù)對(duì)象進(jìn) 行匹配,以獲得各個(gè)數(shù)據(jù)平臺(tái)自身的一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象的集合。具體而言,可以對(duì)每 一個(gè)數(shù)據(jù)對(duì)象的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽進(jìn)行匹配,將與所述一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽匹配的一個(gè) 或多個(gè)數(shù)據(jù)對(duì)象作為同類數(shù)據(jù)對(duì)象,并進(jìn)而將這些同類數(shù)據(jù)對(duì)象聚合在一起,得到同類數(shù) 據(jù)對(duì)象集合。
[0040] 一個(gè)實(shí)施方式中,用于匹配的各個(gè)數(shù)據(jù)對(duì)象中的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽,可以包括 第一數(shù)據(jù)標(biāo)簽、第二數(shù)據(jù)標(biāo)簽和/或第三數(shù)據(jù)標(biāo)簽等,即所述一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽可以包 括第一數(shù)據(jù)標(biāo)簽,第二數(shù)據(jù)標(biāo)簽,第三數(shù)據(jù)標(biāo)簽中的至少一個(gè)。其中,第一數(shù)據(jù)標(biāo)簽、第二數(shù) 據(jù)標(biāo)簽可以是多個(gè)數(shù)據(jù)對(duì)象都具有的屬性/特征,例如,書籍的分類號(hào),商品的品牌或貨號(hào) 等等。其中,第三數(shù)據(jù)標(biāo)簽可以是數(shù)據(jù)對(duì)象所屬的葉子類目,具體而言,在每一個(gè)數(shù)據(jù)平臺(tái) 中,可以將數(shù)據(jù)按照分級(jí)類目進(jìn)行劃分,參見圖3所示,根據(jù)本申請(qǐng)一實(shí)施例的同類數(shù)據(jù)對(duì) 象的類目結(jié)構(gòu)示意圖。圖3示出了各個(gè)數(shù)據(jù)平臺(tái)中,采用的第三數(shù)據(jù)標(biāo)簽即葉子類目,作為 待匹配和聚合的同類數(shù)據(jù)對(duì)象的特征之一,在數(shù)據(jù)對(duì)象搜索應(yīng)用的類目結(jié)構(gòu)中的位置。
[0041] 一級(jí)類目為最頂層類目,可以按照性質(zhì)將數(shù)據(jù)對(duì)象劃分為不同的類目,例如:通 信、計(jì)算機(jī)等。進(jìn)一步地,可以將一級(jí)類目中的數(shù)據(jù)對(duì)象劃分出下級(jí)子類目(二級(jí)類目),例 如一級(jí)類目中的通信類目下的二級(jí)目錄可以包括:有線通信、無線通信等。依此類推,通過 該方式可以對(duì)數(shù)據(jù)對(duì)象所屬的類目逐步進(jìn)行更細(xì)粒度的劃分,最終獲得數(shù)據(jù)對(duì)象的葉子類 目,該葉子類目是最低一級(jí)、最接近某一數(shù)據(jù)對(duì)象的類目,例如:無線路由器、無線網(wǎng)卡等。 也就是說,可以將數(shù)據(jù)對(duì)象所屬的最下一級(jí)的葉子類目,作為其匹配同類數(shù)據(jù)對(duì)象使用的 第三數(shù)據(jù)標(biāo)簽。
[0042] 需要說明的是,用于同類數(shù)據(jù)對(duì)象匹配的數(shù)據(jù)標(biāo)簽的數(shù)量和內(nèi)容,可以根據(jù)各個(gè) 數(shù)據(jù)平臺(tái)自身的特點(diǎn)進(jìn)行設(shè)置,或者,預(yù)先將多個(gè)數(shù)據(jù)平臺(tái)在數(shù)據(jù)對(duì)象匹配過程中需要使 用的數(shù)據(jù)標(biāo)簽進(jìn)行統(tǒng)一。
[0043] 進(jìn)一步地,該實(shí)施方式中,可以利用指定的標(biāo)簽對(duì)每個(gè)數(shù)據(jù)平臺(tái)上的所有數(shù)據(jù)對(duì) 象做匹配,得到一組或多組同類數(shù)據(jù)對(duì)象,并將這些同類數(shù)據(jù)對(duì)象聚合一起,得到每個(gè)數(shù)據(jù) 平臺(tái)的一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象集合。之后,還可以將每一個(gè)數(shù)據(jù)平臺(tái)各自獲得的一個(gè)或 多個(gè)同類數(shù)據(jù)對(duì)象集合發(fā)送至核心服務(wù)器,以做進(jìn)一步的處理。另外,也可以發(fā)送到某一數(shù) 據(jù)平臺(tái)或數(shù)據(jù)處理中心進(jìn)行進(jìn)一步的處理。下面主要以核心服務(wù)器為例來介紹本申請(qǐng)的一 實(shí)施例。其中,核心服務(wù)器可以是獨(dú)立于各個(gè)數(shù)據(jù)平臺(tái)所屬服務(wù)器的第三方服務(wù)器,也可以 是位于多個(gè)數(shù)據(jù)平臺(tái)中的一個(gè)數(shù)據(jù)平臺(tái)所在的服務(wù)器,不限于此兩種情形。該核心服務(wù)器 主要可以用于接收來自多個(gè)數(shù)據(jù)平臺(tái)的一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象集合,并基于接收的一個(gè) 或多個(gè)同類數(shù)據(jù)對(duì)象進(jìn)行關(guān)聯(lián)和挖掘,以確定跨數(shù)據(jù)平臺(tái)的海量數(shù)據(jù)對(duì)象中的絕對(duì)同類數(shù) 據(jù)對(duì)象集合。
[0044] 進(jìn)一步的,由于從每一數(shù)據(jù)平臺(tái)可以獲取一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象集合,不同數(shù) 據(jù)平臺(tái)對(duì)同類數(shù)據(jù)對(duì)象的聚合方式不同。為了將不同數(shù)據(jù)平臺(tái)上的數(shù)據(jù)對(duì)象進(jìn)行比較,可 以從第一數(shù)據(jù)平臺(tái)選擇一第一同類數(shù)據(jù)對(duì)象集合,從第二數(shù)據(jù)平臺(tái)選擇一第二同類數(shù)據(jù)對(duì) 象集合,將選擇的第一同類數(shù)據(jù)對(duì)象集合與第二同類數(shù)據(jù)對(duì)象集合進(jìn)行比較。不同數(shù)據(jù)平 臺(tái)對(duì)同類數(shù)據(jù)對(duì)象的聚合方式不同,因此,第一同類數(shù)據(jù)對(duì)象集合及第二同類數(shù)據(jù)對(duì)象集 合的數(shù)據(jù)對(duì)象的聚合方式可以不同。
[0045] 為提升比較效率,也可以將不同數(shù)據(jù)平臺(tái)的多個(gè)同類數(shù)據(jù)對(duì)象集合進(jìn)行關(guān)聯(lián)。具 體而言,可以將來自各個(gè)不同數(shù)據(jù)平臺(tái)的包含相同的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽的多個(gè)同類數(shù)據(jù) 對(duì)象集合進(jìn)行關(guān)聯(lián)。每個(gè)數(shù)據(jù)平臺(tái)可以有一個(gè)或多個(gè)(兩個(gè)、甚至兩個(gè)以上)的同類數(shù)據(jù)對(duì) 象集合。換言之,可以將來自多個(gè)不同的數(shù)據(jù)平臺(tái)、并且具有相同第一數(shù)據(jù)標(biāo)簽、第二數(shù)據(jù) 標(biāo)簽、第三數(shù)據(jù)標(biāo)簽(葉子類目)的多個(gè)同類數(shù)據(jù)對(duì)象集合進(jìn)行關(guān)聯(lián),進(jìn)而形成存在關(guān)聯(lián)關(guān) 系的多個(gè)同類數(shù)據(jù)對(duì)象集合。關(guān)聯(lián)起來的不同數(shù)據(jù)平臺(tái)的多個(gè)同類數(shù)據(jù)對(duì)象集合,可以看 做這些集合中的同類數(shù)據(jù)對(duì)象是"相對(duì)"的同類數(shù)據(jù)對(duì)象。如圖1中的第一數(shù)據(jù)平臺(tái)101有 一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象集合1011,其中包括某一個(gè)同類數(shù)據(jù)對(duì)象集合S1,而第二數(shù)據(jù)平 臺(tái)102有一個(gè)或多個(gè)同類數(shù)據(jù)對(duì)象集合1012,其中包括某一個(gè)同類數(shù)據(jù)對(duì)象集合S2。則可 以利用分別構(gòu)成集合SI、S2的數(shù)據(jù)標(biāo)簽,如上述的第一至第三數(shù)據(jù)標(biāo)簽,將第一、第二數(shù)據(jù) 平臺(tái)101、102中的兩個(gè)集合Sl和S2關(guān)聯(lián)起來(如:一個(gè)或多個(gè)上述數(shù)據(jù)標(biāo)簽相同和/或相 似,或者說,數(shù)據(jù)對(duì)象中用于匹配同類、并聚合在一起所使用的屬性/特征等至少有一個(gè)相 同和/或相似,等等),兩個(gè)集合中的同類數(shù)據(jù)對(duì)象可以視為(或者說暫時(shí)為)同類的數(shù)據(jù)對(duì) 象(相對(duì))。這里的關(guān)聯(lián)方式僅為一個(gè)例子,本申請(qǐng)并不限于此例子的關(guān)聯(lián)方式。
[0046] 關(guān)聯(lián)各個(gè)不同數(shù)據(jù)平臺(tái)的同類數(shù)據(jù)對(duì)象集合,可以提升數(shù)據(jù)對(duì)象搜索的準(zhǔn)確率和 搜索效率,能跨平臺(tái)從海量數(shù)據(jù)對(duì)象中,將相同類型的數(shù)據(jù)對(duì)象都搜索出來。
[0047] 但由于相關(guān)聯(lián)的多個(gè)同類數(shù)據(jù)對(duì)象集合SI、S2來自不同的數(shù)據(jù)平臺(tái)101、102,并 且每個(gè)數(shù)據(jù)平臺(tái)1〇1、1〇2的同類數(shù)據(jù)對(duì)象的匹配方法也可能不相同(如選用的數(shù)據(jù)標(biāo)簽不 盡相同),使得仍然可能存在集合SI、S2中的同類數(shù)據(jù)對(duì)象,相互之間并不是真正的同類數(shù) 據(jù)對(duì)象(絕對(duì)意義上的同類數(shù)據(jù)對(duì)象)。從而,在跨平臺(tái)搜索時(shí),仍然存在搜索結(jié)果并不完全 準(zhǔn)確的情形。如集合Sl是2G手機(jī)的集合,而集合S2是2G手機(jī)配件的集合,但都有相同的 數(shù)據(jù)標(biāo)簽"2G手機(jī)",因此,可以將集合Sl和集合S2關(guān)聯(lián)起來。但實(shí)際上,如果跨平臺(tái)搜索 2G手機(jī),則可以將集合S1、S2中的數(shù)據(jù)對(duì)象都作為搜索結(jié)果發(fā)送給搜索用戶。而來自集合 S2的數(shù)據(jù)對(duì)象并不是用戶需要的,即是多余的噪聲。對(duì)于跨平臺(tái)海量數(shù)據(jù)搜索來說,這樣的 搜索結(jié)果噪聲過多、準(zhǔn)確率仍然偏低。因此,為了更進(jìn)一步減少噪聲、提高搜索準(zhǔn)確率,對(duì)相 關(guān)聯(lián)的多個(gè)同類數(shù)據(jù)對(duì)象集合,還可以進(jìn)一步處理。在對(duì)相關(guān)聯(lián)的多個(gè)同類數(shù)據(jù)對(duì)象集合 進(jìn)行的進(jìn)一步處理包括:確定這些相關(guān)聯(lián)的多個(gè)同類數(shù)據(jù)對(duì)象集合是否互為同類數(shù)據(jù)對(duì)象 集合(真正的同類數(shù)據(jù)對(duì)象集合即絕對(duì)同類數(shù)據(jù)對(duì)象集合),換言之,各個(gè)集合中的同類數(shù) 據(jù)對(duì)象是不是真正意義上的同類數(shù)據(jù)對(duì)象即絕對(duì)同類數(shù)據(jù)對(duì)象。
[0048] 在步驟S220處,根據(jù)每一個(gè)同類數(shù)據(jù)對(duì)象集合的核心詞詞組,計(jì)算兩個(gè)或兩個(gè)以 上(多個(gè))同類數(shù)據(jù)對(duì)象集合之間的相似度,以確定絕對(duì)同類數(shù)據(jù)對(duì)象集合。
[0049] 多個(gè)同類數(shù)據(jù)對(duì)象集合之間的相似度可以理解為,將多個(gè)同類數(shù)據(jù)對(duì)象集合按照 排列組合的方法,計(jì)算任意兩個(gè)同類數(shù)據(jù)對(duì)象集合之間的相似度。比如,當(dāng)前有來自三個(gè) 不同數(shù)據(jù)平臺(tái)的同類數(shù)據(jù)對(duì)象集合Sa、同類數(shù)據(jù)對(duì)象集合Sb、同類數(shù)據(jù)對(duì)象集合Sc,則排 列組合得到SaSb、SaSc、SbSc三種組合形式,根據(jù)這三種組合形式分別計(jì)算Sa和Sb, Sa和 Sc, Sb和Sc的相似度。
[0050] 絕對(duì)同類數(shù)據(jù)對(duì)象集合可以是分屬不同數(shù)據(jù)平臺(tái)的同類數(shù)據(jù)對(duì)象集合進(jìn)一步合 并而成。在絕對(duì)同類數(shù)據(jù)對(duì)象集合中,分別來自不同數(shù)據(jù)平臺(tái)的數(shù)據(jù)對(duì)象也構(gòu)成同類數(shù)據(jù) 對(duì)象。
[0051] 兩個(gè)同類數(shù)據(jù)對(duì)象集合的比較即兩個(gè)同類數(shù)據(jù)對(duì)象集合中的數(shù)據(jù)對(duì)象比較。步驟 S220包括子步驟S221-S223。如圖4所示,圖4是根據(jù)本申請(qǐng)一實(shí)施例的計(jì)算同類數(shù)據(jù)對(duì) 象集合的相似度的方法的流程圖。
[0052] 在步驟S221處,分別挖掘任意兩個(gè)同類數(shù)據(jù)對(duì)象集合中的每一個(gè)同類數(shù)據(jù)對(duì)象 的核心詞,以形成每一個(gè)同類數(shù)據(jù)對(duì)象集合的核心詞詞組。
[0053] 核心詞是最能體現(xiàn)該數(shù)據(jù)對(duì)象的內(nèi)容的一個(gè)關(guān)鍵字。可以基于所述每一個(gè)數(shù)據(jù)對(duì) 象所包含的內(nèi)容和/或數(shù)據(jù)標(biāo)簽,挖掘每一個(gè)數(shù)據(jù)對(duì)象的核心詞。
[0054] 優(yōu)選地,可以先對(duì)數(shù)據(jù)對(duì)象的內(nèi)容(描述數(shù)據(jù)對(duì)象的這些內(nèi)容可以包括標(biāo)題等)和 /或葉子類目(第三數(shù)據(jù)標(biāo)簽)進(jìn)行分詞,進(jìn)而從中抽取出一個(gè)或多個(gè)體現(xiàn)該數(shù)據(jù)對(duì)象的關(guān) 鍵字,再將出現(xiàn)頻次最高的一個(gè)或多個(gè)關(guān)鍵字作為核心詞。例如,某數(shù)據(jù)對(duì)象所屬的葉子類 目為"老年人手機(jī)",該數(shù)據(jù)對(duì)象的標(biāo)題(內(nèi)容)為"諾基亞1050手機(jī),超薄直板正品手機(jī)",那 么可以對(duì)葉子類目"老年人手機(jī)"和"諾基亞1050手機(jī),超薄直板正品手機(jī)"進(jìn)行分詞(如: 老年人、手機(jī)、諾基亞、1050、手機(jī)、超薄、直板、正品、手機(jī)),提取關(guān)鍵字(如:老年人、手機(jī)、 諾基亞、1050、手機(jī)、超薄、直板、正品、手機(jī)),進(jìn)而可以得到該數(shù)據(jù)對(duì)象的核心詞"手機(jī)"。
[0055] 進(jìn)一步地,可以在每一個(gè)同類數(shù)據(jù)對(duì)象集合中獲取每一個(gè)同類數(shù)據(jù)對(duì)象的核心 詞。對(duì)于每一同類數(shù)據(jù)對(duì)象集合,聚合該同類數(shù)據(jù)對(duì)象集合中的每個(gè)數(shù)據(jù)對(duì)象的核心詞,形 成一個(gè)核心詞詞組。該核心詞詞組即為該同類數(shù)據(jù)對(duì)象集合的核心詞詞組。
[0056] 在步驟S232處,根據(jù)每一個(gè)同類數(shù)據(jù)對(duì)象集合的核心詞詞組,計(jì)算兩個(gè)同類數(shù)據(jù) 對(duì)象集合之間的相似度。
[0057] 可以將每個(gè)核心詞詞組作為一個(gè)向量(或稱作詞向量),將核心詞詞組中的每一個(gè) 核心詞作為該向量中的一個(gè)元素。也就是說,一個(gè)向量(詞向量),是一個(gè)同類數(shù)據(jù)對(duì)象集合 中的核心詞所組合成的詞組,可以用符號(hào)V或V表示。從一個(gè)同類數(shù)據(jù)對(duì)象集合中可以對(duì) 應(yīng)的抽取得到一個(gè)核心詞詞組即向量(詞向量)。例如,具有四個(gè)同類數(shù)據(jù)對(duì)象的同類數(shù)據(jù) 對(duì)象集合中,其對(duì)應(yīng)的核心詞分別為:手機(jī)、老人機(jī)、手機(jī)、手機(jī)。上述核心詞組合成詞向量, 即向量V,可以記作(手機(jī),老人機(jī),手機(jī),手機(jī))。也即是說,計(jì)算相關(guān)聯(lián)的多個(gè)同類數(shù)據(jù)對(duì)象 集合之間的相似度可以是計(jì)算相關(guān)聯(lián)的多個(gè)同類數(shù)據(jù)對(duì)象集合對(duì)應(yīng)的多個(gè)向量的相似度。
[0058] 在一個(gè)實(shí)施例中,先可以計(jì)算每一個(gè)核心詞詞組中的每個(gè)核心詞所占的權(quán)重(w)。 其中,權(quán)重w可以是每個(gè)核心詞在核心詞詞組中出現(xiàn)的頻次,每個(gè)核心詞在核心詞詞組中 所占的比例等等。
[0059] 接著,將相關(guān)聯(lián)的多個(gè)同類數(shù)據(jù)對(duì)象集合對(duì)應(yīng)的多個(gè)向量,組合形成一特定核心 詞詞組(或叫做特定向量、特定詞向量)。該組合方式可以是,將所有核心詞,以去重方式取 出來,作為特定核心詞詞組中的元素。以兩個(gè)集合為例,集合Sl的核心詞詞組vl= (a,b, c,a),與集合SI相關(guān)聯(lián)的集合S2的核心詞詞組v2= (a, b,d),所有核心詞a, b,c,d,a, b, d,以去重方式取出,則組合得到的特定核心詞詞組V= (a,b,c,d)。
[0060] 然后,每個(gè)同類數(shù)據(jù)對(duì)象集合的每個(gè)核心詞所占的權(quán)重w代替集合對(duì)應(yīng)的特定核 心詞詞組中的該核心詞,形成相似度計(jì)算過程中權(quán)重w表示的向量,稱為核心詞權(quán)重向量 (簡(jiǎn)稱權(quán)重向量)。承上例,可以是,對(duì)應(yīng)集合Sl的核心詞權(quán)重向量Vl= (2, 1,1,0),對(duì)應(yīng)集 合S2的核心詞權(quán)重向量V2= (1,1,0,1)。
[0061] 進(jìn)一步,可以基于每一個(gè)核心詞詞組(向量、詞向量)中的每個(gè)核心詞所占的權(quán)重, 計(jì)算各個(gè)核心詞權(quán)重向量之間的余弦相似度。將核心詞權(quán)重向量的余弦相似度,作為相關(guān) 聯(lián)的多個(gè)同類數(shù)據(jù)對(duì)象集合之間的相似度。
[0062] 下面將以兩個(gè)相關(guān)聯(lián)的同類數(shù)據(jù)對(duì)象集合SI、S2為例,描述該實(shí)施例。同類數(shù)據(jù) 對(duì)象集合Sl的核心詞詞組Vl=(手機(jī),老人機(jī),手機(jī),手機(jī)),同類數(shù)據(jù)對(duì)象集合S2的核心詞 詞組v2=(充電器、充電設(shè)備、充電器、充電器),可以組成一個(gè)集合Sl和集合S2對(duì)應(yīng)的特定 核心詞詞組V=(手機(jī),老人機(jī),充電器,充電設(shè)備)。然后,可以將核心詞詞組中每個(gè)核心詞 的權(quán)重w,用來替換該特定核心詞詞組中對(duì)應(yīng)的核心詞,若特定核心詞詞組中的某一元素未 曾出現(xiàn)在核心詞詞組vl或v2中,則可以用預(yù)設(shè)的特定權(quán)重值來替換該特定核心詞詞組中 的該元素。通過該方式,可以得到每個(gè)同類數(shù)據(jù)對(duì)象集合對(duì)應(yīng)的核心詞權(quán)重向量。
[0063] 具體地,集合Sl和集合S2對(duì)應(yīng)的特定核心詞詞組V=(手機(jī),老人機(jī),充電器,充電 設(shè)備)。集合Sl的核心詞詞組Vl=(手機(jī),老人機(jī),手機(jī),手機(jī)),按核心詞出現(xiàn)的次數(shù)來計(jì)算 的核心詞權(quán)重w,手機(jī)出現(xiàn)了 3次(權(quán)重w),老人機(jī)出現(xiàn)了 1次,充電器出現(xiàn)0次,充電設(shè)備 出現(xiàn)〇次,那么集合Sl對(duì)應(yīng)的核心詞權(quán)重向量A= (3, 1,0,0)。集合S2的核心詞詞組v2= (充電器、充電設(shè)備、充電器、充電器),按核心詞出現(xiàn)的次數(shù)來計(jì)算的核心詞權(quán)重w,手機(jī)出 現(xiàn)〇次,老人機(jī)出現(xiàn)〇次,充電器出現(xiàn)3次,充電設(shè)備出現(xiàn)1次,則集合S2對(duì)應(yīng)的核心詞權(quán) 重向量 B= (0,0,3, 1)。
[0064] 基于每個(gè)同類數(shù)據(jù)對(duì)象集合對(duì)應(yīng)的核心詞權(quán)重向量,計(jì)算多個(gè)同類數(shù)據(jù)對(duì)象集合 之間的余弦相似度。例如,計(jì)算集合Sl和集合S2的余弦相似度,可以通過計(jì)算兩個(gè)核心詞 權(quán)重向量(A,B)的角的余弦值(cos ( θ ))來衡量這兩個(gè)核心詞權(quán)重向量(同類數(shù)據(jù)對(duì)象集 合)的相似度(similarity)。以下為余弦相似度的計(jì)算公式,其中,Ai, Bi表示核心詞權(quán)重 向量中的元素。
【權(quán)利要求】
1. 一種同類數(shù)據(jù)對(duì)象的匹配方法,其特征在于,包括: 分別獲得多個(gè)同類數(shù)據(jù)對(duì)象集合; 分別挖掘所述同類數(shù)據(jù)對(duì)象集合的每一數(shù)據(jù)對(duì)象的核心詞,獲取各同類數(shù)據(jù)對(duì)象集合 的核心詞詞組; 計(jì)算任意兩個(gè)同類數(shù)據(jù)對(duì)象集合的核心詞詞組的相似度; 當(dāng)所述相似度大于設(shè)定閾值時(shí),將發(fā)生比較的兩個(gè)同類數(shù)據(jù)對(duì)象集合中的數(shù)據(jù)對(duì)象確 定為同類數(shù)據(jù)對(duì)象。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多個(gè)同類數(shù)據(jù)對(duì)象集合分別來自不 同數(shù)據(jù)平臺(tái)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括: 在每一個(gè)所述數(shù)據(jù)平臺(tái),對(duì)多個(gè)數(shù)據(jù)對(duì)象進(jìn)行匹配,以聚合得到一個(gè)或多個(gè)同類數(shù)據(jù) 對(duì)象的集合;其中, 所述同類數(shù)據(jù)對(duì)象集合中包含一個(gè)或多個(gè)具有相同的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽的數(shù)據(jù)對(duì) 象。
4. 根據(jù)權(quán)利要求1-3任一所述的方法,其特征在于,所述分別獲得多個(gè)同類數(shù)據(jù)對(duì)象 集合,還包括: 將來自各個(gè)不同數(shù)據(jù)平臺(tái)的包含相同的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽的多個(gè)同類數(shù)據(jù)對(duì)象集 合進(jìn)行關(guān)聯(lián)。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽包括第一數(shù)據(jù) 標(biāo)簽、第二數(shù)據(jù)標(biāo)簽和/或第三數(shù)據(jù)標(biāo)簽。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述挖掘所述同類數(shù)據(jù)對(duì)象集合的每一 個(gè)數(shù)據(jù)對(duì)象的核心詞,包括: 基于所述每一個(gè)數(shù)據(jù)對(duì)象所包含的內(nèi)容和/或數(shù)據(jù)標(biāo)簽,挖掘所述每一個(gè)數(shù)據(jù)對(duì)象的 核心詞。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算任意兩個(gè)同類數(shù)據(jù)對(duì)象集合的 核心詞詞組的相似度,包括: 計(jì)算每一個(gè)所述核心詞詞組中的每一個(gè)核心詞所占的權(quán)重; 基于所述每一個(gè)所述核心詞詞組中每一個(gè)核心詞所占的權(quán)重,計(jì)算所述多個(gè)相關(guān)聯(lián)的 所述同類數(shù)據(jù)對(duì)象集合之間的余弦相似度。
8. -種同類數(shù)據(jù)對(duì)象的匹配裝置,其特征在于,包括: 獲得模塊,用于分別獲得多個(gè)同類數(shù)據(jù)對(duì)象集合; 挖掘與獲取模塊,用于分別挖掘所述同類數(shù)據(jù)對(duì)象集合的每一數(shù)據(jù)對(duì)象的核心詞,獲 取各同類數(shù)據(jù)對(duì)象集合的核心詞詞組; 計(jì)算模塊,用于計(jì)算任意兩個(gè)同類數(shù)據(jù)對(duì)象集合的核心詞詞組的相似度; 確定模塊,用于當(dāng)所述相似度大于設(shè)定閾值時(shí),將發(fā)生比較的兩個(gè)同類數(shù)據(jù)對(duì)象集合 中數(shù)據(jù)對(duì)象確定為同類數(shù)據(jù)對(duì)象。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述同類數(shù)據(jù)對(duì)象集合分別來自不同數(shù) 據(jù)平臺(tái)。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述獲得模塊,進(jìn)一步包括: 在每一個(gè)所述數(shù)據(jù)平臺(tái),對(duì)多個(gè)數(shù)據(jù)對(duì)象進(jìn)行匹配,以聚合得到一個(gè)或多個(gè)同類數(shù)據(jù) 對(duì)象的集合,其中,所述同類數(shù)據(jù)對(duì)象集合中包含一個(gè)或多個(gè)具有相同的一個(gè)或多個(gè)數(shù)據(jù) 標(biāo)簽的數(shù)據(jù)對(duì)象。
11. 根據(jù)權(quán)利要求8-10任一所述的裝置,其特征在于,所述獲得模塊,進(jìn)一步包括:將 來自各個(gè)不同數(shù)據(jù)平臺(tái)的包含相同的一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽的多個(gè)同類數(shù)據(jù)對(duì)象集合進(jìn)行 關(guān)聯(lián)。
12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述一個(gè)或多個(gè)數(shù)據(jù)標(biāo)簽包括第一數(shù) 據(jù)標(biāo)簽、第二數(shù)據(jù)標(biāo)簽和/或第三數(shù)據(jù)標(biāo)簽。
13. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述挖掘與獲取模塊,進(jìn)一步包括:基于 所述每一個(gè)數(shù)據(jù)對(duì)象所包含的內(nèi)容和/或數(shù)據(jù)標(biāo)簽,挖掘所述每一個(gè)數(shù)據(jù)對(duì)象的核心詞。
14. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述計(jì)算模塊,進(jìn)一步包括: 計(jì)算每一個(gè)所述核心詞詞組中的每一個(gè)核心詞所占的權(quán)重; 基于所述每一個(gè)所述核心詞詞組中每一個(gè)核心詞所占的權(quán)重,計(jì)算所述多個(gè)相關(guān)聯(lián)的 所述同類數(shù)據(jù)對(duì)象集合之間的余弦相似度。
【文檔編號(hào)】G06F17/30GK104424302SQ201310397429
【公開日】2015年3月18日 申請(qǐng)日期:2013年9月4日 優(yōu)先權(quán)日:2013年9月4日
【發(fā)明者】何憲, 隋宜桓 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司