專利名稱:一種基于標簽遷移學習的推薦方法
技術領域:
本發明屬于WEB應用技術領域,涉及遷移學習及網絡標簽技術,為一種基于標簽遷移學習的推薦方法。
背景技術:
隨著互聯網的不斷發展,互聯網的信息快速膨脹,個性化推薦技術越來越重要。個性化推薦技術能夠幫助用戶在海量信息中快速找到自己需要的信息。個性化推薦技術根據對用戶特征以及用戶歷史行為的分析發現客戶的真正興趣,對每個特定用戶都進行專門的推薦,使得推薦的產品或服務最大程度上符合客戶的需要。遷移學習,它的目標是將從一個環境中學到的知識用來幫助新環境中的學習任務。我們看到web應用領域的發展非常快速。大量新的領域不斷涌現,而傳統的個性化推薦技術在實際應用中需要對每個領域都標定大量的訓練數據,但是在現實中,很多新出現的領域中的大量訓練數據非常難得到,但是如果我們有了大量的,但是處于不同分布下的訓練數據,我們期望能夠合理的利用這些數據來進行個性化推薦,遷移學習研究的主要問題就是如何合理的利用這些數據。標簽,在人類認識世界的過程中,為了記憶和查找的便利,常常要對所認識的對象進行標簽。近年來,隨著一種以用戶為中心的網絡概念的發展,網絡用戶在不斷創造信息的同時,也需要按照自己的需求,以不同的方式有效地組織各類信息,于是,不受傳統信息組織規范約束,完全出于個人喜好的標簽方式,逐漸成為人們推崇的數字信息組織的主要方法。在傳統的結合評分數據和標簽數據的個性化推薦方法中,根據用戶對產品的評分數據和產品被標記的標簽數據計算生成用戶對標簽的評分數據,然后采用基于用戶的協同過濾思想來根據用戶對標簽的評分數據計算用戶間的相似度。在計算用戶對標簽的評分數據時,為了解決數據稀疏問題,有人提出了先計算標簽的共同發生概率分布,然后再計算用戶對標簽的評分,計算標簽z的共同發生概率分布計算的公式如等式(I)所示Pz (t) =Eme jq (t I m) Q (m I z) (I)
標簽〖被用于產品m的次數 ^所有標簽被用于產品W的次數的和
標簽z被用于產品m的次數(3)
' Z) _標簽z被用于所有產品的次數的和但是如果是一個新出現的領域,標簽數據比較稀疏,在計算q(t|m)和Q(m|z)時, 分子會出現很多零值,那么標簽z的共現概率分布按照(I)中的公式計算就可能不精確,從而導致用戶之間的相似度計算不準確,最終導致個性化推薦的結果不準確。結合用戶的評分數據和標簽數據進行推薦的個性化推薦方法要求有比較豐富的標簽數據,而實際上,對一個新的領域進行標簽是一個很耗費人力和物力的活動。
發明內容
本發明所要解決的技術問題是現有的結合用戶的評分數據和標簽數據進行協同過濾推薦的個性化推薦方法在標簽數據稀少的情況下,計算得到的用戶相似度可能不精確,從而影響推薦的效果。本發明的技術方案為一種基于標簽遷移學習的推薦方法,從標簽數據豐富的源數據集學習知識遷移到標簽數據不足的目標數據集,用于標簽數據不足的網站對用戶進行個性化推薦,遷移的知識是標簽之間的關系,具體表現形式是標簽聚類后形成的主題 topic,包括以下步驟I)分別在源數據集和目標數據集預先對標簽數據進行清洗,對源數據集的標簽進行聚類,得到標簽的topic集合;2)遷移標簽的topic集合到目標數據集遷移標簽的topic集合的目標是將目標數據集上的每一個標簽都放到一個與該標簽距離最小的topic中,如果從源數據集上遷移過來的所有topic與該標簽的距離都比較遠,則該標簽將形成一個新的topic,具體步驟如下遍歷目標數據集上的所有標簽,對每一個標簽2. I)如果該標簽也存在于源數據集上,則它本來就存在于遷移過來的某一個 topic 中;2. 2)如果該標簽在源數據集上不存在,則在目標數據集上計算它和每一個topic 的距離,并設定劃分閾值A :如果最近的距離不大于劃分閾值,把這個標簽放在距離最近的topic中;B :如果最近的距離大于劃分閾值,把這個標簽作為一個新的topic ;3)在目標數據集上進行推薦,根據步驟2)中得到的topic集合,同時結合用戶評分數據,計算得到用戶對標簽topic的評分,根據用戶對標簽topic的評分采用基于用戶的協同過濾技術完成推薦。步驟I)具體為I. I)分別在源數據集和目標數據集預先對標簽數據進行清洗,包括篩選和去除兩種方法一、選擇被兩個以上用戶使用過,并被用于5個以上產品的標簽;二、設定刪除關鍵詞,去除含有所設定關鍵詞的標簽;I. 2)對源數據集中的標簽通過層次聚類,得到標簽的topic集合,計算標簽的共現概率分布,再用延森-香農分歧JSD來計算標簽之間的距離,根據JSD距離,對源數據集上面的標簽進行聚類。步驟I. 2)具體為I. 2. I)對源數據集中的標簽的共現概率分布進行計算,得到標簽的相關度矩陣,
標簽 z 的共現概率分布為(PzU1),pz (t2), pz (t3),....., Pz (ti),.......Pz(tn)),其中,n 表
示數據集中標簽的總數,ti表示數據集中的第i個標簽,pz (t^表示標簽z和標簽&的共現概率;標簽z和數據集中任意一個標簽t的共現概率的計算公式如式(I):
權利要求
1.一種基于標簽遷移學習的推薦方法,其特征是從標簽數據豐富的源數據集學習知識遷移到標簽數據不足的目標數據集,用于標簽數據不足的網站對用戶進行個性化推薦, 遷移的知識是標簽之間的關系,具體表現形式是標簽聚類后形成的主題topic,包括以下步驟1)分別在源數據集和目標數據集預先對標簽數據進行清洗,對源數據集的標簽進行聚類,得到標簽的topic集合;2)遷移標簽的topic集合到目標數據集遷移標簽的topic集合的目標是將目標數據集上的每一個標簽都放到一個與該標簽距離最小的topic中,如果從源數據集上遷移過來的所有topic與該標簽的距離都比較遠,則該標簽將形成一個新的topic,具體步驟如下遍歷目標數據集上的所有標簽,對每一個標簽2.I)如果該標簽也存在于源數據集上,則它本來就存在于遷移過來的某一個topic中;2.2)如果該標簽在源數據集上不存在,則在目標數據集上計算它和每一個topic的距離,并設定劃分閾值A :如果最近的距離不大于劃分閾值,把這個標簽放在距離最近的topic中;B :如果最近的距離大于劃分閾值,把這個標簽作為一個新的topic ;3)在目標數據集上進行推薦,根據步驟2)中得到的topic集合,同時結合用戶評分數據,計算得到用戶對標簽topic的評分,根據用戶對標簽topic的評分采用基于用戶的協同過濾技術完成推薦。
2.根據權利要求I所述的一種基于標簽遷移學習的推薦方法,其特征是步驟I)具體為I. D分別在源數據集和目標數據集預先對標簽數據進行清洗,包括篩選和去除兩種方法一、選擇被兩個以上用戶使用過,并被用于5個以上產品的標簽;二、設定刪除關鍵詞, 去除含有所設定關鍵詞的標簽;I. 2)對源數據集中的標簽通過層次聚類,得到標簽的topic集合,計算標簽的共現概率分布,再用延森-香農分歧JSD來計算標簽之間的距離,根據JSD距離,對源數據集上面的標簽進行聚類。
3.根據權利要求2所述的一種基于標簽遷移學習的推薦方法,其特征是步驟I.2)具體為、1.2.I)對源數據集中的標簽的共現概率分布進行計算,得到標簽的相關度矩陣,標簽Z 的共現概率分布為(PzU1), Pz (t2), Pz (t3),.....,Pz (ti),.......Pz(tn)),其中,η 表示數據集中標簽的總數,ti表示數據集中的第i個標簽,pzUi)表示標簽z和標簽&的共現概率;標簽z和數據集中任意一個標簽t的共現概率的計算公式如式(I)
4.根據權利要求I所述的一種基于標簽遷移學習的推薦方法,其特征是步驟3)包括以下具體步驟、3.I)在目標數據集上計算每個用戶對每一個topic的評分,每個產品item對應有標簽,根據用戶對item的評分和item與topic之間的關系來計算用戶對topic的評分 用戶u對一個topic的評分的計算如式(6)
全文摘要
一種基于標簽遷移學習的推薦方法,利用遷移技術解決標簽數據稀疏的問題,遷移的知識是標簽之間的關系,利用已有標簽信息密集的數據集,聚類得到標簽的topic,通過遷移學習的方式將標簽的topic遷移到其他相關的但是標簽信息相對稀疏的數據集上,然后根據遷移來的標簽topic結合評分數據計算得到用戶的相似度,最后利用協同過濾技術完成推薦。本發明提供的方法通過引入另外一個相似的但數據密集的領域的標簽信息,來計算新領域的標簽topic,從而提高計算用戶相似性的準確性,進而達到更好的推薦效果。
文檔編號G06F17/30GK102591915SQ20111041966
公開日2012年7月18日 申請日期2011年12月15日 優先權日2011年12月15日
發明者劉嘉, 王維清, 祁奇, 趙志宏, 陳振宇 申請人:南京大學