專利名稱:基于電阻網絡和稀疏數據預測的協同過濾方法
技術領域:
本發明涉及一種基于電阻網絡和稀疏數據預測的協同過濾方法,是個性化推薦技術中一個非常重要的研究方向,在數字圖書館,電子商務及社會網絡等領域有著廣泛的應用。
背景技術:
協同過濾基于這樣的基本假設當前用戶會喜歡那些和他相似的用戶喜歡的東西。對協同過濾的研究是從基于記憶的方法開始的。協同過濾技術的基本思想是通過比較用戶過去的興趣和行為的相似程度,找出和目標用戶具有相同或相似興趣的用戶組,再根據他們對資源的評價來預測目標用戶的興趣,達到向目標用戶推薦數字資源的目的。協同過濾的本質是根據用戶對信息的評價得到用戶的興趣,判斷相似用戶,從而向用戶推薦新信息。在這一過程中,系統作了兩次推斷從用戶對一些信息的評價推斷出用戶的興趣;從用戶的興趣推斷出相似用戶群。已有的協同過濾系統在這兩次推斷中所用的信息通常為用戶對一些信息條目的顯式評價。
這種方法利用整個用戶-物品矩陣來生成基于用戶或物品相似度的預測。有兩種基于記憶的方法基于用戶的協同過濾和基于物品的協同過濾。基于用戶的方法首先尋找那些與當前用戶有著相似評分風格的用戶,這些用戶被稱為相似用戶,然后根據相似用戶已有的評分信息來為當前用戶進行評分預測。基于物品的方法在想法上與基于用戶的方法是一致的。唯一不同的是基于用戶的方法是為當前用戶尋找相似的用戶,而基于物品的方法卻是為當前物品尋找相似的物品。無論是基于用戶還是基于物品的方法,對相似度的計算都是該算法中的關鍵步驟。著名的相似度算法包括Pearson Correlation Coefficient(PCC)和Vector Space Similarity(VSS)算法。
與傳統文本過濾相比,協同過濾有下列優點 1)能夠過濾難以進行機器自動內容分析(Content based)的信息,像藝術品、音樂。
2)共享其他人的經驗,避免了內容分析的不完全和不精確,并且能夠基于一些復雜的,難以表述的概念(如信息質量、品味)進行過濾。
3)可以有效的使用其他相似用戶的反饋信息,減少用戶的反饋量,加快個性化學習的速度。
4)具有推薦新信息的能力。
協同過濾還有很大的不足,這是由協同過濾的本質決定要獲得滿意的效果,必須得到準確的用戶信息,一般而言,這需要建立在擁有大量的用戶信息數據的基礎上,所以很難做到。這使得協同過濾技術應用領域較為狹窄(幾乎都集中在娛樂方面音樂、電影......),在更廣的領域(如在基于內容過濾相當成功的文本相關性領域)的應用還很不夠。
解決的途徑不外乎兩條 1)發展信息獲取技術利用各種途徑,合理有效的獲得、使用更多的用戶信息。
2)發展信息挖掘技術在有限的原始數據中最大程度的找出有用的信息。
雖然基于記憶的協同過濾算法已經被廣泛應用在推薦系統中,但是無論是基于用戶的還是基于物品的方法,推薦結果的不準確問題依然存在。基于記憶的協同算法會存在這樣的問題,根源在于用戶-物品矩陣的稀疏性。最近已經提出了很多算法來減輕數據的稀疏性問題。在相似度計算方面,基于PCC的算法雖然被普遍應用,但它還是不能充分利用用戶-物品矩陣中的信息,而且該算法需要有相似的用戶或物品,在這兩者都缺失的情況下就不起作用了。
發明內容
本發明的目的在于針對現有技術存在的不足,提供一種基于電阻網絡和系數數據預測的協同過濾方法,能夠提高個性化推薦的質量,達到理想的實用效果。
基于電阻網絡和稀疏數據預測的協同過濾方法包括如下步驟 1)通過電阻網絡計算用戶之間或物品之間的相似度; 2)根據預先設定的標準提取相似用戶或物品的集合; 3)對評分矩陣中的稀疏數據進行有選擇性地預測; 4)根據實際應用的需要進行評分預測。
所述通過電阻網絡計算用戶之間或物品之間的相似度步驟由評分矩陣得到評分圖,相似度的計算對應于評分圖中的相應節點的電阻距離計算,抽取相應節點的評分子圖,使用電導來衡量節點之間的相似度,在兩個節點上加上一個單位電壓后,這個網絡中的電流就等價于總的電導值,設xa=0,xb=1,對于每個節點V,以及它的相鄰節點V1~Vk,流入節點V的總電流為0,根據這一點得到以下一組方程 方程組解得評分子圖中每個節點的電勢,從節點A流向節點B的電流值也就是與節點A相鄰的各條邊上的電流值的總和,用數學公式可以表示如下 最后電阻距離表示為
所述根據預先設定的標準提取相似用戶或物品的集合步驟引入閾值η和θ,如果某個用戶與當前用戶之間的相似度大于η,那么這個用戶是當前用戶的相似用戶,如果某個物品與當前物品之間的相似度大于θ,那么這個物品是當前物品的相似物品,對于每一個缺失的評分信息r(u,i),選取用戶u為目標用戶,生成一個相似用戶的集合 S(u)={ua|Sim(ua,u)>η,ua≠u} 同樣的,選取物品i為目標物品,生成一個相似物品的集合 S(i)={ik|Sim(ik,i)>θ,ik≠i} 所述對評分矩陣中的稀疏數據進行有選擇性地預測步驟利用來自用戶和物品的信息,并且在處理用戶-物品矩陣中的稀疏數據的問題上是有選擇性地進行預測,預測的方法為給定一個評分矩陣中的稀疏信息P(u,i),如果
那么這個稀疏信息P(u,i)的計算如下 如果
如果
如果
P(u,i)=0 λ為線性擬和系數,值域為
,u為目標用戶,i為目標物品,用戶ua屬于相似用戶集合S(u),物品ik屬于相似物品集合S(i),u為用戶u的平均值,i為物品i的平均值,ua為用戶ua的平均值,ik為物品ik的平均值,Sim(ua,u)表示用戶ua和u的相似度,Sim(ik,i)表示物品ik和i的相似度,r(ua,i)表示用戶ua對物品i的評分值,r(u,ik)表示用戶u對物品ik的評分值 所述根據實際應用的需要進行評分預測步驟在稀疏數據預測完成之后,評分矩陣得到了擴展,給定一個需要預測的評分信息P(a,i),生成相似用戶集合S(a)與相似物品集合S(i),如果
那么P(a,i)的計算如下 如果
如果
如果
P(a,i)=λ×ra+(1-λ)×ri λ為線性擬和系數,值域為
,a為目標用戶,i為目標物品,用戶ua屬于相似用戶集合S(a),物品ik屬于相似物品集合S(i),a為用戶a的平均值,i為物品i的平均值,ua為用戶ua的平均值,ik為物品ik的平均值,Sim(ua,a)表示用戶ua和u的相似度,Sim(ik,i)表示物品ik和i的相似度,r(ua,i)表示用戶ua對物品i的評分值,r(a,ik)表示用戶a對物品ik的評分值。
本發明與現有技術相比具有的有益效果 1)采用了一種新穎的基于電阻網絡模型的相似度計算方法,更多的利用了評分矩陣中的有益信息; 2)給出相似鄰居的判斷標準,抽取有益的信息; 3)給出一種有效的稀疏數據預測算法集成使用物品間相似度與用戶間相似度,有選擇性地預測有益的缺失評分,減輕了數據稀疏性的負面影響,在擴大后的評分集合基礎上預測最終的用戶評分,提高了預測的準確性。
圖1為本發明的評分矩陣和相應的評分圖; 圖2為本發明的評分子圖; 圖3為本發明的計算AB兩點的電阻距離的實例; 圖4為本發明的稀疏數據預測前后的評分矩陣。
具體實施方法 基于電阻網絡和稀疏數據預測的協同過濾方法包括如下步驟 1)通過電阻網絡計算用戶之間或物品之間的相似度; 2)根據預先設定的標準提取相似用戶或物品的集合; 3)對評分矩陣中的稀疏數據進行有選擇性地預測; 4)根據實際應用的需要進行評分預測。
所述通過電阻網絡計算用戶之間或物品之間的相似度步驟如圖1所示,由評分矩陣得到評分圖,相似度的計算對應于評分圖中的相應節點的電阻距離計算,在具體的計算時抽取相應節點的評分子圖(如圖2)。所抽取的評分子圖有如下性質 a)一條有若干條邊組成的路徑(類似電阻的串聯)必須對應較低的相似度值。
b)并行的路徑的相似度值是各條路徑值的總和。
使用電導來衡量節點之間的相似度,在兩個節點上加上一個單位電壓后,這個網絡中的電流就等價于總的電導值,設xa=0,xb=1(如圖3),對于每個節點V,以及它的相鄰節點V1~Vk,流入節點V的總電流為0,根據這一點得到以下一組方程 方程組解得評分子圖中每個節點的電勢,從節點A流向節點B的電流值也就是與節點A相鄰的各條邊上的電流值的總和,用數學公式可以表示如下 最后電阻距離表示為
下面根據圖3舉例說明 需要就是那A,B兩點的相似度,也就是這兩點的等價電導值,首先計算個點的電勢,根據流入各節點的總電流為0,得到如下一組方程 xA=0 xB=1 2·xC=xA+xD 3·xD=xA+xB+xC 解得 所述根據預先設定的標準提取相似用戶或物品的集合步驟引入閾值η和θ,如果某個用戶與當前用戶之間的相似度大于η,那么這個用戶是當前用戶的相似用戶,如果某個物品與當前物品之間的相似度大于θ,那么這個物品是當前物品的相似物品,對于每一個缺失的評分信息r(u,i),選取用戶u為目標用戶,生成一個相似用戶的集合 S(u)={ua|Sim(ua,u)>η,ua≠u} 同樣的,選取物品i為目標物品,生成一個相似物品的集合 S(i)={ik|Sim(ik,i)>θ,ik≠i} 所述對評分矩陣中的稀疏數據進行有選擇性地預測步驟利用來自用戶和物品的信息,并且在處理用戶-物品矩陣中的稀疏數據的問題上是有選擇性地進行預測,預測的方法為給定一個評分矩陣中的稀疏信息P(u,i),如果
那么這個稀疏信息P(u,i)的計算如下 如果
如果
如果
P(u,i)=0 λ為線性擬和系數,值域為
,u為目標用戶,i為目標物品,用戶ua屬于相似用戶集合S(u),物品ik屬于相似物品集合S(i),u為用戶u的平均值,i為物品i的平均值,ua為用戶ua的平均值,ik為物品ik的平均值,Sim(ua,u)表示用戶ua和u的相似度,Sim(ik,i)表示物品ik和i的相似度,r(ua,i)表示用戶ua對物品i的評分值,r(u,ik)表示用戶u對物品ik的評分值 所述根據實際應用的需要進行評分預測步驟在稀疏數據預測完成之后,評分矩陣得到了擴展,給定一個需要預測的評分信息P(a,i),生成相似用戶集合S(a)與相似物品集合S(i),如果
那么P(a,i)的計算如下 如果
如果
如果
P(a,i)=λ×ra+(1-λ)×ri λ為線性擬和系數,值域為
,a為目標用戶,i為目標物品,用戶ua屬于相似用戶集合S(a),物品ik屬于相似物品集合S(i),a為用戶a的平均值,i為物品i的平均值,ua為用戶ua的平均值,ik為物品ik的平均值,Sim(ua,a)表示用戶ua和u的相似度,Sim(ik,i)表示物品ik和i的相似度,r(ua,i)表示用戶ua對物品i的評分值,r(a,ik)表示用戶a對物品ik的評分值。
權利要求
1.一種基于電阻網絡和稀疏數據預測的協同過濾方法,其特征在于包括如下步驟
1)通過電阻網絡計算用戶之間或物品之間的相似度;
2)根據預先設定的標準提取相似用戶或物品的集合;
3)對評分矩陣中的稀疏數據進行有選擇性地預測;
4)根據實際應用的需要進行評分預測。
2.根據權利要求1所述的一種基于電阻網絡和稀疏數據預測的協同過濾方法,其特征在于所述通過電阻網絡計算用戶之間或物品之間的相似度步驟由評分矩陣得到評分圖,相似度的計算對應于評分圖中的相應節點的電阻距離計算,抽取相應節點的評分子圖,使用電導來衡量節點之間的相似度,在兩個節點上加上一個單位電壓后,這個網絡中的電流就等價于總的電導值,設xa=0,xb=1,對于每個節點V,以及它的相鄰節點V1~Vk,流入節點V的總電流為0,根據這一點得到以下一組方程
方程組解得評分子圖中每個節點的電勢,從節點A流向節點B的電流值也就是與節點A相鄰的各條邊上的電流值的總和,用數學公式可以表示如下
最后電阻距離表示為
3.根據權利要求1所述的一種基于電阻網絡和稀疏數據預測的協同過濾方法,其特征在于所述根據預先設定的標準提取相似用戶或物品的集合步驟引入閾值η和θ,如果某個用戶與當前用戶之間的相似度大于η,那么這個用戶是當前用戶的相似用戶,如果某個物品與當前物品之間的相似度大于θ,那么這個物品是當前物品的相似物品,對于每一個缺失的評分信息r(u,i),選取用戶u為目標用戶,生成一個相似用戶的集合
S(u)={ua|Sim(ua,u)>η,ua≠u}
同樣的,選取物品i為目標物品,生成一個相似物品的集合
S(i)={ik|Sim(ik,i)>θ,ik≠i}。
4.根據權利要求1所述的一種基于電阻網絡和稀疏數據預測的協同過濾方法,其特征在于所述對評分矩陣中的稀疏數據進行有選擇性地預測步驟利用來自用戶和物品的信息,并且在處理用戶-物品矩陣中的稀疏數據的問題上是有選擇性地進行預測,預測的方法為給定一個評分矩陣中的稀疏信息P(u,i),如果
那么這個稀疏信息P(u,i)的計算如下
如果
如果
如果
P(u,i)=0
λ為線性擬和系數,值域為
,u為目標用戶,i為目標物品,用戶ua屬于相似用戶集合S(u),物品ik屬于相似物品集合S(i),u為用戶u的平均值,i為物品i的平均值,ua為用戶ua的平均值,ik為物品ik的平均值,Sim(ua,u)表示用戶ua和u的相似度,Sim(ik,i)表示物品ik和i的相似度,r(ua,i)表示用戶ua對物品i的評分值,r(u,ik)表示用戶u對物品ik的評分值。
5.根據權利要求1所述的一種基于電阻網絡和稀疏數據預測的協同過濾方法,其特征在于所述根據實際應用的需要進行評分預測步驟在稀疏數據預測完成之后,評分矩陣得到了擴展,給定一個需要預測的評分信息P(a,i),生成相似用戶集合S(a)與相似物品集合S(i),如果
那么P(a,i)的計算如下
如果
如果
如果
P(a,i)=λ×ra+(1-λ)×ri
λ為線性擬和系數,值域為
,a為目標用戶,i為目標物品,用戶ua屬于相似用戶集合S(a),物品ik屬于相似物品集合S(i),a為用戶a的平均值,i為物品i的平均值,ua為用戶ua的平均值,ik為物品ik的平均值,Sim(ua,a)表示用戶ua和u的相似度,Sim(ik,i)表示物品ik和i的相似度,r(ua,i)表示用戶ua對物品i的評分值,r(a,ik)表示用戶a對物品ik的評分值。
全文摘要
本發明公開了一種基于電阻網絡和稀疏數據預測的協同過濾方法。包括如下步驟1)通過電阻網絡計算用戶之間或物品之間的相似度;2)根據預先設定的標準提取相似用戶或物品的集合;3)對評分矩陣中的稀疏數據進行有選擇性地預測;4)根據實際應用的需要進行評分預測。本發明采用了一種新穎的基于電阻網絡模型的相似度計算方法,更多的利用了評分矩陣中的有益信息。給出相似鄰居的判斷標準,抽取有益的信息。給出一種有效的稀疏數據預測算法集成使用物品間相似度與用戶間相似度,有選擇性地預測有益的缺失評分,減輕了數據稀疏性的負面影響,在擴大后的評分集合基礎上預測最終的用戶評分,提高了預測的準確性。
文檔編號G06Q30/00GK101320461SQ20081006274
公開日2008年12月10日 申請日期2008年7月1日 優先權日2008年7月1日
發明者莊越挺, 吳江琴, 騁 馬, 寅 張 申請人:浙江大學