一種構造數據補足值的方法
【專利摘要】本發明公開了一種構造數據補足值的方法,應用于一電子設備中,所述方法包括:所述電子設備獲得用戶-項目行為數據;基于所述用戶-項目行為數據,計算項目鄰居關鍵度;將所述項目的鄰居集劃分為固定最近鄰居集和采樣鄰居集;構造最近鄰采樣聚合;基于所述固定最近鄰居集和所述最近鄰采樣聚合對應的鄰居關鍵度,以及所述用戶-項目行為數據,構造對于缺失所述用戶-項目行為數據的補足值,解決了現有技術中現有基于K近鄰的協同過濾模型存在準確度無法提高的技術問題,實現了在進行缺失行為值的補足時準確度和覆蓋率都有較大提升的技術效果。
【專利說明】一種構造數據補足值的方法
【技術領域】
[0001]本發明涉及信息【技術領域】,尤其涉及一種構造數據補足值的方法。
【背景技術】
[0002]大數據時代,互聯網信息規模呈爆炸性增長,并帶來互聯網信息超載的問題,過量信息同時呈現,使得用戶很難從中篩選出對個人有效的部分,信息利用率反而降低。處理互聯網信息超載問題,就需要采用大數據處理分析技術,對海量的互聯網數據信息進行分析,找出用戶與數據之間的關聯,實現大數據環境中面向用戶的主動信息推送,從而解決信息超載問題。
[0003]基于K近鄰的協同過濾模型是一類經典的大數據處理分析模型,用以處理大數據環境中,在大型網絡應用,如門戶網站、電子商務信息系統、博客等等,中的用戶-項目關聯分析問題。其中項目指用戶可能使用的任何互聯網信息資源,如新聞、日志、商品、電影等等。該模型的處理對象是用戶-項目行為矩陣。在用戶-行為項目矩陣中,每一行對應于一個用戶,每一列對應于一個項目,每一個矩陣元素則是根據其對應用戶在其對應項目上的自然歷史行為,如點擊、瀏覽、購買、評論等,進行量化得出。
[0004]通常情況下,由于互聯網信息的海量特征,在一個大型網絡應用中,一個用戶不可能使用所有的項目,而只可能使用項目全集的一個很小的子集;一個項目也不可能被所有的用戶使用,其對應的用戶集合只可能是用戶全集的一個很小的子集。換而言之,用戶-項目行為矩陣往往是極端稀疏的,其中包含有大量的缺失值。從另一方面出發,如果能夠通過數學模型,對缺失的用戶-項目行為數據進行適當的補足,則能夠為用戶提供對未使用項目的可靠關聯,從而達到大數據環境中面向用戶的主動信息推送的應用目的。這也是基于K近鄰的協同過濾模型的基本工作思想。
[0005]基于K近鄰的協同過濾模型,其工作流程是首先分析用戶或項目間的近鄰關系,然后結合相似度較高的用戶或項目的已知行為,對其最近鄰的缺失行為數據進行補足,最終達到信息推送的目的。基于K近鄰的協同過濾模型具備很高的準確度和良好的可解釋性,因而得到廣泛應用。
[0006]但本申請發明人在實現本申請實施例中發明技術方案的過程中,發現上述技術至少存在如下技術問題:
在現有技術中,由于現有基于K近鄰的協同過濾模型中的近鄰居集來源單一,所以現有基于K近鄰的協同過濾模型存在準確度無法提高的技術問題。
【發明內容】
[0007]本申請實施例通過提供一種構造數據補足值的方法,解決了現有技術中現有基于K近鄰的協同過濾模型存在準確度無法提高的技術問題,實現了在進行缺失行為值的補足時準確度和覆蓋率都有較大提升的技術效果。
[0008]為解決上述技術問題,本申請實施例提供了一種構造數據補足值的方法,應用于一電子設備中,所述方法包括:
所述電子設備獲得用戶-項目行為數據;
基于所述用戶-項目行為數據,計算項目鄰居關鍵度;
將所述項目的鄰居集劃分為固定最近鄰居集和采樣鄰居集;
構造最近鄰采樣聚合;
基于所述固定最近鄰居集和所述最近鄰采樣聚合對應的鄰居關鍵度,以及所述用戶-項目行為數據,構造對于缺失所述用戶-項目行為數據的補足值。
[0009]其中,所述鄰居關鍵度具體包括兩部分,第一部分為:當前項目和鄰居項目的行為相似度,第二部分為:當前項目和鄰居項目的行為重疊度。
[0010]其中,所述構造最近鄰采樣聚合具體包括:
首先基于所述鄰居關鍵度和最近鄰規模閾值,將每個項目的鄰居進行排序;
然后計算所述固定最近鄰居集和所述采樣鄰居集的規模;
最后基于項目最近鄰采樣聚合規模閾值,利用帶重置的樣本拒絕采樣技術,構造最近鄰米樣聚合。
[0011]其中,所述基于所述固定最近鄰居集和所述最近鄰采樣聚合對應的鄰居關鍵度,以及所述用戶-項目行為數據,構造對于缺失所述用戶-項目行為數據的補足值具體依據如下公式(I)實施。
【權利要求】
1.一種構造數據補足值的方法,應用于一電子設備中,其特征在于,所述方法包括: 所述電子設備獲得用戶-項目行為數據; 基于所述用戶-項目行為數據,計算項目鄰居關鍵度; 將所述項目的鄰居集劃分為固定最近鄰居集和采樣鄰居集; 構造最近鄰采樣聚合; 基于所述固定最近鄰居集和所述最近鄰采樣聚合對應的鄰居關鍵度,以及所述用戶-項目行為數據,構造對于缺失所述用戶-項目行為數據的補足值。
2.如權利要求1所述的方法,其特征在于,所述鄰居關鍵度具體包括兩部分,第一部分為:當前項目和鄰居項目的行為相似度,第二部分為:當前項目和鄰居項目的行為重疊度。
3.如權利要求1所述的方法,其特征在于,所述構造最近鄰采樣聚合具體包括: 基于所述鄰居關鍵度和最近鄰規模閾值,將每個項目的鄰居進行排序; 計算所述固定最近鄰居集和所述采樣鄰居集的規模; 基于項目最近鄰采樣聚合規模閾值,利用帶重置的樣本拒絕采樣技術,構造最近鄰采樣聚合。
4.如權利要求1所述的方法,其特征在于,所述基于所述固定最近鄰居集和所述最近鄰采樣聚合對應的鄰居關鍵度,以及所述用戶-項目行為數據,構造對于缺失所述用戶-項目行為數據的補足值具體依據如下公式實施:.
【文檔編號】G06F19/00GK103778329SQ201410013757
【公開日】2014年5月7日 申請日期:2014年1月13日 優先權日:2014年1月13日
【發明者】陳鵬, 吳磊, 羅辛, 夏云霓 申請人:成都國科海博信息技術股份有限公司, 重慶大學