一種基于聚類的增量數字圖書推薦方法
【專利摘要】本發明公開了一種基于聚類的增量數字圖書推薦方法。它包括以下步驟:(1)從用戶的網站訪問日志獲取用戶閱讀書籍的信息,然后生成用戶表示向量;(2)使用維度數組來選擇需要計算的簇集,然后計算用戶與簇集之間的余弦相似度形成候選集;(3)從候選集中找出與目標用戶相似度最高的簇,然后根據合并結果進行聚類,并增量式地更新簇心、簇直徑;(4)使用簇心值作為排序函數將簇內項目進行排序,將排序高的項目作為推薦結果。本發明可以通過從用戶的圖書訪問日志挖掘用戶對書籍的喜好信息,然后為用戶進行推薦,提高了推薦方法的擴展性和實時性,增強了數字圖書資源利用率和用戶的閱讀體驗。
【專利說明】一種基于聚類的增量數字圖書推薦方法
【技術領域】
[0001]本發明涉及推薦系統、增量式學習和數字圖書館等領域,尤其涉及一種基于聚類的增量數字圖書推薦方法。
【背景技術】
[0002]數字圖書館中擁有海量的數字圖書資源,如何讓讀者對這些豐富而寶貴的數字圖書資源進行利用并能有更好的使用體驗就顯得非常的重要。傳統的基于檢索的信息獲取技術已經不能完全滿足人們的需求,個性化推薦正逐漸成為數字圖書館不可或缺的部分。
[0003]傳統的推薦方法十分有效且易于解釋,但是由于在推薦過程中需要將載入并查看整個數據集,這十分消耗存儲空間和運算時間。隨著數據規模的增大,這種做法變得低效且十分受限于可用資源。數字圖書館資源和用戶的增多對其推薦系統的擴展性和實時性提出了更高的要求。
[0004]增量式學習有時也被稱為在線學習。增量式學習通常指在線學習模型的過程,而這個模型通常也可以被批量式學習方法所學習。當學習模型的數據規模過大或者不是一次性都能夠獲得,而是像數據流一樣隨著時間的推移逐漸獲得,且根據已獲得數據學習的模型需要及時投入使用時,增量式學習是十分有用的,它可以使用新到的數據在原先模型基礎上直接更新,無疑會大大提高學習方法的效率。
【發明內容】
[0005]本發明的目的是克服了數字圖書館中傳統圖書推薦效率不高、實時性較差的缺點,提供一種高質量、新穎的基于聚類的增量數字圖書推薦方法。
[0006]一種基于聚類的增量數字圖書推薦方法包括以下步驟:
(O從用戶的網站訪問日志獲取用戶閱讀書籍的信息,然后生成用戶表示向量;
(2)使用維度數組來選擇需要計算的簇集,然后根據用戶表示向量使用余弦相似度計算用戶與簇集之間的相似度形成候選集;
(3)從候選集中找出與目標用戶相似度最高的簇,然后根據合并結果進行聚類,并增量式地更新簇心、簇直徑;
(4)根據聚類結果,使用簇心值作為排序函數將簇內鏈接的項目進行排序,將排序高的項目作為推薦結果提供給用戶;
所述的步驟I)包括:從用戶的網站訪問日志獲取用戶閱讀書籍的信息,然后生成用戶表示向量;用二值的向量來描述用戶,假設有一個給定的用戶集合
【權利要求】
1.一種基于聚類的增量數字圖書推薦方法,其特征在于,它包括以下步驟: (1)從用戶的網站訪問日志獲取用戶閱讀書籍的信息,然后生成用戶表示向量; (2)使用維度數組來選擇需要計算的簇集,然后根據用戶表示向量使用余弦相似度計算用戶與簇集之間的相似度形成候選集; (3)從候選集中找出與目標用戶相似度最高的簇,然后根據合并結果進行聚類,并增量式地更新簇心、簇直徑; (4)根據聚類結果,使用簇心值作為排序函數將簇內鏈接的項目進行排序,將排序高的項目作為推薦結果提供給用戶。
2.根據權利I所述的一種基于聚類的增量數字圖書推薦方法,其特征在于:所述的步驟I)包括:從用戶的網站訪問日志獲取用戶閱讀書籍的信息,然后生成用戶表示向量;用二值的向量來描述用戶,假設有一個給定的用戶集合U =…,Um],以及一個項目集合/ =…,in),把每個用戶W7表示成一個η維向量,向量的每一維對應于一個項目,一個用戶U1 B的特征向量的第j維是:
3.根據權利I所述的一種基于聚類的增量數字圖書推薦方法,其特征在于:所述的步驟2)包括:使用維度數組來選擇需要計算的簇集,然后根據用戶表示向量使用余弦相似度計算用戶與簇集之間的相似度形成候選集;利用維度數組在已生成的簇中尋找與用戶"最相似的簇G首先將候選集置空,然后對于當前用戶表示的每一個非零項所指向的維度數組鏈接到的簇并入候選集C-Set ;聚類時,每一個簇有一個中心,簇心是該簇類所有用戶表示向量的平均值,可以如下增量式地計算:
4.根據權利I所述的一種基于聚類的增量數字圖書推薦方法,其特征在于:所述的步驟3)包括:從候選集中找出與目標用戶相似度最高的簇,然后根據合并結果進行聚類,并增量式地更新簇心、簇直徑;使用簇直徑公式來評估簇的緊密程度,其增量式的計算公式如下:
5.根據權利I所述的一種基于聚類的增量數字圖書推薦方法,其特征在于:所述的步驟4)包括:根據聚類結果,使用簇心值作為排序函數將簇內鏈接的項目進行排序,將排序高的項目作為推薦結果提供給用戶;推薦結果是根據用戶所屬的簇來產生的;每一個簇有一些用戶,且維度數組的一些項鏈接到該簇,簇心代表了該簇中用戶的興趣,簇心表示向量的第j維代表簇中有多少成 員評過了項目j。
【文檔編號】G06F17/30GK103886048SQ201410090123
【公開日】2014年6月25日 申請日期:2014年3月13日 優先權日:2014年3月13日
【發明者】張寅 , 王宇奇, 伊燈, 莊越挺, 魏寶剛 申請人:浙江大學