個性化的移動應用app推薦方法
【技術領域】
[0001] 本發明提出了一種移動應用推薦方法,特別涉及個性化的移動應用APP推薦方 法。
【背景技術】
[0002] 手機APP的發展給予了用戶更多的便利,方便了用戶的生活。但是,APP的不計其 數和品種繁多也給用戶造成了一些問題。研究發現僅僅通過瀏覽和簡單的查詢來尋找有用 且用戶偏好的APP變得相當困難,在某種程度上過量的信息意味著信息缺乏,因此就需要 某種工具來迅速找到用戶所需要的并且偏好的信息來輔助決策,防止用戶迷失。于是,出現 了許多APP推薦方法。
[0003] 在本發明作出之前,傳統的推薦方法如協同過濾技術(CF)致力于通過在用戶群 中找到與指定用戶有相似興趣的用戶,綜合這些相似用戶對某一信息的評價,形成系統對 該指定用戶對此信息的喜好程度預測來推薦APP。然而,隨著個性化的商業應用延展到用戶 生活信息流的方方面面,個性化推薦技術也在日新月異不斷發展,類似于協同過濾這樣的 早期技術已經不能滿足新環境下的要求,例如在用戶和商品愈見增多的情況下,系統的性 能會越來越低亦或是當用戶對商品的評價非常稀疏時,這樣基于用戶的評價所得到的用戶 間的相似性可能不準確甚至導致商品不被推薦。除此以外,當前大多數技術只考慮單個元 素,然而在用戶對商品有更高需求的同時,對于APP推薦來說,除了功能,還應該考慮到其 APP屬性、種類、地理位置及用戶情感的影響,比如在地理位置方面,諸如美團、大眾點評、谷 歌地圖這樣基于地理位置的軟件,他們所涉及的區域大小會影響到是否該推薦這個APP。
【發明內容】
[0004] 本發明的目的是克服上述缺陷,開發一種個性化的APP推薦方法。
[0005] 本發明的技術方案是:
[0006] 個性化的移動應用APP推薦方法,其特征在于步驟如下:
[0007] 步驟1).數據收集:從應用市場獲取用戶及移動應用即APP的信息,包括功能描述 及評論信息;
[0008] 步驟2).對獲取的原始APP數據進行預處理來避免出現冷啟動問題;
[0009] 步驟3).利用情感-方面-地區即SAR模型,將APP的評論信息作為輸入文檔,分 別得到用戶對于APP的情感、APP的方面以及APP的使用地區,由此得到用戶對APP不同屬 性的潛在偏好并預測用戶選擇APP的概率值;
[0010] 步驟4).對步驟2)得到的數據作進一步處理,分別轉換為APP索引文件和用戶索 引文件;
[0011] 步驟5).利用協相關主題即CTM模型,輸入前述步驟4)的兩份文件,得到 User-App的推薦分數矩陣;
[0012] 步驟6).將SAR模型與CTM模型分別得到的概率值與推薦分數線性結合,然后用 Top-N在線推薦算法進行排序,將預測評分較高的APP推薦給相應的用戶。
[0013] 所述步驟1)中,在應用商店GooglePlay里,用戶對他所使用過的APP的評級是 公開可見的,一旦獲得用戶的ID就能看到用戶所評論過的所有APP,由此通過爬數據工具 將所有原始數據檢索出來。
[0014] 所述步驟2)中原始數據的預處理過程包括:
[0015] a)清除寫少于2條評論的用戶以及過濾用戶后沒有任何評論的APP;
[0016] b)托肯化:去除標點符號,去除數字;
[0017]c)去除停用詞:去除英文停用詞,包括介詞、代詞、冠詞;
[0018] d)詞干化:將每個單詞轉化為它的原型,過去時轉化為原型,現在進行時轉化為 原型。
[0019] 所述步驟3)中計算推薦概率的計算公式:
[0020]
ra
[0021] 即表示用戶u喜歡APPt并且給其評級的概率,其中,t,s+,u,r,a,(^分別代表 APP,正面情感,用戶,地區,APP的方面以及APP的種類。
[0022] 所述步驟4)中的數據處理,其分為以下幾個步驟:
[0023] a)對步驟2)中所獲得的所有APP進行編號,依次為0,1,2, 3,4,…,n,每一個編 號對應其APP信息,即為步驟3)中SAR模型所過濾得到的信息;
[0024] b)對步驟2)中所獲得的所有用戶進行編號,依次為0,1,2,3,4,...,11,每一個編 號對應其用戶信息,即為步驟3)中SAR模型所過濾得到的信息;
[0025] c)將所收集的數據整理成一份用戶索引輸入文件,格式要求:一行為一個用戶的 信息,行首即為用戶的編碼+1,第二列為用戶所評級過的APP數量,余下列為用戶評級過的 所有APP編號;
[0026] d)將所收集的數據整理成一份APP索引輸入文件,格式要求:一行為一個APP的 信息,行首即為APP的編碼+1,第二列為給此APP進行評級的用戶數量,余下列為所有給 APP評級的用戶編號;
[0027]e)將以上兩份文件輸入CTM模型,得到一個User-App推薦分數矩陣,推薦值為正 則表示可推薦,值越大越值得推薦,反之,推薦值為負則表示此APP對該用戶是沒有推薦價 值的,矩陣行為APP,列為用戶。
[0028] 7.根據權利要求1所述的APP多屬性推薦方法,其特征在于步驟6)中將SAR模型 得到的概率p(t,S+|u)及GTM模型得到的推薦值rut的線性結合計算公式,如下:設定兩個 參數α,β,則合并推薦分數Score為:
[0029] Score=ap(t,s+1u) +βrut
[0030] 其中,α,β是輸入參數權重。
[0031] 本發明的優點和效果在于綜合考慮評論里的方面、情感、種類及地區達到個性化 推薦的目的。主要有以下一些優點:
[0032] 1.此推薦方法綜合考慮評論里的方面、情感、種類及地區來發現用戶的潛在偏好, 更符合用戶的實際需求。
[0033] 2.此推薦方法能解決傳統協同過濾技術即CF無法解決的冷啟動問題。
[0034] 3.傳統推薦方法如CF不使用APP的內容,它是基于所選的APP有相似模式的用戶 而推薦的,而此推薦方法是同時基于內容和用戶評級的,結果預測是基于內容還是用戶評 級取決于多少用戶對APP進行評級。
[0035] 4.此推薦方法是一種個性化推薦,所推薦的應用會考慮用戶的興趣、所處地區等。
[0036] 5.此推薦方法提出了對APP屬性的全新分類方法,將APP的屬性劃分得更詳細,由 此探索用戶對APP各屬性的偏好程度,更好地了解用戶需求與APP特征。
【附圖說明】
[0037] 圖1--本發明的總體流程不意圖。
[0038] 圖2--本發明GoogleMaps的功能描述信息示意圖。
[0039] 圖3--本發明用戶Sarah對YellowPages的評論信息示意圖。
[0040] 圖4--本發明用戶Sarah對CommanderCompassLite的評論信息不意圖。
[0041] 圖5--本發明預處理過后的GoogleMaps的功能描述信息示意圖。
[0042] 圖6--本發明預處理過后的用戶Sarah對YellowPages的評論信息示意圖。
[0043] 圖7--本發明預處理過后的用戶Sarah對CommanderCompassLite的評論信息 示意圖。
[0044] 圖8-一本發明情感-方面-地區模型的初步輸出結果示意圖。
[0045] 圖9一一本發明協相關模型的用戶索引輸入文件的格式要求示意圖。
[0046] 圖10--本發明協相關模型的APP索引輸入文件的格式要求示意圖。
[0047] 圖11--本發明協相關模型User-App推薦分數矩陣的輸出格式不意圖。
【具體實施方式】
[0048] 本發明的技術思路是:
[0049] 本發明考慮結合方面、情感、種類以及地區對推薦技術的影響,對APP屬性進行了 比較詳盡的分類,比如界面、地理位置、功能菜單、卸載量與激活量之比、設置,以此更加詳 細地了解用戶對APP不同屬性的要求及偏好,從而使推薦效果更好。還利用協相關主題模 型這種個性化推薦,以保證這種推薦方法能夠得到廣泛應用。
[0050] 本發明結合CTM模型和SAR模型對用戶評論信息進行建模,以此發現用戶的潛在 偏好并進行詳盡的推薦。
[0051] 下面結合附圖對本發明的技術方案進行詳細說明:
[0052] 步驟 1).
[0053] 數據收集:在應用商店如GooglePlay里,用戶對他所使用過的APP的評級是公開 可見的,一旦獲得用戶的ID就能看到用戶所評論過的所有APP。由此可以通過爬數據工具 將所有原始數據如用戶評論及功能描述檢索出來。舉例如下:假設用戶Sarah想要找一款 導航APP,在此之前用戶使用過YellowPages與CommanderCompassLite兩款導航APP, 圖2為GoogleMaps的功能描述信息,此APP是用戶Sarah未使用過的,圖3為Sarah對 YellowPages的用戶評論信息,圖4為Sarah對CommanderCompassLite的用戶評論信 息。
[0054] 步驟 2) ·
[0055] 對獲取的原始APP數據進行預處理來避免出現冷啟動問題。首先,清除寫少于2 條評論的用戶以及過濾用戶后沒有任何評論的APP。其次,進行托肯化即tokenization,分 另IJ去除標點符