文件推薦系統(tǒng)及方法
【專利摘要】本發(fā)明提供一種文件推薦方法,該方法利用聚類演算法將用戶劃分為不同的群組,相同群組內(nèi)的所有用戶閱讀的文件進(jìn)行互相推薦。該方法包括:將文件解析為具有標(biāo)題和正文的文字信息,并對(duì)文字信息進(jìn)行斷詞和過(guò)濾斷詞結(jié)果;收集所有用戶在一段時(shí)間內(nèi)的閱讀行為,每個(gè)用戶作為一個(gè)采樣樣本,計(jì)算每個(gè)用戶在該時(shí)間段內(nèi)的閱讀習(xí)慣和標(biāo)題詞的頻數(shù);根據(jù)聚類演算法對(duì)所有樣本進(jìn)行演算,將所有樣本劃分為不同群組;根據(jù)用戶所在群組,將同群組內(nèi)所有用戶閱讀的文件進(jìn)行相互推薦。此外,本發(fā)明還提供一種文件推薦系統(tǒng)。
【專利說(shuō)明】文件推薦系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文字采礦和信息挖掘技術(shù),尤其涉及一種文件推薦系統(tǒng)及方法。
【背景技術(shù)】
[0002] 借助于互聯(lián)網(wǎng)的快速普及,人們每天通過(guò)網(wǎng)絡(luò)可以瀏覽各種信息資訊。然而信息 資訊日益膨脹,龐大的信息量反而會(huì)導(dǎo)致人們無(wú)法從過(guò)多的網(wǎng)頁(yè)或文件中快速篩選到符合 個(gè)人需求的信息。
[0003] 目前大多數(shù)的新聞門戶網(wǎng)站或是資訊類系統(tǒng),根據(jù)用戶已經(jīng)閱讀的網(wǎng)頁(yè)或是文件 中的關(guān)鍵詞,利用關(guān)鍵詞找出該用戶的閱讀需求以推送出相關(guān)新聞或文件。該方法是分析 單一用戶的閱讀行為,以關(guān)鍵詞作為推送的依據(jù),推送的新聞或文件具有一定局限性。
【發(fā)明內(nèi)容】
[0004] 鑒于上述內(nèi)容,有必要提供一種文件推薦系統(tǒng)及方法,可以充分利用并分析所有 用戶的閱讀行為,劃分用戶群組,以群組為依據(jù)推送文件給用戶。
[0005] 所述文件推薦系統(tǒng),該系統(tǒng)包括:文本處理模塊,用于將文件解析為具有標(biāo)題和正 文的文字信息,并對(duì)文字信息進(jìn)行斷詞和過(guò)濾斷詞結(jié)果;樣本采集模塊,用于收集所有用戶 在一段時(shí)間內(nèi)的閱讀行為,每個(gè)用戶作為一個(gè)采樣樣本,計(jì)算每個(gè)用戶在該時(shí)間段內(nèi)的閱 讀習(xí)慣和標(biāo)題詞的頻數(shù);群組劃分模塊,用于根據(jù)聚類演算法對(duì)所有樣本進(jìn)行演算,將所有 樣本劃分為不同群組;及文件推薦模塊,用于根據(jù)用戶所在群組,將同群組內(nèi)所有用戶閱讀 的文件進(jìn)行相互推薦。
[0006] 所述文件推薦方法,該方法包括步驟:將文件解析為具有標(biāo)題和正文的文字信息, 并對(duì)文字信息進(jìn)行斷詞和過(guò)濾斷詞結(jié)果;收集所有用戶在一段時(shí)間內(nèi)的閱讀行為,每個(gè)用 戶作為一個(gè)采樣樣本,計(jì)算每個(gè)用戶在該時(shí)間段內(nèi)的閱讀習(xí)慣和標(biāo)題詞的頻數(shù);根據(jù)聚類 演算法對(duì)所有樣本進(jìn)行演算,將所有樣本劃分為不同群組;根據(jù)用戶所在群組,將同群組內(nèi) 所有用戶閱讀的文件進(jìn)行相互推薦。
[0007] 相比于現(xiàn)有技術(shù),本發(fā)明中所述文件推薦系統(tǒng)及方法,分析所有用戶的閱讀行為, 利用聚類演算法將所有用戶劃分為不同群組且不同群組存在明顯差異,相同群組內(nèi)的所有 用戶閱讀的文件進(jìn)行互相推薦。
【專利附圖】
【附圖說(shuō)明】
[0008] 圖1是本發(fā)明所述文件推薦系統(tǒng)的較佳實(shí)施例的運(yùn)行環(huán)境圖。
[0009] 圖2是本發(fā)明所述文件推薦系統(tǒng)的較佳實(shí)施例的功能模塊圖。
[0010] 圖3是本發(fā)明所述文件推薦方法的方法流程圖。
[0011] 圖4是本發(fā)明中文件斷詞表的示意圖。
[0012] 圖5是對(duì)所有用戶一段時(shí)間內(nèi)的閱讀行為采樣后的樣本示意圖。
[0013] 主要元件符號(hào)說(shuō)明
【權(quán)利要求】
1. 一種文件推薦系統(tǒng),運(yùn)行于服務(wù)器中,其特征在于,該系統(tǒng)包括: 文本處理模塊:用于將文件解析為具有標(biāo)題和正文的文字信息,并對(duì)文字信息進(jìn)行斷 詞和過(guò)濾斷詞結(jié)果; 樣本采集模塊:用于收集所有用戶在一段時(shí)間內(nèi)的閱讀行為,每個(gè)用戶作為一個(gè)采樣 樣本,計(jì)算每個(gè)用戶在該時(shí)間段內(nèi)的閱讀習(xí)慣和標(biāo)題詞的頻數(shù); 群組劃分模塊:用于根據(jù)聚類演算法對(duì)所有樣本進(jìn)行演算,將所有樣本劃分為不同群 組;及 文件推薦模塊:用于根據(jù)用戶所在群組,將同群組內(nèi)所有用戶閱讀的文件進(jìn)行相互推 薦。
2. 如權(quán)利要求1所述的文件推薦系統(tǒng),其特征在于,該系統(tǒng)還包括一個(gè)定期更新模塊, 用于設(shè)定周期性的群組更新排程,每間隔一定時(shí)間周期,抓取該時(shí)間周期內(nèi)的所有用戶的 閱讀行為,重新采樣及利用聚類演算法對(duì)采樣樣本重新進(jìn)行群組劃分。
3. 如權(quán)利要求1所述的文件推薦系統(tǒng),其特征在于,所述樣本采集模塊通過(guò)如下方式 進(jìn)行采樣: 匯總所有用戶在一個(gè)時(shí)間段內(nèi)閱讀文件的所有標(biāo)題詞作為樣本的標(biāo)題詞特征; 以每個(gè)用戶作為采樣單位,計(jì)算每個(gè)用戶在該時(shí)間段內(nèi)閱讀文件中各標(biāo)題詞的頻數(shù), 作為每個(gè)樣本中對(duì)應(yīng)標(biāo)題詞特征的特征值; 以每個(gè)用戶的閱讀習(xí)慣的各習(xí)慣變量作為樣本的習(xí)慣特征,計(jì)算每個(gè)用戶在該時(shí)間段 內(nèi)各習(xí)慣變量的變量值,作為每個(gè)樣本中對(duì)應(yīng)習(xí)慣特征的特征值; 保存所有用戶采樣的樣本,該樣本包括用戶ID、標(biāo)題詞特征的特征值和習(xí)慣特征的特 征值。
4. 如權(quán)利要求3所述的文件推薦系統(tǒng),其特征在于,所述閱讀習(xí)慣的習(xí)慣變量包括:平 均每日閱讀時(shí)長(zhǎng)、平均每日閱讀時(shí)段和平均閱讀速度。
5. -種文件推薦方法,其特征在于,該方法包括: 文本處理步驟:將文件解析為具有標(biāo)題和正文的文字信息,并對(duì)文字信息進(jìn)行斷詞和 過(guò)濾斷詞結(jié)果; 樣本采集步驟:收集所有用戶在一段時(shí)間內(nèi)的閱讀行為,每個(gè)用戶作為一個(gè)采樣樣本, 計(jì)算每個(gè)用戶在該時(shí)間段內(nèi)的閱讀習(xí)慣和標(biāo)題詞的頻數(shù); 群組劃分步驟:根據(jù)聚類演算法對(duì)所有樣本進(jìn)行演算,將所有樣本劃分為不同群組; 及 文件推薦步驟:根據(jù)用戶所在群組,將同群組內(nèi)所有用戶閱讀的文件進(jìn)行相互推薦。
6. 如權(quán)利要求5所述的文件推薦方法,其特征在于,該方法還包括定期更新步驟:設(shè)定 周期性的群組更新排程,每間隔一定時(shí)間周期,抓取該時(shí)間周期內(nèi)的所有用戶的閱讀行為, 重新采樣及利用聚類演算法對(duì)采樣樣本重新進(jìn)行群組劃分。
7. 如權(quán)利要求5所述的文件推薦方法,其特征在于,所述樣本采集步驟包括: 匯總所有用戶在一個(gè)時(shí)間段內(nèi)閱讀文件的所有標(biāo)題詞作為樣本的標(biāo)題詞特征; 以每個(gè)用戶作為采樣單位,計(jì)算每個(gè)用戶在該時(shí)間段內(nèi)閱讀文件中各標(biāo)題詞的頻數(shù), 作為每個(gè)樣本中對(duì)應(yīng)標(biāo)題詞特征的特征值; 以每個(gè)用戶的閱讀習(xí)慣的各習(xí)慣變量作為樣本的習(xí)慣特征,計(jì)算每個(gè)用戶在該時(shí)間段 內(nèi)各習(xí)慣變量的變量值,作為每個(gè)樣本中對(duì)應(yīng)習(xí)慣特征的特征值; 保存所有用戶采樣的樣本,該樣本包括用戶ID、標(biāo)題詞特征的特征值和習(xí)慣特征的特 征值。
8.如權(quán)利要求7所述的文件推薦方法,其特征在于,所述閱讀習(xí)慣的習(xí)慣變量包括平 均每日閱讀時(shí)長(zhǎng)、平均每日閱讀時(shí)段和平均閱讀速度。
【文檔編號(hào)】G06F17/30GK104391843SQ201310360154
【公開(kāi)日】2015年3月4日 申請(qǐng)日期:2013年8月19日 優(yōu)先權(quán)日:2013年8月19日
【發(fā)明者】強(qiáng)振雄, 林奇玲, 李建緯, 李宜臻 申請(qǐng)人:捷達(dá)世軟件(深圳)有限公司, 鴻海精密工業(yè)股份有限公司