基于大數據分析的內容呈現方法
【技術領域】
[0001]本發明涉及大數據,特別涉及一種基于大數據分析的內容呈現方法。
【背景技術】
[0002]隨著信息技術和網絡技術的高速發展,互聯網己經表現為了去中心化,開放,共享的特點,這些特點影響并改變著人們的生活方式。互聯網已經不再只是用戶發布消息和獲取消息的媒介,更多的是人與人之間的交流互動平臺。隨著社交網絡的出現與發展,社交網絡開始擁有龐大的用戶群體,并且用戶在社交網絡上可以表達自己的觀點,頻繁地更新微博,將自己感興趣的信息分享給好友,不斷添加自己感興趣的用戶擴展自己的愛好群等。如此海量的數據讓用戶很容易迷失在信息的海洋中,要想更快、更準確地尋找到用戶自己需要的數據變得更加的困難。基于傳統的搜索獲取信息的推送方式己經不適合。價值高、可靠性強的信息無法展示在它感興趣的用戶面前。目前沒有有效方法對這些數據進行深度分析并挖掘深層次的有用信息,為用戶提供個性化的推送服務。
【發明內容】
[0003]為解決上述現有技術所存在的問題,本發明提出了一種基于大數據分析的內容呈現方法,包括:
[0004]采集歷史會話數據并進行預處理,由會話主題分布得到用戶主題分布,根據每個用戶的關注數和被關注數獲取用戶的特征行為以確定會話發起用戶,將會話發起用戶根據用戶興趣特征推送給會話參與用戶。
[0005]優選地,所述采集歷史會話數據并進行預處理,進一步包括:
[0006]通過數據清洗將無用數據清除,通過數據預處理和分詞,將會話的內容信息轉化為結構向量;收集縮寫詞和全稱的映射表,對會話的內容進行替換處理;將無意義字符進行過濾處理;從用戶會話中提取代表會話的主題以及目標用戶信息;采用條件隨機場算法進行中文分詞;在分詞系統中輸入會話的內容,經過分詞處理后,將輸出的會話數據轉換為詞條序列。
[0007]優選地,所述根據每個用戶的關注數和被關注數獲取用戶的特征行為,進一步包括:
[0008]通過會話用戶的被關注數、關注人數和發布的會話數為標準來進行定量分析;針對不同的特征對用戶進行群體分類;設定被關注數的閾值來增加和減少來計算用戶的平均被關注數;通過決策樹對會話發起用戶和會話參與用戶進行分類;
[0009]度量會話參與用戶%和會話發起用戶Ut之間的主題分布比值向量VdPVt的相似度sim(up,ut):
[0010]sim(up,ut) = (Vp.Vt)/|Vp.Vt
[0011 ]將相似度高于預定閾值的會話發起用戶作為推送的候選集推送給會話參與用戶;
[0012]根據每個會話發起用戶的社交關系和所發起會話的主題比值,估計每個主題下的高影響力用戶;若主題T下的會話發起用戶Ut在該主題下會話發起用戶總數為Nu,該用戶發的會話總數Wu,包含主題T的會話數Nw,則會話發起用戶的影響力計算為:
[0013]imp(ut) = (ut/Nu)*(Wu/Nw)
[0014]根據會話發起用戶的推送列表,統計會話發起用戶比值最多的主題,然后推送該主題下的會話發起用戶。
[0015]本發明相比現有技術,具有以下優點:
[0016]本發明提出了一種基于大數據分析的內容呈現方法,從多角度分析用戶的興趣需求,準確刻畫用戶的興趣愛好的前提下增加用戶潛在興趣的發掘,提高推送結果的多樣性和準確性。
【附圖說明】
[0017]圖1是根據本發明實施例的基于大數據分析的內容呈現方法的流程圖。
【具體實施方式】
[0018]下文與圖示本發明原理的附圖一起提供對本發明一個或者多個實施例的詳細描述。結合這樣的實施例描述本發明,但是本發明不限于任何實施例。本發明的范圍僅由權利要求書限定,并且本發明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細節以便提供對本發明的透徹理解。出于示例的目的而提供這些細節,并且無這些具體細節中的一些或者所有細節也可以根據權利要求書實現本發明。
[0019]本發明的一方面提供了一種基于大數據分析的內容呈現方法。圖1是根據本發明實施例的基于大數據分析的內容呈現方法流程圖。
[0020]本發明的方法基于會話數據采集、會話主題分類、會話發起用戶提取和會話發起用戶推送。會話數據采集架構通過API分布式抓取需要的數據,為會話發起用戶推送提供資源。會話主題分類通過文本挖掘為每個會話確定一個主題,會話發起用戶提取通過會話主題分布矩陣轉換為用戶主題分布矩陣,作為用戶的興趣特征,對用戶的特征行為進行統計,結合用戶的關注數和被關注數兩個特征對用戶進行分類,將用戶分為會話參與用戶和會話發起用戶。通過會話發起用戶的提取,為推送算法找到推送的主體;所述會話發起用戶推送通過推送算法將會話參與用戶感興趣的會話發起用戶推送給會話參與用戶,本發明還結合高影響力用戶和主題之間的關聯關系,可以挖掘會話參與用戶的潛在主題愛好。
[0021 ]為了快速準確獲取會話數據,本發明搭建分布式并行數據抓取架構。系統架構由兩部分組成,在一定的時間間隔上,采集服務器觸發客戶端抓取數據,將抓取的內容保存到分布式數據庫中,并將會話ID和用戶ID存儲到ID數據庫中。ID數據庫提供兩個功能,一個是存儲ID,為后續的用戶維度和會話維度作為ID緩存。第二個是為了實現重復控制,防止重復抓取相同的用戶和會話,如果檢測到已經抓取過的用戶和會話就不會調用API接口去抓取,也不會將數據保存在分布式數據庫,設置了事務分配服務器,每臺抓取客戶端向事務服務器申請ID事務,將信息抓取后存入分布式數據庫后再向事務服務器申請ID。如果有抓取需求的改變,可以根據事務的需要適當增加或減少客戶端,而不需要更改整個系統的架構。
[0022]為消除歧義性進一步挖掘潛在語義,所以在第一步的時候通過數據清洗將無用數據清除,提高會話數據的質量。分詞和主題提取是會話內容分析的基礎,通過數據預處理和分詞,將會話的內容信息轉化為結構向量。
[0023]抓取下來的數據是結構化的數據,必須對需要的信息進行會話文本信息的提取還有進行一些文本處理工作。具體的處理有以下幾種。(I)通過收集縮寫詞和全稱的映射表,對會話的內容進行替換處理;(2)將表情符號和無意義字符進行過濾處理;(3)從用戶會話中提取代表會話的主題以及目標用戶信息。
[0024]采用的是條件隨機場算法進行中文分詞。在分詞系統中輸入會話的內容,然后經過會話預處理、分詞算法后,輸出的會話數據就變成一條條的詞條序列,詞與詞之間是用空格分割開來。
[0025]在每個領域上都有一些專門從事某個方向的用戶,本發明稱作會話發起用戶。這些會話發起用戶可能是信息傳播的關鍵中介,也可能是熱點信息的來源。會話發起用戶在社交網絡中起到消息傳播的作用,他們能夠制造關于某些主題的會話和轉發某些主題的會話,大部