一種客戶端短信過濾嵌入式特征庫及更新方法
【專利摘要】本發明公開了一種客戶端短信過濾嵌入式特征庫及更新方法,在移動終端上創建嵌入式特征庫;將基于內容的客戶端垃圾短信過濾系統劃分為特征庫更新模塊和實時短信分類模塊,特征庫更新模塊對嵌入式特征庫進行定期更新,用戶也可隨時設置和更新短信類別信息;實時短信分類模塊只需從嵌入式特征庫中讀取相關數據、然后進行快速的運算便可將垃圾短信識別出來,提高短信實時分類的處理速度;運算復雜度較高的特征庫更新模塊可在移動終端應用程序空閑時執行或轉換至PC機端執行。解決了現有客戶端垃圾短信過濾缺乏樣本庫和因硬件資源受限無法直接運行現有智能過濾系統的現狀,降低了移動客戶端的實時處理負擔,且滿足不同用戶的定制短信過濾需求。
【專利說明】一種客戶端短信過濾嵌入式特征庫及更新方法
【技術領域】
[0001] 本發明屬于垃圾短信過濾【技術領域】,涉及一種嵌入式特征庫及更新方法。具體地 說,涉及一種客戶端短信過濾嵌入式特征庫及更新方法。
【背景技術】
[0002] 隨著移動通信技術的飛速發展和手機等移動終端的快速普及,使短信的使用率迅 速增加,短信因其低廉、方便、快捷等特點,給廣大使用者帶來了方便,但也滋生了以傳播色 情、廣告、欺詐等不良信息的垃圾短信,嚴重干擾人們的生活,甚至給用戶造成了巨大的經 濟損失。
[0003] 目前常用短信過濾方法及機制有:基于關鍵詞過濾、基于短信發送量及發送方分 析過濾、基于內容過濾等。關鍵字過濾機制中的關鍵字主要依靠人工添加,具有滯后性、且 受制于關鍵字的更新能力,因此關鍵字過濾的誤報率及漏報率較高;基于短信發送量及發 送方分析的過濾多采用對同一主叫號碼的發送頻次進行統計的方式,但短信發送者經常通 過改變發送方式來逃避這種過濾機制,例如采用多個號碼分批次發送的方式;目前對短信 過濾的研究主要沿用基于內容的垃圾郵件過濾算法,它采用機器學習方法把短信自動分為 正常短信和垃圾短信,例如貝葉斯、支持向量機和人工免疫等,其優點是過濾準確率高,存 在的問題是這些方法運算量大且需要訓練樣本集的支持,而因涉及隱私等問題,公開的短 信訓練樣本缺乏,給短信過濾研究帶來了困難。短信文本短小、特征數據不足,影響過濾準 確率,因此特征詞的選取和特征庫的建立對垃圾短信過濾顯得尤為重要。
[0004] 從實現的角度,垃圾短信過濾又分為短信服務中心的短信過濾和手機等移動終端 的客戶端短信過濾,基于內容的垃圾短信過濾存在大量運算,其學習和更新需要更多系統 資源,適合在短信服務中心服務器上運行,但巨大短信流量帶來的過濾任務會導致短信服 務中心網絡擁塞等問題;另一方面統一的過濾器較難滿足用戶的個性化需求,而且一旦在 短信服務中心的過濾中出現分類錯誤,將會直接導致短信無法送達客戶端。
[0005] 基于內容的客戶端垃圾短信過濾更為便捷和保密,它可以根據用戶需求學習和生 成過濾系統,保證用戶隱私不被侵犯的同時達到較好的過濾效果。但與個人電腦或服務器 相比,手機等移動終端的計算速度和存儲能力有限,無法運行基于內容的智能過濾系統,現 有的客戶端短信過濾基本采用黑白名單和關鍵詞過濾,這種簡單的過濾方式不具有智能 性,無法適應新的短信內容和不斷變化的用戶需求。
【發明內容】
[0006] 本發明的目的在于克服現有客戶端短信過濾缺乏樣本庫和因硬件資源受限而無 法運行基于內容的智能過濾系統的現狀,提供一種用于客戶端短信過濾的嵌入式特征庫及 更新方法。一是通過將特征庫更新模塊與實時短信分類模塊相分離,解決手機等移動終端 硬件資源受限的問題,減輕客戶端的實時處理負擔;二是通過嵌入式特征庫的創建和生成 解決客戶端垃圾短信過濾研究缺乏訓練樣本的現狀;三是通過嵌入式特征庫的更新使過濾 系統能即時適應于不斷變化的短信內容和用戶過濾需求。
[0007] 為了達到上述目的,本發明采用的技術方案如下。
[0008] -種客戶端短信過濾嵌入式特征庫生成及更新方法,包括以下步驟: 步驟1,在移動終端上創建嵌入式特征庫,從初始訓練樣本中提取特征數據,形成嵌入 式特征庫的初始數據; 步驟2,將基于內容的客戶端垃圾短信過濾系統劃分為特征庫更新模塊和實時短信分 類模塊; 步驟3,對于待過濾短信,首先從中提取特征詞,實時短信分類模塊根據其特征詞數據 從嵌入式特征庫中讀取特征詞相關統計數據,然后通過相應的分類運算得到類別信息; 步驟4,對于已分類短信,將其類別和特征詞信息加入新短信特征表; 步驟5,根據新短信特征表,特征庫更新模塊對嵌入式特征庫進行定期更新; 步驟6,用戶可根據需求隨時設置和更新嵌入式特征庫中的類別信息。
[0009] 所述初始訓練樣本要求每種短信類別至少包含一條短信訓練樣本。
[0010] 所述嵌入式特征庫的創建過程包括在移動終端上移植嵌入式數據庫和設計數據 邏輯模型,可存儲在移動終端的SD卡上,用來保存短信樣本中的特征數據。
[0011] 所述嵌入式特征庫包括3張數據表,分別是短信類別表、特征詞信息表和特征詞 類別表。
[0012] 1)短信類別表的屬性項包括類別編號(主鍵)、類別名稱、樣本數目、是否為垃圾 短信、類別的先驗概率,類別名稱可以由用戶自己設置和更新,例如包括開票辦證類、詐騙 類、日常問候類、房產交易類、保險理財類等,每種類別可由用戶設定是否為垃圾短信。如果 用戶變更了某一類別的"是否為垃圾短信"屬性,用戶短信屬于相應類別的概率并不改變, 因此嵌入式特征庫中其他數據無需更改,短信分類模塊可以即時適應于新的類別設置。類 別c k的先驗概率P(Ck)按公式(1)進行計算。
[0013]
【權利要求】
1. 在一種客戶端短信過濾嵌入式特征庫及更新方法,其特征在于,包括以下步驟: 步驟1,在移動終端上創建嵌入式特征庫,從初始訓練樣本中提取特征數據,形成嵌入 式特征庫的初始數據; 步驟2,將基于內容的客戶端垃圾短信過濾系統劃分為特征庫更新模塊和實時短信分 類模塊; 步驟3,對于待過濾短信,首先從中提取特征詞,實時短信分類模塊根據其特征詞數據 從嵌入式特征庫中讀取特征詞相關統計數據,然后通過相應的分類運算得到類別信息; 步驟4,對于已分類短信,將其類別和特征詞信息加入新短信特征表; 步驟5,根據新短信特征表,特征庫更新模塊對嵌入式特征庫進行定期更新; 步驟6,用戶可根據需求隨時設置和更新嵌入式特征庫中的類別信息。
2. 根據權利要求1所述的客戶端短信過濾嵌入式特征庫及更新方法,其特征在于,所 述嵌入式特征庫可存儲在移動終端的SD卡上。
3. 根據權利要求1所述的客戶端短信過濾嵌入式特征庫及更新方法,其特征在于,所 述嵌入式特征庫包括短信類別表、特征詞信息表和特征詞類別表。
4. 根據權利要求1所述的客戶端短信過濾嵌入式特征庫及更新方法,其特征在于,所 述特征庫更新模塊包括如下步驟: 步驟1 :根據新短信特征表中的類別信息,更新嵌入式特征庫中的短信類別信息; 步驟2 :對于新短信特征表中的每一個特征詞,查找其在特征詞信息表中是否存在,若 存在則更新其在嵌入式特征庫中的特征詞信息和特征詞類別信息,若不存在則在特征詞信 息表和特征詞類別表中添加該特征詞信息; 步驟3 :如果特征詞數目大于Nmax,則執行步驟4,否則結束; 步驟4 :將特征詞信息表中特征詞按照權重大小排序,刪除權重最低的Ndel&個特征 詞,同時級聯刪除特征詞類別表中的數據。
5. 根據權利要求1所述的客戶端短信過濾嵌入式特征庫及更新方法,其特征在于,所 述特征庫更新模塊不需要即時運行,可以在移動終端的應用程序空閑時執行或轉換至PC 機端異步更新。
6. 根據權利要求1所述的客戶端短信過濾嵌入式特征庫及更新方法,其特征在于,所 述特征庫更新模塊對嵌入式特征庫進行定期更新,其更新周期由用戶根據移動終端短信接 收頻次自行設置。
7. 根據權利要求1或3所述的客戶端短信過濾嵌入式特征庫及更新方法,其特征在于, 如果用戶變更了所述短信類別表中某一類別的"是否為垃圾短信"屬性,嵌入式特征庫中其 它數據無需更改,短信分類模塊可即時適應于新的類別設置。
8. 根據權利要求3所述的客戶端短信過濾嵌入式特征庫及更新方法,其特征在于,所 述特征詞信息表的"特征詞權重"屬性W(tk)的計算公式為 :
其中Lk是特征詞tk在每類短信中出現次數的最大值;Sk是特征詞t k在所有短信中出 現的次數之和;MI (tk,(;)為特征詞tk與類別Ci的互信息,其中P ((;)的值可從短信類別表 中獲取,P(tk|Ci)的值可從特征詞類別表中獲取。
9. 根據權利要求4所述的客戶端短信過濾嵌入式特征庫更新方法,其特征在于,所述 步驟1中短信類別信息包括樣本數目、是否為垃圾短信、類別的先驗概率。
10. 根據權利要求4所述的客戶端短信過濾嵌入式特征庫更新方法,其特征在于,所述 步驟2中特征詞信息和特征詞類別信息包括包括特征詞權重、特征詞在類中出現的次數、 特征詞在類中出現的概率。
11. 根據權利要求4所述的客戶端短信過濾嵌入式特征庫更新方法,其特征在于,所述 步驟2中Nmax為嵌入式特征庫數據記錄的最大值,可根據移動終端的硬件資源設定。
12. 根據權利要求5所述的客戶端短信過濾嵌入式特征庫更新方法,其特征在于,所述 步驟3中Ndelrte為每次更新需刪除的特征詞數目。
【文檔編號】G06F9/445GK104156228SQ201410126384
【公開日】2014年11月19日 申請日期:2014年4月1日 優先權日:2014年4月1日
【發明者】包理群, 伍忠東, 王海兵, 馬忠彧, 李錦瓏, 王宏斌 申請人:蘭州工業學院