騷擾短信判別方法及裝置的制造方法
【技術領域】
[0001]本發明涉及移動終端技術,具體而言,本發明涉及一種騷擾短信判別方法及裝置。
【背景技術】
[0002]隨著信息技術的發展,移動通信成為人們日常通信的主要手段,除電話、視頻等通信方式以外,短信也作為一種方便快捷的通信方式,成為性價比最高、覆蓋面最廣的通信方式。但隨之而來的騷擾短信給用戶帶來了很大困擾。商家做宣傳、不法分子通過短信發釣魚網址等,會發送騷擾短信給用戶。因此,現有技術為了避免接收大量騷擾短信的推送,會基于一定的策略判斷當前接收的短信是否是對用戶有用的短信,而將判別為騷擾短信的信息自動放入黑名單或刪除,從而防止大量騷擾短信給用戶帶來的不便。
[0003]現有技術通常根據通訊錄判別短信的發送方是否為陌生號碼,以判別該短信是否為騷擾短信,或通過簡單的策略對騷擾短信進行過濾,造成將對用戶有用的短信誤判成騷擾短信,基于此,需要提供一種更精確的騷擾短信判別方法,以提高判斷騷擾短信的正確率。
【發明內容】
[0004]本發明的目的旨在解決上述至少一個問題,提供一種騷擾短信判別方法及裝置,以盡可能正確地判別騷擾短信。
[0005]為了實現上述目的,本發明提供一種騷擾短信判別方法,包括以下步驟:
[0006]解析原始短信內容以獲取其中的各個詞和數字信息;
[0007]以所述數字信息為基準分別計算各個詞到各數字的距離;
[0008]將所述距離作為權重,各個詞作為維度,對短信內容進行描述以生成相應的多個特征向量;
[0009]將每個特征向量分別輸入分類模型以獲得輸出結果;
[0010]基于所述輸出結果判別該短信是否為騷擾短信。
[0011]具體的,所述分類模型為預先訓練的模型,其訓練步驟如下:
[0012]對樣本集合中的每條原始短信內容進行解析以獲取其中的各個詞和數字信息;
[0013]以所述數字信息為基準計算各個詞分別到各個數字的距離;
[0014]將所述相應距離作為權重,各個詞作為維度,對每條短信內容進行描述以生成相應的訓練樣本;
[0015]將訓練樣本人工標記為正樣本和負樣本;
[0016]采用所述正樣本和負樣本訓練分類模型。
[0017]進一步,所述對短信內容進行描述以生成相應的特征向量的具體步驟為:分別以所述各個數字作為基準,將其前面和后面的詞作為維度,計算其前面和后面的詞分別到各個數字的距離,將相應距離作為權重,以生成用于描述該短信的多個特征向量。
[0018]具體的,所述各個詞到所述各個數字的距離以每個字作為單位距離進行表征。
[0019]具體的,所述解析步驟具體如下:
[0020]刪除原始短信中的特定信息;
[0021]對短信內容基于語法進行分詞,以獲取短信中的詞、數字及相應詞性;
[0022]提取其中的數字信息。
[0023]具體的,所述特定信息包括URL、IP地址、移動電話、客戶電話、固定電話。
[0024]較佳的,采用adaboost算法訓練分類模型。
[0025]具體的,所述基于所述輸出結果判別該短信是否為騷擾短信的具體步驟為:
[0026]當該短信的多個特征向量中至少存在一個特征向量的輸出結果為正確時,則判別該短信為正常短信;
[0027]否則判別該短信為騷擾短信。
[0028]優選的,所述輸出結果為1則表征正確,輸出結果為0則表征錯誤。
[0029]進一步,還包括步驟,將分類模型判別為騷擾短信的短信存儲于黑名單。
[0030]進一步,還包括步驟,將判別為騷擾短信的短信從用戶短信列表中刪除。
[0031]一種騷擾短信判別裝置,包括:
[0032]解析模塊:用于解析原始短信內容以獲取其中的各個詞和數字信息;
[0033]距離計算模塊:用于以所述數字信息為基準分別計算各個詞到各數字的距離;
[0034]特征向量生成模塊:用于將所述距離作為權重,各個詞作為維度,對短信內容進行描述以生成相應的多個特征向量;
[0035]分類模塊:用于將每個特征向量分別輸入分類模型以獲得輸出結果;
[0036]判別模塊:用于基于所述輸出結果判別該短信是否為騷擾短信。
[0037]具體的,所述分類模型為預先訓練的模型,基于訓練模塊訓練生成,所述訓練模塊執行的步驟如下:
[0038]對樣本集合中的每條原始短信內容進行解析以獲取其中的各個詞和數字信息;
[0039]以所述數字信息為基準計算各個詞分別到各個數字的距離;
[0040]將所述相應距離作為權重,各個詞作為維度,對每條短信內容進行描述以生成相應的訓練樣本;
[0041]將訓練樣本人工標記為正樣本和負樣本;
[0042]采用所述正樣本和負樣本訓練分類模型。
[0043]具體的,所述特征向量生成模塊執行的具體步驟為:分別以所述各個數字作為基準,將其前面和后面的詞作為維度,計算其前面和后面的詞分別到各個數字的距離,將相應距離作為權重,以生成用于描述該短信的多個特征向量。
[0044]具體的,所述各個詞到所述各個數字的距離以每個字作為單位距離進行表征。
[0045]具體的,所述解析模塊執行的步驟具體如下:
[0046]刪除原始短信中的特定信息;
[0047]對短信內容基于語法進行分詞,以獲取短信中的詞、數字及相應詞性;
[0048]提取其中的數字信息。
[0049]具體的,所述特定信息包括URL、IP地址、移動電話、客戶電話、固定電話。
[0050]較佳的,所述訓練模塊采用adaboost算法訓練分類模型。
[0051]具體的,所述判別模塊執行的具體步驟為:
[0052]當該短信的多個特征向量中至少存在一個特征向量的輸出結果為正確時,則判別該短信為正常短信;
[0053]否則判別該短信為騷擾短信。
[0054]具體的,所述輸出結果為1則表征正確,輸出結果為0則表征錯誤。
[0055]進一步,還包括黑名單模塊,用于將分類模型判別為騷擾短信的短信存儲于黑名單。
[0056]進一步,還包括刪除模塊,用于將判別為騷擾短信的短信從用戶短信列表中刪除。
[0057]相比現有技術,本發明的方案具有以下優點:
[0058]本發明通過對短信內容進行分詞解析,提取其中的數字信息,并以各數字作為基準采用各個詞及分別到各個數字的距離為特征描述短信以生成特征向量,通過預先訓練的分類模型判斷該特征向量是否存在正確的數字,如果至少存在一個數字正確則判斷該短信為正常短信,否則為騷擾短信。基于本發明所述方法進行騷擾短信的判斷,能夠更精確確定用戶移動終端接收的短信是否為騷擾短信,特別是對于銀行推送的消費信息、物流公司推送的收貨信息等具有有效數字的信息,降低該些信息被誤判為騷擾短信的概率,進一步提高騷擾短信判別的精度。
[0059]本發明附加的方面和優點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發明的實踐了解到。
【附圖說明】
[0060]本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0061]圖1為本發明所述騷擾短信判別方法的流程示意圖;
[0062]圖2為本發明所述短信解析步驟的流程示意圖;
[0063]圖3為本發明所述分類模型訓練步驟的流程示意圖;
[0064]圖4為本發明所述騷擾短信判別裝置的結構示意圖。
【具體實施方式】
[0065]下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發明,而不能解釋為對本發明的限制。
[0066]本技術領域技術人員可以理解,除非特意聲明,這里使用的單數形式“一”、“一個”、“所述”和“該”也可包括復數形式。應該進一步理解的是,本發明的說明書中使用的措辭“包括”是指存在所述特征、整數、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數、步驟、操作、元件、組件和/或它們的組。應該理解,當我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個或更多個相關聯的列出項的全部或任一單元和全部組合。
[0067]本技術領域技術人員可以理解,除非另外定義,這里使用的所有術語(包括技術術語和科學術語),具有與本發明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術語,應該被理解為具有與現有技術的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會用理想化或過于正式的含義來解釋。
[0068]本技術領域技術人員可以理解,這里所使