一種檢測相似短信的方法及裝置的制造方法
【技術領域】
[0001] 本發明涉及信息處理技術領域,特別涉及一種檢測相似短信的方法及裝置。
【背景技術】
[0002] 隨著科學技術的不斷發展,通信技術得到了飛速的發展,通信的方式多種多樣,包 括電話、短、email等。
[0003] 短信由于其具有短小精要、成本低廉等優點被人們廣泛的使用,也正因為它使用 的廣泛和成本低廉被不法分子所利用。人們常常會收到不法分子發送的銀行卡被盜、航班 取消、積分兌換等詐騙短信,稍有不慎就會被不法分子詐騙。為了減少人們被詐騙的幾率, 現有技術通常采用標記、篩查的辦法幫助用戶識別詐騙短信,具體過程如下:通過用戶對已 識別的詐騙短信進行標記并上報服務器,服務器根據已有的詐騙短信對待發送的短信進行 比對,若發現相同的短信,則進行攔截或提示收信終端用戶該短信可能為詐騙短信,使用戶 勿輕信上當受騙。
[0004] 然后,詐騙短信的類型層出不窮,現有技術中的方法只能基于已標記的即已確定 的詐騙短信來攔截詐騙短信或提示用戶,無法及時發現新的詐騙短信,對詐騙短信的識別 和攔截存在滯后性。另外,除了詐騙短信,其它新短信的識別也存在滯后性。可見,現有技術 中存在對新短信的識別滯后的技術問題。
【發明內容】
[0005] 本發明實施例提供一種檢測相似短信的方法及裝置,用于解決現有技術中對新短 信的識別存在滯后的技術問題,提高對新短信的識別效率。
[0006] 本申請實施提供一種檢測相似短信的方法,所述方法包括:
[0007] 對目標短信進行分詞,并根據每個分詞和語料詞矩陣獲得所述目標短信的目標詞 向量;
[0008] 獲得所述目標詞向量和設定詞向量之間的相似度,其中,所述設定詞向量為至少 一條或至少一類參考短信的詞向量;
[0009] 判斷所述相似度是否大于設定閾值;
[0010] 若所述相似度大于所述設定閾值,確定所述目標短信與所述至少一條或至少一類 參考短信相似。
[0011]可選的,所述根據每個分詞和語料詞矩陣獲得所述目標短信的目標詞向量,包括: 分別將所述每個分詞輸入詞向量工具獲得所述每個分詞的詞向量;通過將所有所述分詞的 詞向量的乘積與所述語料詞矩陣相乘獲得所述目標詞向量。
[0012] 可選的,獲得所述目標詞向量和設定詞向量之間的相似度,包括:計算獲得所述目 標詞向量與所述設定詞向量之間的余弦值,將所述余弦值作為所述相似度;或者,計算獲得 所述目標詞向量與所述設定詞向量之間的相關系數,將所述相關系數作為所述相似度。
[0013] 可選的,所述設定詞向量為至少一類參考短信的詞向量時,所述方法還包括:獲得 所述至少一類參考短信中的每條參考短信的參考詞向量;獲得所述每條參考短信的參考詞 向量的均值作為所述設定詞向量。
[0014] 可選的,當所述參考短信為惡意短信時,在所述確定所述目標短信與所述至少一 條或至少一類參考短信相似之后,所述方法還包括:獲得所述目標短信的中心號,及查詢獲 得所述中心號發出的N條短信;獲得所述N條短信中與所述目標短信相同或相似的短信數量 M;判斷M/N是否大于第一預設比例;若M/N大于所述第一預設比例,確定所述目標短信為新 的惡意短信、所述中心號為偽基站的中心號。
[0015] 可選的,當所述參考短信為惡意短信時,在所述確定所述目標短信與所述至少一 條或至少一類參考短信相似之后,所述方法還包括:獲得所述目標短信的中心號,及查詢獲 得所述中心號發出的N條短信;判斷所述N條短信中屬性為黑短信的數量Μ與N的比值是否大 于第二預設比例,其中,所述黑短信包含詐騙短信、廣告短信、騷擾短信;若Μ與Ν的比值大于 所述第二預設比例,確定所述目標短信為疑似惡意短信。
[0016] 可選的,所述參考短信包括:垃圾短信、詐騙短信或騷擾短信。
[0017] 可選的,在所述確定所述目標短信與所述至少一條或至少一類參考短信相似之 后,所述方法還包括:生成并顯示一提示信息,所述提示信息用于提示用戶對所述目標短信 進行標記;獲得用戶對所述目標短信所做的標記信息;若所述標記信息表征所述目標短信 屬于垃圾短信或惡意短信,獲得發送所述目標短信的電話號碼,并標記所述電話號碼為發 送過垃圾短信或惡意短信的電話號碼;將所述電話號碼添加到分析其歸屬地和/或地區編 碼號段的行列中。
[0018] 可選的,若所述標記信息表征所述目標短信屬于垃圾短信或惡意短信,所述方法 還包括:建立所述標記信息與所述電話號碼之間的對應關系并保存到預置數據庫中。
[0019] 本申請實施例還提供一種檢測相似短信的裝置,所述裝置包括:
[0020] 詞向量獲取模塊,用于對目標短信進行分詞,并根據每個分詞和語料詞矩陣獲得 所述目標短信的目標詞向量;
[0021 ]相似度計算模塊,用于獲得所述目標詞向量和設定詞向量之間的相似度,其中,所 述設定詞向量為至少一條或至少一類參考短信的詞向量;
[0022]判斷模塊,用于判斷所述相似度是否大于設定閾值;
[0023]第一確認模塊,用于在所述相似度大于所述設定閾值時,確定所述目標短信與所 述至少一條或至少一類參考短信相似。
[0024] 可選的,所述詞向量獲取模塊,包括:傳輸子模塊,用于分別將所述每個分詞輸入 詞向量工具獲得所述每個分詞的詞向量;運算子模塊,用于將所有所述分詞的詞向量的乘 積與所述語料詞矩陣相乘獲得所述目標詞向量。
[0025] 可選的,所述相似度計算模塊,包括:第一計算子模塊,用于計算獲得所述目標詞 向量與所述設定詞向量之間的余弦值,將所述余弦值作為所述相似度;或者,第二計算子模 塊,計算獲得所述目標詞向量與所述設定詞向量之間的相關系數,將所述相關系數作為所 述相似度。
[0026] 可選的,所述設定詞向量為至少一類參考短信的詞向量時,所述裝置還包括:參考 詞向量獲取模塊,用于獲得所述至少一類參考短信中的每條參考短信的參考詞向量;設定 詞向量獲取模塊,用于獲得所述每條參考短信的參考詞向量的均值作為所述設定詞向量。
[0027] 可選的,當所述參考短信為惡意短信時,所述裝置還包括:第一查詢模塊,用于在 確定所述目標短信與所述至少一條或至少一類參考短信相似之后,獲得所述目標短信的中 心號,及查詢獲得所述中心號發出的N條短信;第二確認模塊,用于獲得所述N條短信中與所 述目標短信相同或相似的短信數量M;判斷M/N是否大于第一預設比例;若M/N大于所述第一 預設比例,確定所述目標短信為新的惡意短信、所述中心號為偽基站的中心號。
[0028] 可選的,當所述參考短信為惡意短信時,所述裝置還包括:第二查詢模塊,用于在 確定所述目標短信與所述至少一條或至少一類參考短信相似之后,獲得所述目標短信的中 心號,及查詢獲得所述中心號發出的N條短信;第三確認模塊,用于判斷所述N條短信中屬性 為黑短信的數量Μ與N的比值是否大于第二預設比例,其中,所述黑短信包含詐騙短信、廣告 短信、騷擾短信;若Μ與Ν的比值大于所述第二預設比例,確定所述目標短信為疑似惡意短 {目。
[0029] 可選的,所述參考短信包括:垃圾短信、詐騙短信或騷擾短信。
[0030] 可選的,所述裝置還包括:添加模塊,用于在確定所述目標短信與所述至少一條或 至少一類參考短信相似之后,生成并顯示一提示信息,所述提示信息用于提示用戶對所述 目標短信進行標記;獲得用戶對所述目標短信所做的標記信息;若所述標記信息表征所述 目標短信屬于垃圾短信或惡意短信,獲得發送所述目標短信的電話號碼,并標記所述電話 號碼為發送過垃圾短信或惡意短信的電話號碼;將所述電話號碼添加到分析其歸屬地和/ 或地區編碼號段的行列中。
[0031 ]可選的,所述添加模塊還用于:若所述標記信息表征所述目標短信屬于垃圾短信 或惡意短信,建立所述標記信息與所述電話號碼之間的對應關系并保存到預置數據庫中。
[0032] 本申請實施例中的上述一個或多個技術方案,至少具有如下技術效果:
[0033] 通過將目標短信和參考短信轉換成詞向量,并計算目標短信和參考短信的詞向量 之間的相似度,從而用詞向量之間的相似度來判斷目標短信與參考短信之間是否相似,獲 得與參考短信相似的目標短信,檢測出新的短信如詐騙短信、廣告短信、騷擾短信等,進而 解決了現有技術中對新短信的識別存在滯后的技術問題,提高了對新短信的識別效率。
【附圖說明】
[0034] 圖1為本申請實施例一提供的一種檢測相似短信的方法的流程圖;
[0035] 圖2為本申請實施例一提供的確認惡意短信的流程圖;
[0036] 圖3為本申請實施例提供二的一種檢測相似短信的裝置的示意圖。
【具體實施方式】
[0037] 下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實施例是示例性的,僅用于解釋本發明,而不能解釋為對本發明的限制。
[0038]本技術領域技術人員可以理