專利名稱:垃圾短信過濾方法及裝置的制作方法
技術領域:
本發明涉及信息技術,尤其涉及一種垃圾短信過濾方法及裝置。
背景技術:
短信息業務是移動通信領域的一個成功典范,簡單、易用、廉價、開放的設計理念使其成為當今最重要的通信方式。然而,短信息業務在給人們提供便捷通信手段的同時,也導致手機間的垃圾短信息泛濫成災。目前,對垃圾短信息的監控和攔截主要是在短信息中心、互通網關、高級/低級信令轉接點(High/Low Signal Transfer Point, HSTP/LSTP)等關鍵網元節點上建立垃圾短信息監控系統。現有技術中,根據短信息的關鍵字和發送頻次對短信息進行過濾和攔截。然而,這種方法可能由于非法用戶降低發送頻次或變換關鍵字而無法攔截垃圾短信息,攔截的準確率低。
發明內容
本發明提供一種垃圾短信過濾方法及裝置,用以解決現有垃圾短信息的監控和攔截方法由于非法用戶降低發送頻次或變換關鍵字而無法攔截垃圾短信息,攔截的準確率低的問題。—方面,本發明實施 例提供一種垃圾短信過濾方法,包括獲取短信息;確定所述短信息的至少兩種特征信息的可疑度;根據所述至少兩種特征信息的可疑度以及每種所述特征信息對應的權值,確定所述短信息的可疑度閥值;若所述短信息的所述可疑度閥值大于設定閾值,則對所述短信息進行過濾。另一方面,本發明實施例提供一種垃圾短信過濾裝置,包括獲取模塊、確定模塊、計算模塊和處理模塊;所述獲取模塊,用于獲取短信息;所述確定模塊,用于確定所述短信息的至少兩種特征信息的可疑度;所述計算模塊,用于根據所述至少兩種特征信息的可疑度以及每種所述特征信息對應的權值,確定所述短信息的可疑度閥值;所述處理模塊,用于當判斷所述短信息的所述可疑度閥值大于設定閾值時,則對所述短信息進行過濾。本發明提供的垃圾短信過濾方法和裝置,根據短信息的至少兩種特征信息的可疑度以及每種特征信息對應的權值來確定短信息的可疑度閥值,對可疑度閥值大于設定閾值的短信息進行過濾,提高了攔截的準確率。
圖1為本發明提供的垃圾短信過濾方法一個實施例的流程圖;圖2為本發明提供的垃圾短信過濾方法另一個實施例的流程圖;圖3為本發明提供的垃圾短信過濾裝置一個實施例的結構示意圖;圖4為本發明提供的垃圾短信過濾裝置另一個實施例的結構示意圖。
具體實施例方式圖1為本發明提供的垃圾短信過濾方法一個實施例的流程圖。如圖1所示,以下步驟的執行主體可以為設置在短信息中心網絡中的服務器,或是集成在該服務器上的模塊或芯片。該垃圾短信過濾方法具體包括SlOl,獲取短信息;其中,獲取的短信息可以為通過短信息中心接收的來自手機、報警設備或者互聯網等發送方發送的短信息。獲取到的短信息包括短信息內容、短信息的發送號碼,短信息的接收號碼及時間等信息。S102,確定該短信息的至少兩種特征信息的可疑度;其中,特征信息可以為對短信息是否進行過濾,攔截的判斷依據,當一條短信息符合至少兩種特征信息時,可以根據該短信息中特征信息的具體內容和程度范圍,賦予該短信息不同等級的可疑度,該可疑度可用數值表示。其中,短信息的 至少兩種特征信息可以體現為一定時間內相同內容的短信息的數量,用戶發送相同內容短信息的數量,用戶發送的不同短信息數量,用戶的通話次數,短信息的發送成功率,信息的數字內容特征,短信息的被叫號碼特征,短信息的關鍵字、關鍵句等方面的特征。可以根據各特征信息的程度,例如數量大小,通話次數大小,被叫號碼的號碼段等情況,賦予不同類型和程度的特征信息以不同的可疑度。S103,根據所述至少兩種特征信息的可疑度以及每種所述特征信息對應的權值,確定所述短信息的可疑度閥值;根據上述至少兩種特征信息的程度或范圍確定的可疑度,以及每種特征信息對應的權值,來確定該短信息的可疑度閥值。其中,每種特征信息對應的權值可以根據該特征信息在判斷該短息是否為垃圾短息過程中的權重來確定。例如在判斷一條短信息是否為垃圾短息時,采用4種特征信息作為判斷依據,分別是一定時間內相同內容的短信息的數量,用戶發送相同內容短信息的數量,用戶發送的不同短信息數量,短信息的發送成功率。其中,對于短信息的發送成功率,我們認為相對于其它三種特征信息,其在判斷過程中地位最高,權重最大,那么就將該特征信息的權值設定的相對較高。具體地,若上述4種的權值之和為1,那么就可以設定該短信息的發送成功率的權值為O. 5,以體現其在四種特征信息中所占的較高權重。另外,該可疑度閥值的確定方式也可以為將每種特征信息的可疑度及其對應的權值進行某種運算后獲得,這里對獲取該可疑度閥值的具體方式不做限定。S104,若所述短信息的所述可疑度閥值大于設定閾值,則對所述短信息進行過濾。具體地,當由一條短信息的每種特征信息的可疑度及其對應的權值進行某種運算后獲得的可疑度閥值大于設定閾值時,則認為該短信息為垃圾短信息,并對該短信息進行過濾。本發明提供的垃圾短信過濾方法和裝置,根據短信息的至少兩種特征信息的可疑度以及每種特征信息對應的權值來確定短信息的可疑度閥值,對可疑度閥值大于設定閾值的短信息進行過濾,提高了攔截的準確率。圖2為本發明提供的垃圾短信過濾方法另一個實施例的流程圖,是如圖1所示實施例的一種具體的實現方式。如圖2所示,所述方法具體包括S201,獲取短信息;具體地,對該步驟的說明可參看步驟101,在此不做贅述。S202,識別所述短信息是否為點對點短信息;垃圾短信息按照其發送方式可以分為兩種,具體包括服務商(ServiceProvider, SP)利用移動運營商的短信息網關進行發送,以下簡稱為SP發送,和普通用戶間的點對點發送,以下簡稱點對點發送。對于SP發送方式,用戶收到短信息時,其顯示的發送號碼為短信息的接入號,而不是普通用戶的手機號碼,此種方法發送的垃圾短信息具有速度快,操作簡單,需要運營商許可等特點,短信息類型以商品廣告、服務類居多;對于點對點發送方式,則是將手機卡插入群發器,通過串口連接線連接到計算機的串口上,然后利用計算機上的群發軟件進行發送。使用者或是購買大量無需注冊的手機卡(如動感地帶、神州行等)來進行透支,或是抓住優惠套餐的軟肋大量發送短信息。一個群發器可以同時插入16-20個以上的手機卡,能在很短的時間內群發上萬條的短信息,因此運營商往往來不及計費就被惡意透支話費。用戶收到短信息時,其顯示的發送號碼為普通的手機號碼。基于上述兩種方式發送的短信息特征,在接收到一條短信息后,首先判斷短信息的發送者是否為黑名單用戶, 若是,則對短信息進行攔截,結束短信息發送過程;若不是,再識別該短信息具體為點對點短信息、SP端口發送的短信息還是設備報警短信息。鑒于SP下發的短信息可通過加強SP審核管理的方式進行處理,而點對點垃圾短信息往往比SP發起的垃圾短信息變化更多、攔截更難,本發明實施例主要針對點對點垃圾短信息進行過濾、攔截。為此,將點對點垃圾短信息、SP發起的垃圾短信息和設備報警短信息分開處理,對于SP發起的垃圾短信息和設備報警短信息不作過濾處理,直接發送至目的用戶;而對點對點短信息則繼續進行以下步驟的處理。S203,確定所述短信息中是否包含中文信息;若所述短信息中存在所述中文信息,則確定對所述短信息進行以下任一種或多種預處理操作。具體地,當識別出一條短信息為點對點短信息,并需要確定該短信息的至少兩種特征信息的可疑度之前,需將該短信息進行預處理,使其具有統一的標準格式,便于特征信息的確定。而符合進行預處理操作的短信息中應包含中文信息。若該短信息中不含有中文信息,則對短信息進行通放,將短信息發送至目的用戶,結束短信息發送過程;若該短信息中存在中文信息,則確定對短信息進行以下的任一種或多種預處理操作。可選的,在本實施例中,還可以先判斷一條短信息中,是否包含中文信息,將包含中文信息的短信息進行點對點短信息的識別,對于識別出的點對點短信息確定其需要進行以下任一種或多種預處理操作。S204,對所述短信息進行以下任一種或多種預處理操作統一編碼預處理操作,英文大小寫一致預處理操作,內容簡化預處理操作,分段預處理操作和原始內容信息記錄預處理操作。其中,統一(Unicode)編碼預處理操作可以包括將短信息進行Unicode編碼,生成具有統一編碼格式的原始短信息內容。由于短信息內容一般由中文、英文、數字以及特殊符號混雜組成,有的字符是單字節的,有的字符是雙字節的,如果不統一為定長的編碼,則不利于進行動態分割,而變成Unicode編碼后統一使用定長的,如16bit的編碼格式,便于下一步的動態分割和關鍵字匹配。通過Unicode編碼的統一轉換后,生成Unicode編碼的原始短信息內容。英文大小寫一致預處理操作可以包括將原始短信息內容的英文字母大小寫進行替換,統一為大寫字母或小寫字母,替換前后的內容含義是一致的。這時生成Unicode編碼的替換后短信息內容。內容簡化預處理操作可以包括將短信息內容中的英文、空格、特殊符號刪除,使短信息內容簡化。一般來說,發送包含漢字、數字的短信息才能讓用戶看得懂,如果內容中包含了大量的英文、特殊符號必然會嚴重影響可閱讀性。而且不法分子經常利用程序自動在每條短信息內容中插入長度不同的字母、空格、特殊字符等方式制造出大量內容、長度不相同的短信息,一般的匹配方式很難判斷這些內容是否基本相同。該內容簡化預處理操作不僅可以降低匹配難度,而且該操作一般也不會破壞內容結構,例如“你好!本公司有各種(FA)*(票),電話139-27231336張生。”經過簡化后變成“你好本公司有各種票電話13927231336張生”,變換后的內容含義基本無太大變化。這時生成的是Unicode編碼的簡化短信息內容。分段預處理操作可以包括對超過10個編碼長度的簡化短信息內容進行平均分割成5段,使用哈希算法(MD5)對分割后內容映射成一個唯一的哈希(hash)值,生成定長的分段短信息摘要,將這些分段短信息摘要組合構成一條短信息對應的短信息摘要。對少于10個編碼長度的簡化短信息內容不做分割,按一段生成hash值。該分段預處理操可以判斷內容、長度不完全相同的多條短信息是否屬于同一內容短信息。可選的,在本實施例中,上述分段預處理操作中,對于短信息進行分割的段數,以及每段的長度并不局限于上述描述。
`
原始內容信息記錄預處理操作可以包括經過上述統一編碼預處理操作,英文大小寫一致預處理操作,內容簡化預處理操作,分段預處理操作對短信息內容進行預處理后,最終生成包含主叫號碼、被叫號碼、原始短信息內容、替換后短信息內容、簡化短信息內容、分段短信息摘要等信息的原始短信息記錄。S205,確定所述預處理操作后得到的短信息的至少兩種特征信息的可疑度;具體地,對該步驟的描述請參看步驟102。在本步驟中,至少兩種特征信息的內容具體可以包括窗口時間內相同內容的短信息的數量將接收的具有相同短信息摘要的所有短信息進行統計。具體地,將當前短信息的分段短信息摘要的hash值與數據庫中的每條短信息摘要的分段短信息摘要的hash值進行匹配,如果當前短信息可匹配到的分段短信息摘要數量超過分段數量的50%,則可認為當前短信息與數據庫中該短信息的內容基本相同,數據庫中該短信息摘要的計數加1,否則將當前短信息按新短信息記錄在數據庫中。當窗口時間內的短信息數量累積到一定程度,則賦予當前短信息不同的可疑度。例如20條以下可疑度為1,20 50條可疑度為2……1000條以上可疑度為10。當某條短信息內容的可疑度超過一定閥值時,將這條內容送信息安全人員人工審定,以確定該短信息是否需要過濾。用此方法可以及時發現不法分子使用大批卡和短信息群發器進行低頻次發送短信息。單個用戶發送相同內容短信息的數量根據上述窗口時間內相同內容的短信息的數量賦予當前短信息可疑度的方法,計算單個用戶在窗口時間內發送相同內容的短信息的數量,并根據數量賦予當前短信息不同等級的可疑度。單個用戶發送短信息數量針對每個用戶在一個滑動窗口時間內發送的短信息的數量進行記錄,當窗口時間內發送短信息的數量超過一個既定的閥值時,賦予不同的可疑度。例如5條以下可疑度為1,5 10條可疑度為2……300條以上可疑度為10。單個用戶的通話次數不法分子一般會購買大批短信息套餐資費低廉的卡使用短信息群發器進行非法群發,這些卡一般只發短信息極少打電話。針對類似情況,可以通過查詢業務支撐系統(Bussiness Service, BS)的原始話單中采集用戶的通話頻次,例如通過在原始話單中采集移動用戶國際號碼-國際移動設備身份碼(Mobile Subscriberinternational ISDN-1nternational Mobile Equipment Identity,MSISDN-1MEI)數據,即MSISDN、國際移動用戶識別(International Mobile Subscriber Identification, IMSI)碼、國際移動設備身份碼(International Mobile Equipment Identity, I ME I)三兀組信息,以MSISDN統計更新次數,由此粗略計算用戶的通話頻次。當用戶發短信息時,向此信息庫查詢是否有相關記錄,若無,則說明用戶只發短信息無通話,賦予一個高的可疑度,同樣,根據用戶發送短信息數量與通話次數比例的多少賦予該短信息不同等級的可疑度。短信息的發送成功率由于受群發的號碼源影響,短信息的接收端是空號或停機等異常狀態的可能性很大,短信息的發送成功率必然比正常短信息低。針對這個特點,對主叫號碼發送短信息的成功率進 行判斷,通過計算窗口時間內的空號、停機失敗的比例,當成功率低于某閥值時,賦予該短 信息相應等級的可疑度。短信息的數字內容特征對簡化短信息內容的連續性數字進行判斷,區分11位手機號碼、固定電話號碼、銀行卡號等,并針對上述號碼的連續性程度賦予該短信息不同等級的可疑度。短信息的被叫號碼特征通過統計被叫號碼的MSISDN、IMSI的連續性來識別連號、隔號、萬號段,根據連續性程度不同,賦予該短信息不同等級的可疑度。短信息的關鍵字首先建立相關編碼表,該相關編碼表包括Unicode編碼對應表這個對應表包括字符、對應Unicode編碼、對應簡繁體字、對應拼音、對應全角字符、對應大小寫、對應象形字,樣例如表1:表IUnicode編碼對應表
權利要求
1.一種垃圾短信過濾方法,其特征在于,包括 獲取短息; 確定所述短信息的至少兩種特征信息的可疑度; 根據所述至少兩種特征信息的可疑度以及每種所述特征信息對應的權值,確定所述短信息的可疑度閥值; 若所述短信息的所述可疑度閥值大于設定閾值,則對所述短信息進行過濾。
2.根據權利要求1所述的垃圾短信過濾方法,其特征在于,所述確定所述短信息的至少兩種特征信息的可疑度之前,還包括 對所述短信息進行以下任一種或多種預處理操作統一編碼預處理操作,英文大小寫一致預處理操作,內容簡化預處理操作,分段預處理操作和原始內容信息記錄預處理操作。
3.根據權利要求2所述的垃圾短信過濾方法,其特征在于,所述對所述短信息進行以下任一種或多種預處理操作之前,還包括 識別所述短信息是否為點對點短信息, 若所述短信息為點對點短信息,則確定對所述短信息進行以下任一種或多種預處理操作;和/或 確定所述短息中是否包含中文息; 若所述短信息中存在所述中文信息,則確定對所述短信息進行以下任一種或多種預處理操作。
4.根據權利要求1-3任一項所述的垃圾短信過濾方法,其特征在于,所述至少兩種特征信息包括以下任意兩種或兩種以上特征信息窗口時間內相同內容的短信息的數量,單個用戶發送相同內容短信息的數量,單個用戶發送短信息數量,單個用戶的通話次數,所述短信息的發送成功率,所述短信息的數字內容特征,所述短信息的被叫號碼特征,所述短信息的關鍵字和所述短信息的關鍵句。
5.根據權利要求4所述的垃圾短信過濾方法,其特征在于,所述根據所述至少兩種特征信息的可疑度以及每種所述特征信息對應的權值,確定所述短信息的可疑度閥值,包括 將每種特征信息的可疑度及其對應的權值的乘積之和,確定為所述短信息的可疑度閥值。
6.一種垃圾短信過濾裝置,其特征在于,包括獲取模塊、確定模塊、計算模塊和處理模塊; 所述獲取模塊,用于獲取短信息; 所述確定模塊,用于確定所述短信息的至少兩種特征信息的可疑度; 所述計算模塊,用于根據所述至少兩種特征信息的可疑度以及每種所述特征信息對應的權值,確定所述短信息的可疑度閥值; 所述處理模塊,用于當判斷所述短信息的所述可疑度閥值大于設定閾值時,則對所述短信息進行過濾。
7.根據權利要求6所述的垃圾短信過濾裝置,其特征在于,所述裝置還包括 預處理模塊,用于所述確定模塊在確定所述短信息的至少兩種特征信息的可疑度之前,對所述短信息進行以下任一種或多種預處理操作統一編碼預處理操作,英文大小寫一致預處理操作,內容簡化預處理操作,分段預處理操作和原始內容信息記錄預處理操作。
8.根據權利要求7所述的垃圾短信過濾裝置,其特征在于,所述裝置還包括 識別模塊,用于所述預處理模塊對所述短信息進行以下任一種或多種預處理操作之前,識別所述短信息是否為點對點短信息,若所述短信息為點對點短信息,則所述預處理模塊對所述短信息進行以下任一種或多種預處理操作;和/或 所述確定模塊,還用于所述預處理模塊對所述短信息進行以下任一種或多種預處理操作之前,確定所述短信息中是否包含中文信息,若所述短信息中存在所述中文信息,則所述預處理模塊對所述短信息進行以下任一種或多種預處理操作。
9.根據權利要求6-8任一項所述的垃圾短信過濾裝置,其特征在于,所述確定模塊確定所述短信息的至少兩種特征信息包括以下任意兩種或兩種以上特征信息窗口時間內相同內容的短信息的數量,單個用戶發送相同內容短信息的數量,單個用戶發送短信息數量,單個用戶的通話次數,所述短信息的發送成功率,所述短信息的數字內容特征,所述短信息的被叫號碼特征,所述短信息的關鍵字和所述短信息的關鍵句。
10.根據權利要求9所述的垃圾短信過濾裝置,其特征在于,所述計算模塊具體用于 將每種特征信息的可疑度及其對應的權值的乘積之和,確定為所述短信息的可疑度閥值。
全文摘要
本發明提供一種垃圾短信過濾方法及裝置,方法包括獲取短信息;確定所述短信息的至少兩種特征信息的可疑度;根據所述至少兩種特征信息的可疑度以及每種所述特征信息對應的權值,確定所述短信息的可疑度閥值;若所述短信息的所述可疑度閥值大于設定閾值,則對所述短信息進行過濾。本發明實施例有效解決了由于非法用戶降低發送頻次或變換關鍵字而無法攔截垃圾短信息,攔截的準確率低的問題。
文檔編號H04W12/12GK103067896SQ201310018709
公開日2013年4月24日 申請日期2013年1月17日 優先權日2013年1月17日
發明者張尼, 張云勇, 劉明輝, 伍銘堅, 易陽鋒, 歐陽秀平 申請人:中國聯合網絡通信集團有限公司