垃圾信息處理方法、裝置和系統的制作方法
【專利摘要】本發明公開了一種垃圾信息處理方法、裝置和系統。該方法包括:根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值;判斷所述概率值是否大于所述垃圾信息樣本庫對應的設定閾值;若判斷出所述概率值大于所述垃圾信息樣本庫對應的設定閾值時,確定所述待發送信息為垃圾信息。本發明提供的技術方案中,根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合生成第一集合的概率值,若判斷出概率值大于垃圾信息樣本庫對應的設定閾值時,確定待發送信息為垃圾信息,本發明的方案提高了對垃圾信息判斷的準確率,從而降低了對垃圾信息的誤判率。
【專利說明】
垃圾信息處理方法、裝置和系統
技術領域
[0001]本發明涉及通信技術領域,特別涉及一種垃圾信息處理方法、裝置和系統。
【背景技術】
[0002]垃圾信息是指:未經用戶同意向用戶發送的用戶不愿意收到的信息,或者用戶不能根據自己的意愿拒絕接收的信息。
[0003]當前,垃圾信息的攔截方式主要包括如下兩種:
[0004]—種是基于發送頻次的垃圾信息判斷方法。例如:若垃圾信息的發送的速度每小時超過了 300條就對該垃圾信息加以攔截并關閉用戶手機的正常功能。但是,這種方式很容易把正常的群發信息如節日問候、通知等信息誤攔,而真正的垃圾信息卻可以通過調整發送頻度繞過攔截,引起大量用戶的投訴。例如:一個用戶換號時,需要群發信息告訴他通訊錄里的朋友時,如果朋友數量超過攔截門檻就會被誤攔截。
[0005]另一種是基于內容關鍵字匹配的垃圾信息判斷方法。如果某條信息內容包含關鍵字列表中的內容,就把該信息判定為垃圾信息并加以攔截。但是,這種方式很容易把正常信息誤判為垃圾信息,例如:如“發票”是關鍵字列表中的內容,結果正常用戶只要發一條包含“發票”的信息就會被誤攔。而真正的垃圾信息發送者很容易通過同音字、近音字、拼音替代或加分隔符等方法繞過關鍵字匹配算法而發送垃圾信息,而該垃圾信息無法有效攔截和過濾。
[0006]綜上所述,現有技術中對垃圾信息的誤判率較高。
【發明內容】
[0007]本發明提供一種垃圾信息處理方法、裝置和系統,用于降低對垃圾信息的誤判率。
[0008]為實現上述目的,本發明提供了一種垃圾信息處理方法,包括:
[0009]根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值;
[0010]判斷所述概率值是否大于所述垃圾信息樣本庫對應的設定閾值;
[0011]若判斷出所述概率值大于所述垃圾信息樣本庫對應的設定閾值時,確定所述待發送信息為垃圾信息。
[0012]可選地,還包括:
[0013]若判斷出所述概率值小于或等于所述垃圾信息樣本庫對應的設定閾值時,判斷所述垃圾信息樣本庫是否為最后一個垃圾信息樣本庫;
[0014]若判斷出所述垃圾信息樣本庫為最后一個垃圾信息樣本庫時,確定出所述待發送?目息不是垃圾?目息;
[0015]若判斷出所述垃圾信息樣本庫不是最后一個垃圾信息樣本庫時,根據與待發送信息對應的第一集合和與下一個的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值,并繼續執行所述判斷所述概率值是否大于所述垃圾信息樣本庫對應的設定閾值的步驟。
[0016]可選地,所述根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值包括:
[0017]將所述待發送信息進行拆分處理生成第一拆分結果,將第一拆分結果作為元素形成第一集合;
[0018]將所述當前的垃圾信息樣本庫中的樣本信息進行拆分處理生成第二拆分結果,將第二拆分結果作為元素形成第二集合;
[0019]對第一集合和第二集合進行與操作,形成第三集合;
[0020]將第一集合中的元素數量除以第三集合中的元素數量,生成所述概率值。
[0021]可選地,所述根據與待發送信息對應的第一集合和與下一個的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值包括:
[0022]將所述待發送信息進行拆分處理生成第一拆分結果,將第一拆分結果作為元素形成第一集合;
[0023]將所述下一個的垃圾信息樣本庫中的樣本信息進行拆分處理生成第二拆分結果,將第二拆分結果作為元素形成第二集合;
[0024]對第一集合和第二集合進行與操作,形成第三集合;
[0025]將第一集合中的元素數量除以第三集合中的元素數量,生成所述概率值。
[0026]可選地,還包括:
[0027]通過邏輯回歸算法對所述垃圾信息樣本庫中的垃圾信息進行訓練,生成所述垃圾信息樣本庫對應的設定閾值。
[0028]可選地,所述當前的垃圾信息樣本庫的優先級高于所述下一個的垃圾信息樣本庫。
[0029]可選地,還包括:
[0030]接收垃圾信息舉報平臺發送的樣本信息;
[0031 ]判定所述樣本信息是否為垃圾信息;
[0032]若判定出所述樣本信息為垃圾信息時,將所述樣本信息添加入垃圾信息樣本庫;
[0033]為添加入樣本信息的垃圾信息樣本庫設置優先級。
[0034]為實現上述目的,本發明提供了一種垃圾信息處理裝置,包括:
[0035]接收模塊,用于接收信息中心發送的待發送信息;
[0036]第一生成模塊,用于根據與所述待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值;
[0037]第一判斷模塊,用于判斷所述概率值是否大于所述垃圾信息樣本庫對應的設定閾值;
[0038]確定模塊,用于若所述第一判斷模塊判斷出所述概率值大于所述垃圾信息樣本庫對應的設定閾值時,確定所述待發送信息為垃圾信息。
[0039]可選地,還包括:
[0040]第二判斷模塊,用于若所述第一判斷模塊判斷出所述概率值小于或等于所述垃圾信息樣本庫對應的設定閾值時,判斷所述垃圾信息樣本庫是否為最后一個垃圾信息樣本庫;
[0041]所述確定模塊還用于若所述第二判斷模塊判斷出所述垃圾信息樣本庫為最后一個垃圾信息樣本庫時,確定出所述待發送信息不是垃圾信息;
[0042]第一生成模塊還用于若所述第二判斷模塊判斷出所述垃圾信息樣本庫不是最后一個垃圾信息樣本庫時,根據與待發送信息對應的第一集合和與下一個的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值,并觸發所述第一判斷模塊執行所述判斷所述概率值是否大于所述垃圾信息樣本庫對應的設定閾值的步驟。
[0043]為實現上述目的,本發明提供了一種垃圾信息處理系統,包括:信息中心和上述垃圾信息處理裝置;
[0044]所述信息中心,用于向所述垃圾信息處理裝置發送待發送信息。
[0045]本發明具有以下有益效果:
[0046]本發明提供的垃圾信息處理方法、裝置和系統中,根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合生成第一集合的概率值,若判斷出概率值大于垃圾信息樣本庫對應的設定閾值時,確定待發送信息為垃圾信息,本發明的方案提高了對垃圾信息判斷的準確率,從而降低了對垃圾信息的誤判率。
【附圖說明】
[0047]圖1為本發明實施例二提供的一種垃圾信息處理方法的流程圖;
[0048]圖2為本發明實施例三提供的一種垃圾信息處理裝置的結構示意圖;
[0049]圖3為本發明實施例四提供的一種垃圾信息處理裝置的結構示意圖;
[0050]圖4為本發明實施例五提供的一種垃圾信息處理系統的結構示意圖。
【具體實施方式】
[0051]為使本領域的技術人員更好地理解本發明的技術方案,下面結合附圖對本發明提供的垃圾信息處理方法、裝置和系統進行詳細描述。
[0052]本發明實施例一提供了一種垃圾信息處理方法,該方法包括:
[0053]步驟101、根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值。
[0054]步驟102、判斷概率值是否大于樣本庫對應的設定閾值,若判斷出概率值是否大于樣本庫對應的設定閾值時,確定待發送信息為垃圾信息。
[0055]進一步地,若判斷出概率值小于或等于垃圾信息樣本庫對應的設定閾值時,根據與待發送信息對應的第一集合和與下一個的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值,并繼續執行步驟102。
[0056]本實施例提供的垃圾信息處理方法中,根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合生成第一集合的概率值,若判斷出概率值大于垃圾信息樣本庫對應的設定閾值時,確定待發送信息為垃圾信息,本實施例的方案提高了對垃圾信息判斷的準確率,從而降低了對垃圾信息的誤判率。
[0057]圖1為本發明實施例二提供的一種垃圾信息處理方法的流程圖,如圖1所示,該方法包括:
[0058]步驟201、接收垃圾信息舉報平臺發送的樣本信息。
[0059]本實施例中的各步驟可以由垃圾信息處理裝置執行。但用戶的終端接收到某一信息而該用戶認為該信息為垃圾信息時,用戶可通過終端將該信息作為樣本信息發送至垃圾信息舉報平臺。用戶可以隨時通過終端將樣本信息發送至垃圾信息舉報平臺,而垃圾信息舉報平臺可隨時收集用戶舉報的樣本信息。
[0060]步驟202、判定樣本信息是否為垃圾信息,若是,則執行步驟203,若否,則繼續執行步驟201。
[0061]可選地,當垃圾信息處理裝置在設定時間段內接收到一定數量的同一樣本信息時,將該樣本信息判定為垃圾信息。例如:在一天時間內接收到500個某一樣本信息時,將該樣本信息判定為垃圾信息。
[0062]可選地,通過人工操作的方式,由操作者人工將樣本信息判定為垃圾信息。
[0063]步驟203、將樣本信息添加入垃圾信息樣本庫。
[0064]本實施例中,可設置一個或者多個垃圾信息樣本庫。若設置多個垃圾信息樣本庫時,可按照類型對垃圾信息樣本庫進行分類,則一個垃圾信息樣本庫可對應于一個類型。為區別不同類型的垃圾信息樣本庫,不同類型的垃圾信息樣本庫具備不同的關鍵詞。例如:一種類型的垃圾信息樣本庫具備的關鍵詞為“發票”。
[0065]步驟204、為添加入樣本信息的垃圾信息樣本庫設置優先級。
[0066]具體地,當一個垃圾信息樣本庫中新添加入了樣本信息之后,可將該垃圾信息樣本庫的優先級設置為最高級。也就是說,將最新添加了樣本信息的垃圾信息樣本庫放置在最優先位置。
[0067]同時,為了將一個垃圾信息樣本庫中的樣本信息的數量控制在一定的范圍內,當有新的樣本信息加入時可刪除最早添加入垃圾信息樣本庫中的樣本信息。采用實現順序實現了對垃圾信息樣本庫的實時更新,使得垃圾信息樣本庫中的樣本信息一直能夠保持更新狀態。
[0068]步驟205、接收信息中心發送的待發送信息。
[0069]本實施例中,信息中心在接收待發送信息之后,不是直接將該待發送信息下發,而是首先將該待發送信息發送給垃圾信息處理裝置。
[0070]步驟206、根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值。
[007? ]本步驟具體包括:
[0072]步驟2061、將待發送信息進行拆分處理生成第一拆分結果,將第一拆分結果作為元素形成第一集合。
[0073]優選地,可對待發送信息按每個字進行拆分處理,從拆分后的字中取出不同的字生成第一拆分結果,并將第一拆分結果作為元素形成第一集合SI。也就是說,第一集合SI中的元素為第一拆分結果。
[0074]步驟2062、將當前的垃圾信息樣本庫中的每個樣本信息進行拆分處理生成第二拆分結果,將第二拆分結果作為元素形成第二集合。
[0075]優選地,可對當前的垃圾信息樣本庫中的每個樣本信息按每個字進行拆分處理,從拆分后的字中取出不同的字生成第二拆分結果,并將第二拆分結果作為元素形成第二集合S2 ο也就是說,第二集合S2中的元素為第二拆分結果。
[0076]步驟2063、對第一集合和第二集合進行與操作,形成第三集合。
[0077]具體地,第三集合S = Sl U S2。
[0078]步驟2064、將第一集合中的元素數量除以第三集合中的元素數量,生成概率值。
[0079]具體地,該概率值R=I SI 1/1 Si,其中,I SI I為第一集合SI中的元素數量,I Si為第三集合中的元素數量。
[0080]步驟207、判斷概率值是否大于垃圾信息樣本庫對應的設定閾值,若是,則執行步驟208 ;若否,則執行步驟210。
[0081 ]本實施例中,可通過邏輯回歸算法對垃圾信息樣本庫中的樣本信息進行訓練,生成垃圾信息樣本庫對應的設定閾值。其中,每個垃圾信息樣本庫對應一個設定閾值β,優選地,β的取值可在0-1之間。設定閾值的大小受到垃圾信息樣本庫中的樣本信息數量的影響,垃圾信息樣本庫中的樣本信息的數量越多,則β的取值越接近于I。從上述內容可知,β的取值可根據垃圾信息樣本庫中的樣本信息的內容和數量動態調整,從而可有效避免垃圾信息發送者在垃圾信息前、后添加額外的內容而該垃圾信息不會被攔截的情況,同時還可以有效避免垃圾信息發送者每發送一條垃圾信息在內容中插入干擾符或者變換內容中的部分字而該垃圾信息不會被攔截的情況。
[0082]本實施例中,當判斷出概率值大于垃圾信息樣本庫對應的設定閾值時,表明待發送信息和垃圾信息樣本庫中的樣本信息相似高或相同;當判斷出概率值小于或等于垃圾信息樣本庫對應的設定閾值時,表明待發送信息和垃圾信息樣本庫中的樣本信息相似度低。
[0083]步驟208、確定待發送信息為垃圾信息。
[0084]步驟209、向信息中心發送攔截通知,攔截通知用于阻止信息中心不下發待發送信息,流程結束。
[0085]信息中心在接收到攔截通知時不再下發待發送信息,從而使得待發送信息被攔截。
[0086]步驟210、判斷垃圾信息樣本庫是否為最后一個垃圾信息樣本庫,若否,則執行步驟211;若是,則執行步驟212。
[0087]本實施例中,垃圾信息樣本庫按照優先級進行排列,當前的垃圾信息樣本庫的優先級高于下一個的垃圾信息樣本庫。因此需要判斷垃圾信息樣本庫是否為最后一個垃圾信息樣本庫,當判斷出垃圾信息樣本庫為最后一個垃圾信息樣本庫時,表明待發送信息與垃圾信息樣本庫中的樣本信息之間的比較過程已經完成;當判斷出垃圾信息樣本庫不是最后一個垃圾信息樣本庫時,表明需要繼續進行待發送信息與垃圾信息樣本庫中的樣本信息的比較過程。
[0088]步驟211、根據與待發送信息對應的第一集合和與下一個的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值,并繼續執行步驟207。
[0089]本步驟具體包括:
[0090]步驟2111、將待發送信息進行拆分處理生成第一拆分結果,將第一拆分結果作為元素形成第一集合。
[0091]優選地,可對待發送信息按每個字進行拆分處理,從拆分后的字中取出不同的字生成第一拆分結果,并將第一拆分結果作為元素形成第一集合SI。也就是說,第一集合SI中的元素為第一拆分結果。
[0092]步驟2112、將當前的垃圾信息樣本庫中的每個垃圾信息進行拆分處理生成第二拆分結果,將第二拆分結果作為元素形成第二集合。
[0093]優選地,可對下一個的垃圾信息樣本庫中的每個樣本信息按每個字進行拆分處理,從拆分后的字中取出不同的字生成第二拆分結果,并將第二拆分結果作為元素形成第二集合S2 ο也就是說,第二集合S2中的元素為第二拆分結果。
[0094]步驟2113、對第一集合和第二集合進行與操作,形成第三集合。
[0095]具體地,第三集合S = Sl U S2。
[0096]步驟2114、將第一集合中的元素數量除以第三集合中的元素數量,生成所述概率值。
[0097]具體地,該概率值R=I SI 1/1 Si,其中,I SI I為第一集合SI中的元素數量,I Si為第三集合中的元素數量。
[0098]步驟212、確定出待發送信息不是垃圾信息。
[0099]步驟213、向信息中心發送下發通知,下發通知用于允許所述信息中心下發待發送信息,流程結束。
[0100]信息中心在接收到下發通知時下發待發送信息,從而使得待發送信息被正常發送。
[0101]本發明中,待發送信息可以為待發送短信,樣本信息可以為樣本短信,則垃圾信息可以為垃圾短信。
[0102]本實施例提供的各步驟的執行順序可根據需要進行變更,上述執行順序僅為一種示例。
[0103]本實施例提供的垃圾信息處理方法中,根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合生成第一集合的概率值,若判斷出概率值大于垃圾信息樣本庫對應的設定閾值時,確定待發送信息為垃圾信息,本實施例的方案提高了對垃圾信息判斷的準確率,從而降低了對垃圾信息的誤判率。
[0104]圖2為本發明實施例三提供的一種垃圾信息處理裝置的結構示意圖,如圖2所示,該裝置包括:接收模塊11、第一生成模塊12、第一判斷模塊13和確定模塊14。
[0105]接收模塊11用于接收信息中心發送的待發送信息。第一生成模塊12用于根據與所述待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值。第一判斷模塊13用于判斷所述概率值是否大于所述垃圾信息樣本庫對應的設定閾值。確定模塊14用于若所述第一判斷模塊13判斷出所述概率值大于所述垃圾信息樣本庫對應的設定閾值時,確定所述待發送信息為垃圾信息。
[0106]本實施例提供的垃圾信息處理裝置可用于實現上述實施例一提供的垃圾信息處理方法。
[0107]本實施例提供的垃圾信息處理裝置中,根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合生成第一集合的概率值,若判斷出概率值大于垃圾信息樣本庫對應的設定閾值時,確定待發送信息為垃圾信息,本實施例的方案提高了對垃圾信息判斷的準確率,從而降低了對垃圾信息的誤判率。
[0108]圖3為本發明實施例四提供的一種垃圾信息處理裝置的結構示意圖,如圖3所示,該裝置在上述實施例一的基礎上還包括:第二判斷模塊15。第二判斷模塊15用于若所述第一判斷模塊13判斷出所述概率值小于或等于所述垃圾信息樣本庫對應的設定閾值時,判斷所述垃圾信息樣本庫是否為最后一個垃圾信息樣本庫。所述確定模塊14還用于若所述第二判斷模塊15判斷出所述垃圾信息樣本庫為最后一個垃圾信息樣本庫時,確定出所述待發送信息不是垃圾信息;第一生成模塊12還用于若所述第二判斷模塊15判斷出所述垃圾信息樣本庫不是最后一個垃圾信息樣本庫時,根據與待發送信息對應的第一集合和與下一個的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值,并觸發所述第一判斷模塊13執行所述判斷所述概率值是否大于所述垃圾信息樣本庫對應的設定閾值的步驟。
[0109]進一步地,所述第一生成模塊12包括:拆分子模塊121、與操作子模塊122和生成子模塊123。
[0110]拆分子模塊121用于將所述待發送信息進行拆分處理生成第一拆分結果,將第一拆分結果作為元素形成第一集合;將所述當前的垃圾信息樣本庫中的樣本信息進行拆分處理生成第二拆分結果,將第二拆分結果作為元素形成第二集合。與操作子模塊122用于對第一集合和第二集合進行與操作,形成第三集合。生成子模塊123用于將第一集合中的元素數量除以第三集合中的元素數量,生成所述概率值。
[0111]拆分子模塊121用于將所述待發送信息進行拆分處理生成第一拆分結果,將第一拆分結果作為元素形成第一集合;將所述下一個的垃圾信息樣本庫中的樣本信息進行拆分處理生成第二拆分結果,將第二拆分結果作為元素形成第二集合。與操作子模塊122用于對第一集合和第二集合進行與操作,形成第三集合。生成子模塊123用于將第一集合中的元素數量除以第三集合中的元素數量,生成所述概率值。
[0112]進一步地,該裝置還包括:第二生成模塊16。第二生成模塊16用于通過邏輯回歸算法對所述垃圾信息樣本庫中的垃圾信息進行訓練,生成所述垃圾信息樣本庫對應的設定閾值。
[0113]進一步地,該裝置還包括:判定模塊17、添加模塊18和設置模塊19。所述接收模塊11還用于接收垃圾信息舉報平臺發送的樣本信息。所述判定模塊17用于判定所述樣本信息是否為垃圾信息。所述添加模塊18用于若所述判定模塊17判定出所述樣本信息為垃圾信息時,將所述樣本信息添加入垃圾信息樣本庫。所述設置模塊19用于為添加入樣本信息的垃圾信息樣本庫設置優先級。
[0114]本實施例提供的垃圾信息處理裝置可用于實現上述實施例二提供的垃圾信息處理方法。
[0115]本實施例提供的垃圾信息處理裝置中,根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合生成第一集合的概率值,若判斷出概率值大于垃圾信息樣本庫對應的設定閾值時,確定待發送信息為垃圾信息,本實施例的方案提高了對垃圾信息判斷的準確率,從而降低了對垃圾信息的誤判率。
[0116]圖4為本發明實施例五提供的一種垃圾信息處理系統的結構示意圖,如圖4所示,該系統包括:垃圾信息處理裝置I和與垃圾信息處理裝置I連接的信息中心2。
[0117]進一步地,該系統還包括:與垃圾信息處理裝置I連接的垃圾信息舉報平臺3。
[0118]其中,垃圾信息處理裝置I可采用上述實施例三或者實施例四提供的垃圾信息處理裝置,此處不再重復描述。
[0119]其中,信息中心2用于向垃圾信息處理裝置I發送待發送信息。
[0120]其中,垃圾信息舉報平臺3用于向垃圾信息處理裝置I發送樣本信息。
[0121]本實施例提供的垃圾信息處理系統中,根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合生成第一集合的概率值,若判斷出概率值大于垃圾信息樣本庫對應的設定閾值時,確定待發送信息為垃圾信息,本實施例的方案提高了對垃圾信息判斷的準確率,從而降低了對垃圾信息的誤判率。
[0122]可以理解的是,以上實施方式僅僅是為了說明本發明的原理而采用的示例性實施方式,然而本發明并不局限于此。對于本領域內的普通技術人員而言,在不脫離本發明的精神和實質的情況下,可以做出各種變型和改進,這些變型和改進也視為本發明的保護范圍。
【主權項】
1.一種垃圾信息處理方法,其特征在于,包括: 根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值; 判斷所述概率值是否大于所述垃圾信息樣本庫對應的設定閾值; 若判斷出所述概率值大于所述垃圾信息樣本庫對應的設定閾值時,確定所述待發送信息為垃圾信息。2.根據權利要求1所述的垃圾信息處理方法,其特征在于,還包括: 若判斷出所述概率值小于或等于所述垃圾信息樣本庫對應的設定閾值時,判斷所述垃圾信息樣本庫是否為最后一個垃圾信息樣本庫; 若判斷出所述垃圾信息樣本庫為最后一個垃圾信息樣本庫時,確定出所述待發送信息不是垃圾?目息; 若判斷出所述垃圾信息樣本庫不是最后一個垃圾信息樣本庫時,根據與待發送信息對應的第一集合和與下一個的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值,并繼續執行所述判斷所述概率值是否大于所述垃圾信息樣本庫對應的設定閾值的步驟。3.根據權利要求1所述的垃圾信息處理方法,其特征在于,所述根據與待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值包括: 將所述待發送信息進行拆分處理生成第一拆分結果,將第一拆分結果作為元素形成第一集合; 將所述當前的垃圾信息樣本庫中的樣本信息進行拆分處理生成第二拆分結果,將第二拆分結果作為元素形成第二集合; 對第一集合和第二集合進行與操作,形成第三集合; 將第一集合中的元素數量除以第三集合中的元素數量,生成所述概率值。4.根據權利要求2所述的垃圾信息處理方法,其特征在于,所述根據與待發送信息對應的第一集合和與下一個的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值包括: 將所述待發送信息進行拆分處理生成第一拆分結果,將第一拆分結果作為元素形成第一集合; 將所述下一個的垃圾信息樣本庫中的樣本信息進行拆分處理生成第二拆分結果,將第二拆分結果作為元素形成第二集合; 對第一集合和第二集合進行與操作,形成第三集合; 將第一集合中的元素數量除以第三集合中的元素數量,生成所述概率值。5.根據權利要求1所述的垃圾信息處理方法,其特征在于,還包括: 通過邏輯回歸算法對所述垃圾信息樣本庫中的垃圾信息進行訓練,生成所述垃圾信息樣本庫對應的設定閾值。6.根據權利要求2所述的垃圾信息處理方法,其特征在于,所述當前的垃圾信息樣本庫的優先級高于所述下一個的垃圾信息樣本庫。7.根據權利要求1所述的垃圾信息處理方法,其特征在于,還包括: 接收垃圾信息舉報平臺發送的樣本信息; 判定所述樣本信息是否為垃圾信息; 若判定出所述樣本信息為垃圾信息時,將所述樣本信息添加入垃圾信息樣本庫; 為添加入樣本信息的垃圾信息樣本庫設置優先級。8.一種垃圾信息處理裝置,其特征在于,包括: 接收模塊,用于接收信息中心發送的待發送信息; 第一生成模塊,用于根據與所述待發送信息對應的第一集合和與當前的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值; 第一判斷模塊,用于判斷所述概率值是否大于所述垃圾信息樣本庫對應的設定閾值; 確定模塊,用于若所述第一判斷模塊判斷出所述概率值大于所述垃圾信息樣本庫對應的設定閾值時,確定所述待發送信息為垃圾信息。9.根據權利要求8所述的垃圾信息處理裝置,其特征在于,還包括: 第二判斷模塊,用于若所述第一判斷模塊判斷出所述概率值小于或等于所述垃圾信息樣本庫對應的設定閾值時,判斷所述垃圾信息樣本庫是否為最后一個垃圾信息樣本庫; 所述確定模塊還用于若所述第二判斷模塊判斷出所述垃圾信息樣本庫為最后一個垃圾信息樣本庫時,確定出所述待發送信息不是垃圾信息; 第一生成模塊還用于若所述第二判斷模塊判斷出所述垃圾信息樣本庫不是最后一個垃圾信息樣本庫時,根據與待發送信息對應的第一集合和與下一個的垃圾信息樣本庫對應的第二集合,生成第一集合的概率值,并觸發所述第一判斷模塊執行所述判斷所述概率值是否大于所述垃圾信息樣本庫對應的設定閾值的步驟。10.一種垃圾信息處理系統,其特征在于,包括:信息中心和權利要求8或9所述的垃圾信息處理裝置; 所述信息中心,用于向所述垃圾信息處理裝置發送待發送信息。
【文檔編號】G06F17/30GK105843856SQ201610151186
【公開日】2016年8月10日
【申請日】2016年3月16日
【發明人】劉曉靖, 胡尼亞
【申請人】中國聯合網絡通信集團有限公司