本發明涉及互聯網技術領域,特別是涉及一種垃圾文本息識別方法和裝置。
背景技術:
隨著現在通信技術的迅猛發展和互聯網的普及,在帶給用戶更多方便的同時,垃圾文本問題也充斥著人們的視野。具體來說,一些不良用戶在互聯網上發布大量涉政、涉黃、涉賭、虛假廣告、不文明用語等垃圾信息,給互聯網的健康發展帶來嚴重的不利影響。因此,有必要對互聯網上的垃圾文本進行識別,以便對這些垃圾文本進行過濾或者刪除。
技術實現要素:
有鑒于此,本發明提供了一種垃圾文本識別方法和裝置,用于對用戶上傳的文本是否垃圾文本進行識別,以避免垃圾文本對互聯網的健康發展帶來不利影響。
為了解決上述問題,本發明公開了一種垃圾文本識別方法,應用于互聯網,所述方法具體包括步驟:
獲取互聯網的用戶輸入的文本;
對所述文本的特征進行特征提取,得到所述文本的多個文本特征;
利用預設的垃圾文本識別模型對所述文本特征進行識別,得到所述文本的垃圾概率。
優選的,所述對所述文本的特征進行特征提取,包括:
利用預先構建的語料庫、停用詞表、關鍵詞表和變異詞表對所述文本進行特征提取,得到所述多個文本特征。
優選的,所述關鍵詞表的構建方法包括如下步驟:
根據所述語料庫對所述文本進行分詞處理,并統計所述分詞處理得到的每個詞或字符所出現的頻次;
將通過分詞處理提取出的各個類別的詞、字符和詞組合作為關鍵詞;
根據所述關鍵詞和所述頻次得到所述關鍵詞的垃圾概率;
將所述關鍵詞及其對應的所述垃圾概率加入預設的表格,得到所述關鍵詞表。
優選的,所述文本特征包括語義文本特征和非語義文本特征,所述利用預設的垃圾文本識別模型對所述文本特征進行識別,包括:
將所述語義文本特征輸入預設的語義特征垃圾文本識別模型進行識別,得到第一概率;
進一步,將所述非語義文本特征輸入預設的非語義特征垃圾文本識別模型進行識別,得到第二概率;
對所述第一概率和所述第二概率進行綜合處理,最終得到所述垃圾概率。
優選的,所述非語義特征垃圾文本識別模型為根據預設的多個關鍵詞表、運用機器學習模型訓練得到。
優選的,所述多個非語義文本特征包括關鍵詞垃圾概率、變異詞垃圾概率、標點符號占比、火星文占比、常用字占比、字符類型變換次數、實體詞個數占比和連續n個及以上重復字符出現次數中的部分或全部,n為正整數。
優選的,在所述對所述文本的特征進行計算步驟之前,還包括:
對所述文本進行預處理,剔除其中無益于垃圾識別的字符。
相應的,為了保證上述方法的實施,本發明還提供了一種垃圾文本識別系統,應用于互聯網,所述系統具體包括:
文本獲取模塊,用于獲取互聯網的用戶輸入的文本;
特征提取模塊,用于對所述文本的特征進行特征提取,得到所述文本的多個文本特征;
垃圾識別模塊,用于利用預設的垃圾文本識別模型對用戶輸入的文本進行識別,得到所述文本的垃圾概率。
優選的,所述特征提取模塊包括:
文本特征提取單元,用于利用預先構建的語料庫、停用詞表、關鍵詞表和變異詞表對所述文本進行特征提取,得到所述多個文本特征。
優選的,所述特征提取模塊還包括關鍵詞表構建單元,所述關鍵詞表構建單元包括:
分詞處理子單元,用于根據所述語料庫對所述文本進行分詞處理,并統計所述分詞處理得到的每個詞或字符所出現的頻次;
關鍵詞歸類子單元,用于將通過分詞處理提取出的各個類別的詞、字符和詞組合作為關鍵詞;
垃圾概率計算子單元,用于根據所述關鍵詞和所述頻次得到所述關鍵詞的垃圾概率;
關鍵詞表構建子單元,用于將所述關鍵詞及其對應的所述垃圾概率加入預設的表格,得到所述關鍵詞表。
優選的,所述文本特征包括語義文本特征和非語義文本特征,所述特征識別模塊包括:
第一識別單元,用于將所述語義文本特征輸入預設的語義特征垃圾文本識別模型,得到第一概率;
第二識別單元,用于進一步,將所述非語義文本特征輸入預設的非語義特征垃圾文本識別模型進行識別,得到第二概率;
綜合處理單元,用于對所述第一概率和所述第二概率進行綜合處理,最終得到所述垃圾概率。
優選的,還包括:
模型訓練模塊,用于通過根據預設的多個非語義文本特征、并運用機器學習模型進行訓練,得到所述非語義特征垃圾文本識別模型。
優選的,所述多個非語義文本特征包括關鍵詞垃圾概率、變異詞垃圾概率、標點符號占比、火星文占比、常用字占比、字符類型變換次數、實體詞個數占比和連續n個及以上重復字符出現次數中的部分或全部,n為正整數。
優選的,還包括:
文本預處理模塊,用于對所述文本進行預處理,剔除其中無益于垃圾識別的字符。
從上述技術方案可以看出,本發明提供了一種垃圾文本識別方法和系統,該方法和系統應用于互聯網,具體為獲取互聯網的用戶輸入的文本;對文本的特征進行特征提取,得到文本的多個文本特征;利用預設的垃圾文本識別模型對用于輸入的文本進行識別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預設標準可以確定出該文本是否為垃圾文本,并可進一步對判定的垃圾文本采取一定的預防措施,從而能夠避免垃圾文本對互聯網的健康發展帶來不利影響。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明提供的一種垃圾文本識別方法實施例的步驟流程圖;
圖2為本發明提供的另一種垃圾文本識別方法實施例的步驟流程圖;
圖3為本發明提供的一種垃圾文本識別系統實施例的結構框圖;
圖4為本發明提供的垃圾文本識別系統實施例的另一結構框圖;
圖5為本發明提供的另一種垃圾文本識別系統實施例的結構框圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
實施例一
圖1為本發明提供的一種垃圾文本識別方法實施例的步驟流程圖。
參照圖1所示,本實施例提供的垃圾文本識別方法應用于互聯網,用于在用戶輸入文本時對其是否垃圾文本進行判斷。該識別方法具體包括如下步驟:
s101:獲取互聯網的用戶輸入的文本。
用戶在使用互聯網過程中,經常會利用相應網絡工具的輸入界面輸入相應的文本,例如通過即時通軟件的輸入窗口、論壇或微博的回復窗口等輸入文本。當用戶通過相應的操作,產生發帖事件、回帖事件、評論事件、即時通訊事件、彈幕事件等事件時,獲取上述事件產生的輸入數據,即這里的文本。
s102:對獲取的文本進行特征提取,得到多個文本特征。
在獲取上述用戶輸入的文本后,對該文本進行特征提取,得到文本的多個文本特征,這里的文本特征包括語義文本特征和非語義文本特征。在對文本進行特征提取時,利用預先構建的語料庫、停用詞表、關鍵詞表和變異詞表對文本進行提前,得到上述的語義文本特征和非語義文本特征。
值得指出的是,本發明中僅選取一些典型的詞匯作為上述語義文本特征。同時,由于任何一種語言都具備海量的詞匯,但是詞性的個數且較為有限,為此,在選取非語義文本特征時,對于詞語本身的特征,我們將其詞性作為非語義文本特征予以提取,而不是將其本身作為特征,這樣就能夠大大降低上述非語義文本特征的維度,較好地規避了維度災難。
例如,當用戶輸入的文本為“我愛爸爸媽媽”,進行分詞處理后可以得到“我”、“愛”、“爸爸”和“媽媽”這四個詞匯,對應的詞性分別為代詞、動詞、名詞和名詞,則用戶傳入的文本中攜帶有代詞、動詞和名詞這三個非語義文本特征。
在預構相應語料庫時,需預先收集大量的文本數據,并經過自動或者人工標注,給每條文本數據打上相應的標簽,如涉黃、涉政、涉毒、涉賭、含不文明用語、廣告、灌水等,從而得到上述的語料庫。
在預構相應停用詞表時,依據上述構建好的語料庫,對文本進行分詞處理,并統計出每個詞或字符的頻次,自動或人工提取出高頻且無實際意義的詞或字符,將提取出的詞或字符做為停用詞,從而構建出上述停用詞表。
在預構相應關鍵詞表時,依據上述構建的語料庫,對文本進行分詞處理,并統計出得到的每個詞和字符出現的頻次,同時用關聯分析得出詞組合;例如,例如對于“制造&10&氣槍”,表示某一文本同時出現“制造”和“氣槍”兩個詞,且兩個詞之間的距離小于10個字符,則認為該文本為垃圾文本。將上述詞、字符和詞組合作為關鍵詞;進一步,依據上述詞、字符和詞組合的頻次,得到每個詞、字符和詞組合的垃圾概率;從而最終將上述詞、字符和詞組合以及相應的垃圾概率代入預設的表格中,最終得到相應的關鍵詞表。
在預構相應的變異詞表時,依據上述構建的語料庫,找出目前已經發現的關鍵詞的形近詞和同音詞,確定相應的垃圾概率,從而構建出關鍵詞的變異詞表。
s103:利用預設的垃圾文本識別模型對文本特征進行識別。
鑒于上述的文本特征包括語義文本特征和非語義文本特征,因此,這里的垃圾文本識別模型分別為語義特征垃圾文本識別模型和非語義特征垃圾文本識別模型,利用相應的識別模型對分別對語義文本特征和非語義文本特征進行識別,從而最終的到用戶輸入的文本的垃圾概率,以供決策者根據該垃圾概率確定相應的對策。
在對用戶輸入的文本進行識別時,首先將語義文本特征輸入上述語義特征垃圾文本識別模型進行識別,從而得到對應語義文本特征的垃圾概率,這里描述為第一概率;
然后,將非語義文本特征輸入上述非語義特征垃圾文本識別模型進行識別,從而得到對應于非語義文本特征的垃圾概率,這里描述為第二概率;
在得到上述分別對應于語義文本特征和非語義文本特征的第一概率和第二概率后,通過預設的計算規律,例如直接平均或者加權平均方法,得到用戶輸入的文本的垃圾概率。
上述的非語義特征垃圾文本識別模型是通過利用多個非語義文本特征進行訓練得到的,上述訓練類似于對數學模型的訓練,即將歷史數據代入預設的數學模型對其進行訓練,最終得到相應的模型。本發明中的非語義文本特征可達79個之多,例如:關鍵詞垃圾概率、變異詞垃圾概率、標點符號占比、火星文占比、常用字占比、字符類型變換次數、實體詞個數占比和連續n個及以上重復字符出現次數,其中n為正整數,例如可選擇5。
上述的關鍵詞垃圾概率用于判斷文本中關鍵詞的垃圾概率,文本中的關鍵詞的垃圾概率越高,則文本為垃圾文本的概率越大,具體垃圾概率的計算方法如下,且與變異詞垃圾概率相似:
步驟一:匹配出用戶輸入的文本中所有的關鍵詞,構建關鍵詞集合;
{w1,w2,…,wn}
步驟二:根據事先構建好的關鍵詞表,找出對應的垃圾概率集合;
{pl,p2,…,pn}
步驟三:計算依據如下文本關鍵詞垃圾概率公式,得到關鍵詞垃圾概率。
變異詞垃圾概率的作用同上述的關鍵詞垃圾概率,即變異詞的垃圾概率越高,則用戶輸入的文本的垃圾概率越大。其計算過程同關鍵詞垃圾概率的過程一致,只是其中使用的詞表為變異詞表。
在許多灌水的文本中,標點符號的使用常常不規范,常見的情況是過多重復地使用某一個或幾個標點符號。另外,在廣告的文本中,不良分子為了規避現有的垃圾識別方法,常常在聯系方式內容中加入無關的標點符號,例如“加扣扣2.3.5,32,1,3《7》”。因此,標點符號照壁這一特征在一定程度上能夠識別用戶輸入的文本是否為垃圾文本。
本發明中,將字符分為漢字、字幕、數字、標點符號、其他符號等五大類。字符類型變換此時是指文本中不同類型的字符兩兩相互變換的總次數。計算公式如下:
其中counti,j表示類型i與類型j的變換次數。
例如:在文本“加扣扣2.3.5,32,1,3《7》”中,漢字與數字的變換次數為1,數字與標點符號的變換次數為7,標點符號與數字的變換次數為6,其他兩兩變換的次數為0,因此,該文本的字符類型變換次數為1+7+6=14。
在實際中,灌水的文本內容常常實體詞較少,即能夠表達實際意義的詞較少。這里的實體詞包括名詞、動詞、形容詞等在句子中有實際含義的詞。
從上述技術方案中可以看出,本實施例提供了一種垃圾文本識別方法,該方法應用于互聯網,具體為獲取互聯網的用戶輸入的文本;對文本的特征進行特征提取,得到文本的多個文本特征;利用預設的垃圾文本識別模型對用戶輸入的文本進行識別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預設標準可以確定出該文本是否為垃圾文本,并可進一步對判定的垃圾文本采取一定的預防措施,從而能夠避免垃圾文本對互聯網的健康發展帶來不利影響。
實施例二
圖2為本發明提供的另一種垃圾文本識別方法實施例的步驟流程圖。
參照圖2所示,本實施例提供的垃圾文本識別方法應用于互聯網,用于在用戶輸入文本時對其是否垃圾文本進行判斷。該識別方法具體包括如下步驟:
s201:獲取互聯網的用戶輸入的文本。
用戶在使用互聯網過程中,經常會利用相應網絡工具的輸入界面輸入相應的文本,例如通過即時通軟件的輸入窗口、論壇或微博的回復窗口等輸入文本。當用戶通過相應的操作,產生發帖事件、回帖事件、評論事件、即時通訊事件、彈幕事件等事件時,獲取上述事件產生的輸入數據,即這里的文本。
s202:對獲取的文本進行預處理。
通過預處理,將用戶輸入的文本中無益于垃圾識別的字符予以剔除,例如http標簽、表情符號、停用詞等,通過減少需要辨識的字符能夠減少整個識別所需的計算量,從而一定意義上能夠提高識別效率。
s203:對獲取的文本進行特征提取,得到多個文本特征。
在獲取上述用戶輸入的文本后,對該文本進行特征提取,得到文本的多個文本特征,這里的文本特征包括語義文本特征和非語義文本特征。在對文本進行特征提取時,利用預先構建的語料庫、停用詞表、關鍵詞表和變異詞表對文本進行提前,得到上述的語義文本特征和非語義文本特征。
值得指出的是,本發明中僅選取一些典型的詞匯作為上述語義文本特征。同時,由于任何一種語言都具備海量的詞匯,但是詞性的個數且較為有限,為此,在選取非語義文本特征時,對于詞語本身的特征,我們將其詞性作為非語義文本特征予以提取,而不是將其本身作為特征,這樣就能夠大大降低上述非語義文本特征的維度,較好地規避了維度災難。
例如,當用戶輸入的文本為“我愛爸爸媽媽”,進行分詞處理后可以得到“我”、“愛”、“爸爸”和“媽媽”這四個詞匯,對應的詞性分別為代詞、動詞、名詞和名詞,則用戶傳入的文本中攜帶有代詞、動詞和名詞這三個非語義文本特征。
在預構相應語料庫時,需預先收集大量的文本數據,并經過自動或者人工標注,給每條文本數據打上相應的標簽,如涉黃、涉政、涉毒、涉賭、含不文明用語、廣告、灌水等,從而得到上述的語料庫。
在預構相應停用詞表時,依據上述構建好的語料庫,對文本進行分詞處理,并統計出每個詞或字符的頻次,自動或人工提取出高頻且無實際意義的詞或字符,將提取出的詞或字符做為停用詞,從而構建出上述停用詞表。
在預構相應關鍵詞表時,依據上述構建的語料庫,對文本進行分詞處理,并統計出得到的每個詞和字符出現的頻次,同時用關聯分析得出詞組合;例如,例如對于“制造&10&氣槍”,表示某一文本同時出現“制造”和“氣槍”兩個詞,且兩個詞之間的距離小于10個字符,則認為該文本為垃圾文本。將上述詞、字符和詞組合作為關鍵詞;進一步,依據上述詞、字符和詞組合的頻次,得到每個詞、字符和詞組合的垃圾概率;從而最終將上述詞、字符和詞組合以及相應的垃圾概率代入預設的表格中,最終得到相應的關鍵詞表。
在預構相應的變異詞表時,依據上述構建的語料庫,找出目前已經發現的關鍵詞的形近詞和同音詞,確定相應的垃圾概率,從而構建出關鍵詞的變異詞表。
s204:利用預設的垃圾文本識別模型對文本特征進行識別。
鑒于上述的文本特征包括語義文本特征和非語義文本特征,因此,這里的垃圾文本識別模型分別為語義特征垃圾文本識別模型和非語義特征垃圾文本識別模型,利用相應的識別模型分別對語義文本特征和非語義文本特征進行識別,從而最終的到用戶輸入的文本的垃圾概率,以供決策者根據該垃圾概率確定相應的對策。
在對用戶輸入的文本進行識別時,首先將語義文本特征輸入上述語義特征垃圾文本識別模型進行識別,從而得到對應語義文本特征的垃圾概率,這里描述為第一概率;
然后,將非語義文本特征輸入上述非語義特征垃圾文本識別模型進行識別,從而得到對應于非語義文本特征的垃圾概率,這里描述為第二概率;
在得到上述分別對應于語義文本特征和非語義文本特征的第一概率和第二概率后,通過預設的計算規律,例如直接平均或者加權平均方法,得到用戶輸入的文本的垃圾概率。
上述的非語義特征垃圾文本識別模型是通過利用多個非語義文本特征進行訓練得到的,上述訓練類似于對數學模型的訓練,即將歷史數據代入預設的數學模型對其進行訓練,最終得到相應的模型。本發明中的多個關鍵詞可達79個之多,其中的關鍵詞例如:關鍵詞垃圾概率、變異詞垃圾概率、標點符號占比、火星文占比、常用字占比、字符類型變換次數、實體詞個數占比和連續n個及以上重復字符出現次數,其中n為正整數,例如可選擇5。
上述的關鍵詞垃圾概率用于判斷文本中關鍵詞的垃圾概率,文本中的關鍵詞的垃圾概率越高,則文本為垃圾文本的概率越大。
從上述技術方案中可以看出,本實施例提供了另一種垃圾文本識別方法,該方法應用于互聯網,具體為獲取互聯網的用戶輸入的文本;對文本進行預處理,剔除其中無益于垃圾識別的字符;對文本的特征進行特征提取,得到文本的多個文本特征;利用預設的垃圾文本識別模型對文本特征進行識別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預設標準可以確定出該文本是否為垃圾文本,并可進一步對判定的垃圾文本采取一定的預防措施,從而能夠避免垃圾文本對互聯網的健康發展帶來不利影響。
需要說明的是,對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施例并不受所描述的動作順序的限制,因為依據本發明實施例,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優選實施例,所涉及的動作并不一定是本發明實施例所必須的。
實施例三
圖3為本發明提供的一種垃圾文本識別系統實施例的結構框圖。
參照圖3所示,本實施例提供的垃圾文本識別系統應用于互聯網,用于在用戶輸入文本時對其是否垃圾文本進行判斷。該識別系統具體包括文本獲取模塊10、特征提取模塊20和垃圾識別模塊30。
文本獲取模塊用于獲取互聯網的用戶輸入的文本。
用戶在使用互聯網過程中,經常會利用相應網絡工具的輸入界面輸入相應的文本,例如通過即時通軟件的輸入窗口、論壇或微博的回復窗口等輸入文本。當用戶通過相應的操作,產生發帖事件、回帖事件、評論事件、即時通訊事件、彈幕事件等事件時,獲取上述事件產生的輸入數據,即這里的文本。
特征提取模塊用于對獲取的文本進行特征提取,得到多個文本特征。
在獲取上述用戶輸入的文本后,對該文本進行特征提取,得到文本的多個文本特征,這里的文本特征包括語義文本特征和非語義文本特征。相應的,該模塊包括文本特征提取單元21,用于在對文本進行特征提取時,利用預先構建的語料庫、停用詞表、關鍵詞表和變異詞表對文本進行提前,得到上述的語義文本特征和非語義文本特征。
值得指出的是,本發明中僅選取一些典型的詞匯作為上述語義文本特征。同時,由于任何一種語言都具備海量的詞匯,但是詞性的個數且較為有限,為此,在選取非語義文本特征時,對于詞語本身的特征,我們將其詞性作為非語義文本特征予以提取,而不是將其本身作為特征,這樣就能夠大大降低上述非語義文本特征的維度,較好地規避了維度災難。
例如,當用戶輸入的文本為“我愛爸爸媽媽”,進行分詞處理后可以得到“我”、“愛”、“爸爸”和“媽媽”這四個詞匯,對應的詞性分別為代詞、動詞、名詞和名詞,則用戶傳入的文本中攜帶有代詞、動詞和名詞這三個非語義文本特征。
本模塊還包括語料庫構建單元(未示出)、停用詞表構建單元(未示出)、關鍵詞表構建單元22和變異詞表構建單元(未示出)。
語料庫構建單元用于構建語料庫,在預構相應語料庫時,需預先收集大量的文本數據,并經過自動或者人工標注,給每條文本數據打上相應的標簽,如涉黃、涉政、涉毒、涉賭、含不文明用語、廣告、灌水等,從而得到上述的語料庫。
停用詞表構建單元用于構建停用詞表,在預構相應停用詞表時,依據上述構建好的語料庫,對文本進行分詞處理,并統計出每個詞或字符的頻次,自動或人工提取出高頻且無實際意義的詞或字符,將提取出的詞或字符作為停用詞,從而構建出上述停用詞表。
關鍵詞表構建單元具體包括分詞處理子單元221、關鍵詞歸類子單元222、垃圾概率計算子單元223和關鍵詞表構建子單元224。分詞處理子單元用于在預構相應關鍵詞表時,依據上述構建的語料庫,對文本進行分詞處理,并統計出得到的每個詞和字符出現的頻次,同時用關聯分析得出詞組合;例如,例如對于“制造&10&氣槍”,表示某一文本同時出現“制造”和“氣槍”兩個詞,且兩個詞之間的距離小于10個字符,則認為該文本為垃圾文本。關鍵詞歸類子單元用于將上述詞、字符和詞組合作為關鍵詞;進一步,垃圾概率計算子單元用于依據上述詞、字符和詞組合的頻次,得到每個詞、字符和詞組合的垃圾概率;關鍵詞表構建子單元用于將上述詞、字符和詞組合以及相應的垃圾概率代入預設的表格中,最終得到相應的關鍵詞表。
在預構相應的變異詞表時,依據上述構建的語料庫,找出目前已經發現的關鍵詞的形近詞和同音詞,確定相應的垃圾概率,從而構建出關鍵詞的變異詞表。
垃圾識別模塊用于利用預設的垃圾文本識別模型對文本特征進行識別。
鑒于上述的文本特征包括語義文本特征和非語義文本特征,因此,這里的垃圾文本識別模型分別為語義特征垃圾文本識別模型和非語義特征垃圾文本識別模型,利用相應的識別模型分別對語義文本特征和非語義文本特征進行識別,從而最終的到用戶輸入的文本的垃圾概率,以供決策者根據該垃圾概率確定相應的對策。
該特征識別模塊包括第一識別單元31、第二識別單元32和綜合處理單元33,在對用戶輸入的文本進行識別時,第一識別單元用于將語義文本特征輸入上述語義特征垃圾文本識別模型進行識別,從而得到對應語義文本特征的垃圾概率,這里描述為第一概率;
第二識別單元則用于將非語義文本特征輸入上述非語義特征垃圾文本識別模型進行識別,從而得到對應于非語義文本特征的垃圾概率,這里描述為第二概率;
綜合處理單元用于在第一識別單元和第二識別單元分別得到上述分別對應于語義文本特征和非語義文本特征的第一概率和第二概率后,通過預設的計算規律,例如直接平均或者加權平均方法,得到用戶輸入的文本的垃圾概率。
本發明還包括模型訓練模塊40,參照圖4所示,模型訓練模塊用于通過利用多個非語義文本特征進行訓練,從而得到上述的非語義特征垃圾文本識別模型,上述訓練類似于對數學模型的訓練,即將歷史數據代入預設的數學模型對其進行訓練,最終得到相應的模型。本發明中的多個關鍵詞可達79個之多,其中的關鍵詞例如:關鍵詞垃圾概率、變異詞垃圾概率、標點符號占比、火星文占比、常用字占比、字符類型變換次數、實體詞個數占比和連續n個及以上重復字符出現次數,其中n為正整數,例如可選擇5。
上述的關鍵詞垃圾概率用于判斷文本中關鍵詞的垃圾概率,文本中的關鍵詞的垃圾概率越高,則文本為垃圾文本的概率越大,具體的垃圾概率的計算方法如下:
步驟一:匹配出用戶輸入的文本中所有的關鍵詞,構建關鍵詞集合;
{w1,w2,…,wn}
步驟二:根據事先構建好的關鍵詞表,找出對應的垃圾概率集合;
{p1,p2,…,pn}
步驟三:計算依據如下文本關鍵詞垃圾概率公式,得到關鍵詞垃圾概率。
變異詞垃圾概率的作用同上述的關鍵詞垃圾概率,即變異詞的垃圾概率越高,則用戶輸入的文本的垃圾概率越大。其計算過程同關鍵詞垃圾概率的過程一致,只是其中使用的詞表為變異詞表。
在許多灌水的文本中,標點符號的使用常常不規范,常見的情況是過多重復地使用某一個或幾個標點符號。另外,在廣告的文本中,不良分子為了規避現有的垃圾識別方法,常常在聯系方式內容中加入無關的標點符號,例如“加扣扣2.3.5,32,1,3《7》”。因此,標點符號照壁這一特征在一定程度上能夠識別用戶輸入的文本是否為垃圾文本。
本發明中,將字符分為漢字、字幕、數字、標點符號、其他符號等五大類。字符類型變換此時是指文本中不同類型的字符兩兩相互變換的總次數。計算公式如下:
其中counti,j表示類型i與類型j的變換次數。
例如:在文本“加扣扣2.3.5,32,1,3《7》”中,漢字與數字的變換次數為1,數字與標點符號的變換次數為7,標點符號與數字的變換次數為6,其他兩兩變換的次數為0,因此,該文本的字符類型變換次數為1+7+6=14。
在實際中,灌水的文本內容常常實體詞較少,即能夠表達實際意義的詞較少。這里的實體詞包括名詞、動詞、形容詞等在句子中有實際含義的詞。
從上述技術方案中可以看出,本實施例提供了一種垃圾文本識別方法,該方法應用于互聯網,具體為獲取互聯網的用戶輸入的文本;對文本的特征進行特征提取,得到文本的多個文本特征;利用預設的垃圾文本識別模型對用戶輸入的文本進行識別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預設標準可以確定出該文本是否為垃圾文本,并可進一步對判定的垃圾文本采取一定的預防措施,從而能夠避免垃圾文本對互聯網的健康發展帶來不利影響。
實施例四
圖5為本發明提供的另一種垃圾文本識別系統實施例的結構框圖。
參照圖5所示,本實施例提供的垃圾文本識別系統是在上一實施例的基礎上增設了文本預處理模塊50。
文本預處理模塊用于對文本獲取模塊獲取的文本進行預處理。
通過該模塊的預處理,將用戶輸入的文本中無益于垃圾識別的字符予以剔除,例如http標簽、表情符號、停用詞等,通過減少需要辨識的字符能夠減少整個識別所需的計算量,從而一定意義上能夠提高識別效率。
從上述技術方案中可以看出,本實施例提供了另一種垃圾文本識別方法,該方法應用于互聯網,具體為獲取互聯網的用戶輸入的文本;對文本進行預處理,剔除其中無益于垃圾識別的字符;對文本的特征進行特征提取,得到文本的多個文本特征;利用預設的垃圾文本識別模型對文本特征進行識別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預設標準可以確定出該文本是否為垃圾文本,并可進一步對判定的垃圾文本采取一定的預防措施,從而能夠避免垃圾文本對互聯網的健康發展帶來不利影響。
對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本發明實施例的實施例可提供為方法、裝置、或計算機程序產品。因此,本發明實施例可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明實施例可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、cd-rom、光學存儲器等)上實施的計算機程序產品的形式。
本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理終端設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理終端設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理終端設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數據處理終端設備上,使得在計算機或其他可編程終端設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程終端設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
盡管已描述了本發明實施例的優選實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權利要求意欲解釋為包括優選實施例以及落入本發明實施例范圍的所有變更和修改。
最后,還需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
以上對本發明所提供的技術方案進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。