文本中不良文字信息的過濾方法及過濾系統的制作方法
【技術領域】
[0001]本發明涉及文本處理技術領域,具體涉及文本中不良文字信息的過濾方法及過濾系統。
【背景技術】
[0002]在互聯網時代,文字內容聊天普及,一些不法分子利用互聯網宣傳一些負面消息,或牽涉時政,或造謠傳謠,或攻擊網絡用戶,造成了負面影響。為創建一個文明和諧的互聯網文字內容聊天環境,對一些敏感詞匯過濾是必不可少的。
[0003]現有的互聯網文字過濾系統和方法,雖然也具有一定的文字篩選和過濾功能,但是在系統的整體過濾精度,過濾效率和處理大并發能力方面,傳統方法在分詞準確方面缺乏智能型,不能通過學習用戶的特征進行智能升級。
【發明內容】
[0004]本發明的目的在于提供一種文本中不良文字信息的過濾方法及過濾系統,解決現有互聯網文字過濾精度低、速度慢的問題。
[0005]本發明提供了一種文本中不良文字信息的過濾方法,其包括:
[0006]步驟1,提取待過濾文本;
[0007]步驟2,利用詞典中詞條長度動態確定最大匹配算法中詞長Maxlen的值,通過Mexlen對所述待過濾文本進行分詞;
[0008]步驟3,循環判斷分詞后的每個詞匯是否為敏感詞匯,如果是敏感詞匯,采用非敏感詞匯替換所述敏感詞匯后,輸出替換敏感詞匯后的文本。
[0009]在一些實施例中,優選為,所述步驟2包括:
[0010]若所述待過濾文本中包含英文,則將所述英文按英文字符串分詞;
[0011]若所述待過濾文本中包含數字,則將所述數字按數字字符串分詞;
[0012]從所述待過濾文本中提取不包含英文和數字的待分詞字符串;
[0013 ]利用詞典中詞條長度動態確定最大匹配算法中詞長Max 1 en的值,通過Mex 1 en對所述待分詞字符串進行分詞。
[0014]在一些實施例中,優選為,所述利用詞典中詞條長度動態確定最大匹配算法中詞長Max 1 en的值,通過Mex 1 en對所述待分詞字符串進行分詞包括:
[0015]01)為待分詞字符串S1賦初值;
[0016]02)判斷待分詞字符串S1是否為空;如果未空,輸出分詞后的詞串,及輸出未記錄詞串;
[0017]03)如果待分詞字符串S1不為空,判斷待分詞字符串S1是否為單字,如果是單字,直接分出單字;
[0018]04)如果不是單字,取待分詞字符串S1左邊第一個字W,通過詞典中哈希表找到對應所述第一個字W的詞長度WLen;
[0019]05)判斷所述待分詞字符串的長度是否小于詞長度WLen,如果小于,則進入07);
[0020]06)如果不小于,取待分詞字符串中長為WLen的字串Word與詞典中長為WLen的詞條逐一匹配;當所述字串與某一詞條匹配,輸出該字串;
[0021]07)如果未匹配,判斷WLen是否為2,如果不是,PLen++,轉04)
[0022]08)如果07)的結果為是,將所述字串輸出為未記錄詞串。
[0023]在一些實施例中,優選為,步驟3包括:
[0024]加載敏感詞匯庫;
[0025]將所有分詞后的詞串依次在所述敏感詞匯庫中匹配,若匹配成功,則屏蔽匹配成功的詞串;
[0026]采用非敏感詞匯替換所述敏感詞匯后,輸出替換敏感詞匯后的文本。
[0027]在一些實施例中,優選為,若匹配不成功,則直接輸出文本。
[0028]在一些實施例中,優選為,在步驟2和步驟3之間,還包括:將輸出的未記錄詞串添加到詞典中。
[0029]本發明還提供了一種文本中不良文字信息的過濾系統,其包括:
[0030]提取模塊,用于提取待過濾文本;
[0031]分詞模塊,用于利用詞典中詞條長度動態確定最大匹配算法中詞長Maxlen的值,通過Mexlen對所述待過濾文本進行分詞;
[0032]過濾模塊,用于循環判斷分詞后的每個詞匯是否為敏感詞匯,如果是敏感詞匯,采用非敏感詞匯替換所述敏感詞匯后,輸出替換敏感詞匯后的文本。
[0033]在一些實施例中,優選為,所述分詞模塊包括:
[0034]英文分詞單元,若所述待過濾文本中包含英文是,用于將所述英文按英文字符串分詞;
[0035]數字分詞單元,若所述待過濾文本中包含數字,用于將所述數字按數字字符串分詞;
[0036]提取單元,用于從所述待過濾文本中提取不包含英文和數字的待分詞字符串;
[0037]動態分詞單元,用于利用詞典中詞條長度動態確定最大匹配算法中詞長Maxlen的值,通過Mexlen對所述待分詞字符串進行分詞。
[0038]在一些實施例中,優選為,所述動態分詞單元執行的分詞程序為:
[0039]01)為待分詞字符串S1賦初值;
[0040]02)判斷待分詞字符串S1是否為空;如果未空,輸出分詞后的詞串,及輸出未記錄詞串;
[0041]03)如果待分詞字符串S1不為空,判斷待分詞字符串S1是否為單字,如果是單字,直接分出單字;
[0042]04)如果不是單字,取待分詞字符串S1左邊第一個字W,通過詞典中哈希表找到對應所述第一個字W的詞長度WLen;
[0043]05)判斷所述待分詞字符串的長度是否小于詞長度WLen,如果小于,則進入07);
[0044]06)如果不小于,取待分詞字符串中長為WLen的字串Word與詞典中長為WLen的詞條逐一匹配;當所述字串與某一詞條匹配,輸出該字串;
[0045]07)如果未匹配,判斷WLen是否為2,如果不是,PLen++,轉04)
[0046]08)如果07)的結果為是,將所述字串輸出為未記錄詞串。
[0047]本發明實施例提供的文本中不良文字信息的過濾方法及過濾系統,與現有技術相比,提出利用詞典中詞條的長度動態地確定詞長MaxLen的值,根據所確定的詞長從待切分字符串左邊取相應長度的字符串與詞典匹配,從而解決了分詞過程中MaxLen初始值不變所帶來的長詞被切分錯誤和時間長、效率低的問題。隨后對分詞后的詞串進行敏感判斷,并根據判斷結果輸出文本。由于采用了改進的分詞方式,因此提高了整體過濾速度和過濾準確度。
【附圖說明】
[0048]圖1為本發明一個實施例中文本中不良文字信息的過濾方法的流程結構示意圖。
[0049]圖2為本發明一個實施例中詞典的數據結構示意圖。
【具體實施方式】
[0050]下面通過具體的實施例結合附圖對本發明做進一步的詳細描述。
[0051]考慮到目前互聯網或各種信息溝通平臺對文本中的不良文字處理速度慢,精確度不高的問題,本發明提供了文本中不良文字信息的過濾方法及過濾系統。
[0052 ]該文本中不良文字信息的過濾方法包括:
[0053]步驟1,提取待過濾文本;
[0054]步驟2,利用詞典中詞條長度動態確定最大匹配算法中詞長Maxlen的值,通過Mexlen對待過濾文本進行分詞;
[0055]步驟3,循環判斷分詞后的每個詞匯是否為敏感詞匯,如果是敏感詞匯,采用非敏感詞匯替換敏感詞匯后,輸出替換敏感詞匯后的文本。
[0056]—種文本中不良文字信息的過濾系統包括:
[0057]提取模塊,用于提取待過濾文本;
[0058]分詞模塊,用于利用詞典中詞條長度動態確定最大匹配算法中詞長Maxlen的值,通過Mexlen對待過濾文本進行分詞;
[0059]過濾模塊,用于循環判斷分詞后的每個詞匯是否為敏感詞匯,如果是敏感詞匯,采用非敏感詞匯替換敏感詞匯后,輸出替換敏感詞匯后的文本。
[0060]提出利用詞典中詞條的長度動態地確定詞長MaxLen的值,根據所確定的詞長從待切分字符串左邊取相應長度的字符串與詞典匹配,從而解決了分詞過程中MaxLen初始值不變所帶來的長詞被切分錯誤和時間長、效率低的問題。隨后對分詞后的詞串進行敏感判斷,并根據判斷結果輸出文本。由于采用了改進的分詞方式,因此提高了整體過濾速度和過濾準確度。
[0061]下面,對技術具體描述:
[0062]本方法主要應用于信息溝通平臺中文本信息傳送前的文本過濾。具體為:
[0063]—種文本中不良文字信息的過濾方法,其特征在于,包括:
[0064]步驟101,提取待過濾文本;
[0065]當用戶之間進行信息溝通時,用戶通常將信息傳送到平臺服務器,平臺服務器提取該信息,并將其確定為待過濾文本。
[0066]在對該信息進行過濾時需要提高過濾速度,以不延遲用戶間溝通速度為準,保證用戶間順暢的信息溝通。
[0067]步驟102,利用詞典中詞條長度動態確定最大匹配算法中詞長Max