專利名稱:一種詞匯分類的方法、系統和實現方法
技術領域:
本發明涉及文檔分析技術領域,尤其涉及一種詞匯分類的方法、系統和實現方法。
背景技術:
在文檔分析技術領域中,分類詞庫是一個比較重要的技術,可以用于多種用途和領域。例如,用戶行為分析里面,利用用戶對關鍵詞的輸入,可以判斷用戶的基本類別。收集用戶輸入的搜索關鍵詞,可以通過分類詞庫獲取關鍵詞的類別,進而對用戶類別標示。表I
權利要求
1.一種詞匯分類的方法,其特征在于,包括以下步驟: 獲取文檔分類訓練集,所述文檔分類訓練集包括文檔和所述文檔所屬的文檔類別信息; 對所有文檔進行預處理,形成待分類詞匯; 獲取每個待分類詞匯在一個文檔類別中的詞匯頻率值TF ; 獲取每個待分類詞匯在一個文檔類別中的逆文檔頻率值IDF ; 采用每個待分類詞匯在一個文檔類別中的詞匯頻率值TF和逆文檔頻率值IDF獲得每個待分類詞匯在一個文檔類別中的詞匯頻率-逆文檔頻率值TF-1DF ; 獲取每個待分類詞匯在其文檔所屬的所有文檔類別中的詞匯頻率-逆文檔頻率值TF-1DF 之和; 每個待分類詞匯在一個文檔類別中的詞匯頻率-逆文檔頻率值TF-1DF除以所述待分類詞匯在其文檔所屬的所有文檔類別中的詞匯頻率-逆文檔頻率值TF-1DF之和獲得的商值作為所述待分類詞匯屬 于所述文檔類別的概率; 所述待分類詞匯所在文檔屬于的文檔類別作為所述待分類詞匯的類別,生成包括待分類詞匯、待分類詞匯對應的類別和待分類詞匯屬于對應類別的概率的詞匯分類數據庫。
2.根據權利要求1所述的一種詞匯分類的方法,其特征在于,當一個文檔同時屬于不少于兩個文檔類別的情況下,還包括以下步驟: 獲得一件文檔所屬的全部文檔類別中的全部詞匯; 獲得所述文檔所屬的全部文檔類別中任意不少于兩個的文檔都出現的詞匯; 從所述的全部詞匯中刪除所述任意不少于兩個的文檔都出現的詞匯,獲得區別詞匯; 獲得所有區別詞匯在所述文檔所屬的全部文檔類別中的概率,并求和; 獲得所有區別詞匯在所述文檔所屬的一個文檔類別中的概率,并求和; 將在所述一個文檔類別中的詞匯概率的和與所述全部文檔類別中的詞匯概率的和相除,獲得的商作為所述文檔對所述一個文檔類別的貢獻程度。
3.根據權利要求2所述的一種詞匯分類的方法,其特征在于,對所有文檔進行預處理進一步包括以下步驟: 對文檔進行分詞; 去除其中停用詞; 形成待分類詞匯; 保留待分類詞匯的位置信息和字體信息。
4.根據權利要求3所述的一種詞匯分類的方法,其特征在于,獲取每個待分類詞匯在一個文檔類別中的詞匯頻率值TF進一步包括以下步驟: 采用以下公式獲取待分類詞匯在一個文檔類別中的出現次數FC: FC =求和(I*(位置因子+字體因子)),其中位置因子根據待分類詞匯的位置信息確定,字體因子根據待分類詞匯的字體信息確定; 采用以下公式獲取待分類詞匯在一個文檔類別中的詞匯頻率值TF: TF = log((1+FC) /SQRT (MAX FC)),其中MAX FC是一個文檔類別中所有待分類詞匯出現次數最多的待分類詞匯的出現次數,SQRT是取平方的函數。
5.根據權利要求4所述的一種詞匯分類的方法,其特征在于,還包括以下步驟:對每個待分類詞匯在一個文檔類別中的詞匯頻率值TF進行歸一化。
6.根據權利要求3所述的一種詞匯分類的方法,其特征在于,獲取每個待分類詞匯在一個文檔類別中的逆文檔頻率值IDF進一步包括以下步驟: 采用以下公式獲取待分類詞匯在一個文檔類別中的出現次數: DF =求和(I*(位置因子+字體因子)),其中位置因子根據待分類詞匯的位置信息確定,字體因子根據待分類詞匯的字體信息確定; 采用以下公式獲取待分類詞匯在一個文檔類別中的逆文檔頻率值IDF: LogIDF = log (LabelDocumentCount/DF),其中 LabelDocumentCount 是一個文檔類別中全部詞匯的總數。
7.根據權利要求1或者2所述的一種詞匯分類的方法,其特征在于,采用每個待分類詞匯在一個文檔類別中的詞匯頻率值TF和逆文檔頻率值IDF之和作為每個待分類詞匯在一個文檔類別中的詞匯頻率-逆文檔頻率值TF-1DF。
8.根據權利要求4或者6所述的一種詞匯分類的方法,其特征在于,位置因子根據待分類詞匯的位置信息確定進一步包括以下步驟: 獲取位置信息,所述位置包括標題、正文、側面鏈接和廣告; 對不同的位置設置不同的位置因子,位置因子在O至I的范圍。
9.根據權利要求4或者6所述的一種詞匯分類的方法,其特征在于,字體因子根據待分類詞匯的字體信息確定進一步包括以下步驟: 獲取字體信息,字體信息包括字體大小; 將文檔中最大字體的字體因子設置為I ; 其他字體按照與最大字體的比例設置字體因子。
10.根據權利要求1或者2所述的一種詞匯分類的方法,其特征在于,所述文檔是網頁文檔。
11.一種詞匯分類的系統,其特征在于,包括文檔分類訓練集模塊、文檔預處理模塊、詞頻統計模塊、詞匯頻率-逆文檔頻率值計算模塊和詞匯類別生成模塊,其中, 文檔分類訓練集模塊用于存儲文檔分類訓練集,并將文檔分類訓練集提供給文檔預處理模塊; 文檔預處理模塊用于對所有文檔進行預處理,形成待分類詞匯; 詞頻統計模塊用于統計待分類詞匯在文檔出現的頻率,并發送給詞匯頻率-逆文檔頻率值計算模塊; 詞匯頻率-逆文檔頻率值計算模塊用于獲取每個待分類詞匯在一個文檔類別中的詞匯頻率值TF和逆文檔頻率值IDF,采用每個待分類詞匯在一個文檔類別中的詞匯頻率值TF和逆文檔頻率值IDF獲得每個待分類詞匯在一個文檔類別中的詞匯頻率-逆文檔頻率值TF-1DF,獲取每個待分類詞匯在其文檔所屬的所有文檔類別中的詞匯頻率-逆文檔頻率值TF-1DF之和,并將每個待分類詞匯在一個文檔類別中的詞匯頻率-逆文檔頻率值TF-1DF除以所述待分類詞匯在其文檔所屬的所有文檔類別中的詞匯頻率-逆文檔頻率值TF-1DF之和獲得的商值作為所述待分類詞匯屬于所述文檔類別的概率; 詞匯類別生成模塊用于將所述待分類詞匯所在文檔屬于的文檔類別作為所述待分類詞匯的類別,生成包括待分類詞匯、待分類詞匯對應的類別和待分類詞匯屬于對應類別的概率的詞匯分類數據庫。
12.根據權利要求11所述的一種詞匯分類的系統,其特征在于,詞頻統計模塊還用于對每個待分類詞匯在一個文檔類別中的詞匯頻率值TF進行歸一化。
13.根據權利要求11所述的一種詞匯分類的系統,其特征在于,還包括文檔貢獻程度計算模塊,文檔貢獻程度計算模塊用于獲得一件文檔所屬的全部文檔類別中的全部詞匯,獲得所述文檔所屬的全部文檔類別中都出現的詞匯,從所述的全部詞匯中刪除所述都出現的詞匯,獲得區別詞匯,獲得所有區別詞匯在所述文檔所屬的全部文檔類別中的概率,并求和,獲得所有區別詞匯在所述文檔所屬的一個文檔類別中的概率,并求和,將在所述一個文檔類別中的詞匯概率的和與所述全部文檔類別中的詞匯概率的和相除,獲得的商作為所述文檔對所述一個文檔類別的貢獻程度。
14.一種詞匯分類的實現方法,其特征在于,包括以下步驟: A.獲取文檔分類訓練集,所述文檔分類訓練集包括文檔和所述文檔所屬的文檔類別信息; B.對所有文檔進行預處理,形成待分類詞匯列表; C.主控節點將所述待分類詞匯列表分區,以行為單位,將一行待分類詞匯列表及文檔類別分配到一個計算節點上; D.計算節點計算其中每個待分類詞匯m在每個文檔類別η中的詞匯頻率值TFnm,輸出“TF”、待分類詞匯m和文檔類別η作為關鍵詞,以及對應的詞匯頻率值TFnm作為值; Ε.如果待分類詞匯m在文檔類別η中的文檔出現,計算節點設置DFnmS 1,輸出“DF”和待分類詞匯m作為關鍵詞,DFmn作為值; F.主控節點通知每個計算節點接受指定關鍵詞,每個計算節點收到所用相同關鍵詞,進行判斷,如果是“TF”開頭,則統計待分類詞匯m在文檔類別η出現的詞匯頻率值TF,并采用以下公式計算加權TF值: LogTF = log (1+TFJ /SQRTmaxTFnm,其中maxTF 為所有TF中的最大值,SQRT為取平方運算, 輸出“TF”、待分類詞匯m和文檔類別η作為關鍵詞,以及加權TF值作為值; 如果是“DF”開頭,則根據關鍵詞求和,輸出“DF”和待分類詞匯m作為關鍵詞,和DFm作為值; G.主控節點將步驟F的輸出分配給對應的計算節點; H.計算節點進行關鍵詞判斷,如果是“DF”開頭,則計算: LogIDF = log (labelDocumentCount/ 值 DFm),其中 LabelDocumentCount 是待分類詞匯列表的總數, 輸出“TF”、待分類詞匯m和文檔類別η作為關鍵詞,以及LogIDF作為值; 如果是“TF”開頭,輸出原來的關鍵詞和值; .1.計算節點對相同關鍵詞進行求和,LogTFIDF= LogTF+LoglDF,輸出“LogTFIDF”、待分類詞匯m和文檔類別η作為關鍵詞,以及LogTFIDF作為值; J.主控節點將步驟H和步驟I的輸出分配給對應的計算節點; K.計算節點獲得“LogTFIDF”、待分類詞匯m和文檔類別η的關鍵詞,以及LogTFIDF的值,輸出“weightTFIDF”和待分類詞匯m作為關鍵詞,以及LogTFIDF作為值;L.計算節點獲得相同的關鍵詞輸入集合,進行求和,獲得值C,輸出“weightTFIDF”、待分類詞匯m和文檔類別η作為關鍵詞,以及值c為值; Μ.總控節點將步驟H和步驟I的輸出分配給對應的計算節點; N.計算節點獲得“LogTFIDF”、待分類詞匯m和文檔類別η的關鍵詞,以及LogTFIDF的值,以“LogTFIDF”和待分類詞匯m作為關鍵詞從步驟L的輸出中查找對應的結果V,獲得待分類詞匯對應文檔類別的概率gailv = LogTFIDF/v。
15.根據權利要求14所述的一種詞匯分類的實現方法,其特征在于,如果所述文檔是網頁信息,詞匯頻率值TFmn的計 算包括位置因子和字體因子。
全文摘要
本發明公開了一種詞匯分類的方法、系統和實現方法,首先獲取文檔分類訓練集,包括文檔及其所屬的文檔類別信息,對所有文檔進行預處理,形成待分類詞匯,獲取每個待分類詞匯在一個文檔類別中的TF值和IDF值,并對兩者求和得到TF-IDF,除以每個待分類詞匯在其文檔所屬的所有文檔類別中的TF-IDF之和,獲得的商值作為待分類詞匯屬于文檔類別的概率,生成包括待分類詞匯、待分類詞匯對應的類別和待分類詞匯屬于對應類別的概率的詞匯分類數據庫。采用了本發明的技術方案,能夠自動完成詞匯分類,而且投入很少,效果更加準確。
文檔編號G06F17/27GK103186612SQ20111045667
公開日2013年7月3日 申請日期2011年12月30日 優先權日2011年12月30日
發明者徐萌, 何洪凌, 鄧超, 羅治國, 孫少陵, 陶濤 申請人:中國移動通信集團公司