文本分類方法和裝置的制造方法
【技術領域】
[0001] 本發明涉及電子組織歸類領域,特別涉及一種文本分類方法和裝置。
【背景技術】
[0002] 文本分類是指計算機將一篇文本歸于預先給定的某一類或某幾類的過程。通常, 在對文本進行人工分類的時候,如果判斷一個文本屬于哪一類或者是獲取文本所傳達的信 息時,往往并不需要通讀全文W確定文本的主題進而得到正確的判斷,而是對某一個或某 幾個段落進行閱讀。該是因為一個作者在撰寫文本時,通常會將對一個事物特定方面的描 述語句放在一個自然段中,也就是說,對于文本主題的表達或類別的暗示而言,段落通常是 與主題相關的單元,而段內的句子之間則存在較強的相關性。
[0003] 現有技術中的文本分類方法是基于孤立的特征詞進行文本表示的,因此得出的文 本向量中包括的信息量較少,從而使得根據文本向量得出的文本分類器獲取到的文本的信 息量也較少。因此,現有技術中,采用上述文本分類器對待分類文本向量進行文本分類時, 導致文本分類的準確率和召回率較低。
【發明內容】
[0004] 本發明提供一種文本分類方法和裝置,用于提高文本分類的準確率和召回率。
[0005] 為實現上述目的,本發明提供了一種文本分類方法,包括:
[0006] 根據訓練集文本的特征詞對和與所述訓練集文本的特征詞對對應的訓練集文本 的特征詞對的權重,生成訓練集文本向量;
[0007] 對所述訓練集文本向量進行訓練,得出文本分類器;
[0008] 根據待分類文本的特征詞對和與所述待分類文本的特征詞對對應的待分類文本 的特征詞對的權重,生成待分類文本向量;
[0009] 通過所述文本分類器對所述待分類文本向量進行分類,得出分類結果。
[0010] 可選地,所述根據訓練集文本的特征詞對和與所述訓練集文本的特征詞對對應的 訓練集文本的特征詞對的權重,生成訓練集文本向量之前還包括:
[0011] 從所述訓練集文本中獲取訓練集文本的特征詞;
[0012] 通過特征詞權重量化方法計算出所述訓練集文本的特征詞的權重;
[0013] 根據所述訓練集文本的特征詞的權重,對所述訓練集文本的特征詞進行組合形成 所述訓練集文本的特征詞對,所述訓練集文本的特征詞對形成訓練集文本的特征詞對集 合;
[0014] 根據所述訓練集文本的特征詞對中的訓練集文本的特征詞的權重,得出所述訓練 集文本的特征詞對的原始權重;
[0015] 根據所述訓練集文本的特征詞對中的訓練集文本的特征詞之間的塊間隔數,生成 所述訓練集文本的特征詞對的權重系數;
[0016] 根據所述訓練集文本的特征詞對的權重系數和所述訓練集文本的特征詞對的原 始權重,生成所述訓練集文本的特征詞對的權重。
[0017] 可選地,所述從所述訓練集文本中獲取訓練集文本的特征詞包括;對所述訓練集 文本的自然段進行劃分得出訓練文本塊,并為所述訓練文本塊設置塊標記;對所述訓練文 本塊進行分詞處理和去停用詞處理,得出訓練集文本的待處理特征詞;通過特征詞提取方 法,從所述訓練集文本的待處理特征詞中提取出所述訓練集文本的特征詞;
[0018] 所述根據所述訓練集文本的特征詞的權重,對所述訓練集文本的特征詞進行組合 形成所述訓練集文本的特征詞對包括:獲取與某一訓練集文本的特征詞位于同一自然段不 同訓練文本塊中的權重最大的另一訓練集文本的特征詞;將某一訓練集文本的特征詞與權 重最大的另一訓練集文本的特征詞進行組合,形成所述訓練集文本的特征詞對;
[0019] 所述根據所述訓練集文本的特征詞對中的訓練集文本的特征詞的權重,得出所述 訓練集文本的特征詞對的原始權重包括;從所述訓練集文本的特征詞對中的訓練集文本的 特征詞的權重中選取較小的權重作為所述訓練集文本的特征詞對的原始權重;
[0020] 所述根據所述訓練集文本的特征詞對中的訓練集文本的特征詞之間的塊間隔數, 生成所述訓練集文本的特征詞對的權重系數包括:通過公式/(々J) =l〇g:(;^ + 2)對訓練塊 間隔數進行計算處理得出訓練集文本的特征詞對的權重系數,其中,hd為訓練集文本的特 征詞之間的塊間隔數,f化d)為訓練集文本的特征詞對的權重系數,所述訓練集文本的特征 詞之間的塊間隔數為所述訓練集文本的特征詞對中訓練集文本的特征詞所在的訓練文本 塊之間的最小間隔;
[0021] 所述根據所述訓練集文本的特征詞對的權重系數和所述訓練集文本的特征詞對 的原始權重,生成所述訓練集文本的特征詞對的權重包括:將所述訓練集文本的特征詞對 的權重系數和所述訓練集文本的特征詞對的原始權重相乘,得出所述訓練集文本的特征詞 對的權重。
[0022] 可選地,所述根據待分類文本的特征詞對和與所述待分類文本的特征詞對對應的 待分類文本的特征詞對的權重,生成待分類文本向量之前還包括:
[0023] 從所述待分類文本中獲取待分類文本的待處理特征詞;
[0024] 將所述待分類文本的待處理特征詞與所述訓練集文本的特征詞進行比較,保留與 所述訓練集文本的特征詞相同的所述待分類文本的待處理特征詞W得出所述待分類文本 的特征詞;
[00巧]根據所述待分類文本的特征詞的權重,對所述待分類文本的特征詞進行組合形成 待分類文本的待處理特征詞對,所述待分類文本的特征詞的權重為與該待分類文本的特征 詞相同的訓練集文本的特征詞的權重;
[0026] 將所述待分類文本的待處理特征詞對與所述訓練集文本的特征詞對進行比較,保 留與所述訓練集文本的特征詞對相同的所述待分類文本的待處理特征詞對得出所述待分 類文本的特征詞對;
[0027] 根據所述待分類文本的特征詞對中的待分類文本的特征詞的權重,得出所述待分 類文本的特征詞對的原始權重;
[0028] 根據所述待分類文本的特征詞對中的待分類文本的特征詞之間的塊間隔數,生成 所述待分類文本的特征詞對的權重系數;
[0029] 根據所述待分類文本的特征詞對的權重系數和所述待分類文本的特征詞對的原 始權重,生成所述待分類文本的特征詞對的權重。
[0030] 可選地,所述從所述待分類文本中獲取待分類文本的待處理特征詞包括;對所述 待分類文本的自然段進行劃分得出待分類文本塊,并為所述待分類文本塊設置塊標記;對 所述待分類文本塊進行分詞處理和去停用詞處理,得出待分類文本的待處理特征詞;
[0031] 所述根據所述待分類文本的特征詞的權重,對所述待分類文本的特征詞進行組合 形成待分類文本的待處理特征詞對包括:獲取與某一待分類文本的特征詞位于同一自然段 不同待分類文本塊中的權重最大的另一待分類文本的特征詞;將某一待分類文本的特征 詞與權重最大的另一待分類文本的特征詞進行組合,形成所述待分類文本的待處理特征詞 對;
[0032] 所述根據所述待分類文本的特征詞對中的待分類文本的特征詞的權重,得出所述 待分類文本的特征詞對的原始權重包括;從所述待分類文本的特征詞對中的待分類文本的 特征詞的權重中選取較小的權重作為所述待分類文本的特征詞對的原始權重;
[0033] 所述根據所述待分類文本的特征詞對中的待分類文本的特征詞之間的塊間隔數, 生成所述待分類文本的特征詞對的權重系數包括:通過公式/(&:.) = 1曰g:(^ + 2)對待分類 文本的特征詞之間的塊間隔數進行計算處理得出待分類文本的特征詞對的權重系數,其 中,h。為待分類文本的特征詞之間的塊間隔數,f化。)為待分類文本的特征詞對的權重系 數,所述待分類文本的特征詞之間的塊間隔數為所述待分類文本的特征詞對中待分類文本 的特征詞所在的待分類文本塊之間的最小間隔;
[0034] 所述根據所述待分類文本的特征詞對的權重系數和所述待分類文本的特征詞對 的原始權重,生成所述待分類文本的特征詞對的權重包括:將所述待分類文本的特征詞對 的權重系數和所述待分類文本的特征詞對的原始權重相乘,得出所述待分類文本的特征詞 對的權重。
[0035] 為實現上述目的,本發明提供了一種文本分類裝置,包括:
[0036] 第一生成模塊,用于根據訓練集文本的特征詞對和與所述訓練集文本的特征詞對 對應的訓練集文本的特征詞對的權重,生成訓練集文本向量;
[0037] 訓練模塊,用于對所述訓練集文本向量進行訓練,得出文本分類器;
[0038] 第二生成模塊,用于根據待分類文本的特征詞對和與所述待分類文本的特征詞對 對應的待分類文本的特征詞對的權重,生成待分類文本向量;
[0039] 分類模塊,用于通過所述文本分類器對所述待分類文本向量進行分類,得出分類 結果。
[0040] 可選地,還包括:獲取模塊、計算模塊、組合模塊、第H生成模塊、第四生成模塊和 第五生成模塊;
[0041] 所述獲取模塊,用于從所述訓練集文本中獲取訓練集文本的特征詞;
[0042] 所述計算模塊,用于通過特征詞權重量化方法計算出所述訓練集文本的特征詞的 權重;
[0043] 所述組合模塊,用于根據所述訓練集文本的特征詞的權重,對所述訓練集文本的 特征詞進行組合形成所述訓練集文本的特征詞對,所述訓練集文本的特征詞對形成訓練集 文本的特征詞對集合;
[0044] 所述第H生成模塊,用于根據所述訓練集文本的特征詞對中的訓練集文本的特征 詞的權重,得出所述訓練集文本的特征詞對的原始權重;
[0045] 所述第四生成模塊,用于根據所述訓練集文本的特征詞對中的訓練集文本的特征 詞之間的訓練集文本的特征詞之間的塊間隔數,生成所述訓練集文本的特征詞對的權重系 數;
[0046] 所述第五生成模塊,用于根據所述訓練集文本的特征詞對的權重系數和所述訓練 集文本的特征詞對的原始權重,生成所述訓練集文本的特征詞對的權重。
[0047] 可選地,所述獲取模塊包括;劃分子模塊、分詞子模塊和提取子模塊;
[0048] 所述劃分子模塊,用于對所述訓練集文本的自然段進行劃分得出訓練文本塊,并 為所述訓練文本塊設置塊標記;
[0049] 所述分詞子模塊,用于對所述訓練文本塊進行分詞處理和去停用詞處理,得出訓 練集文本的待處理特征詞;
[0050] 所述提取子模塊,用于通過特征詞提取方法,從所述訓練集文本的待處理特征詞 中提取出所述訓練集文本的特征詞;
[0051] 所述組合模塊包括;獲取子模塊和組合子模塊;
[0052] 所述獲取子模塊,用于獲取與某一訓練集文本的特征詞位于同一自然段不同訓練 文本塊中的權重最大的另一訓練集文本的特征詞;
[0053] 所述組合子模塊,用于將某一訓練集文本的特征詞與權重最大的另一訓練集文本 的特征詞進行組合,形成所述訓練集文本的特征詞對;
[0054] 所述第H生成模塊具體用于從所述訓練集文本的特征詞對中的訓練集文本的特 征詞的權重中選取