專利名稱:文本分類方法和裝置及文本分類的特征處理方法和裝置的制作方法
技術領域:
本申請涉及數據處理領域,具體而言,涉及一種文本分類方法和裝置及文本分類的特征處理方法和裝置。
背景技術:
機器學習算法依靠提取有效的特征數據才能得到的一個好的學習效果,如何提取有效特征及避免噪音特征的干擾是提高機器學習效果的重要途徑。目前,在獲取機器學習的學習特征時,常常將所有詞作為特征,使得特征庫龐大,從而在機器學習時占用內存巨大,而且夾雜很多噪音特征,文本分類效果差。為了去除噪音特征,將停用詞刪除后的詞作為特征,但是只能夠在一定程度消除噪音特征,并且特征庫仍然較大,從而在機器學習時占用內存仍然較大,由于噪音特征流入,文本分類效果沒有得到較大的改善。針對相關技術中文本分類的特征庫大,導致機器學習時占用內存大的問題,目前尚未提出有效的解決方案。
發明內容
本申請的主要目的在于提供一種文本分類方法和裝置及文本分類的特征處理方法和裝置,以解決文本分類的特征庫大,導致機器學習時占用內存大的問題。為了實現上述目的,根據本申請的一個方面,提供了一種文本分類的特征處理方法。根據本申請的文本分類的特征處理方法包括:獲取用于文本分類的學習資料的特征集合,其中,特征集合包括多 個特征詞;計算每個特征詞在所有分類類別中的信息增益值之和;以及提取特征集合中預定數量的特征詞作為用于文本分類的學習特征,以使用于文本分類的學習特征為特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對應的信息增益值之和大于未提取的特征詞對應的信息增益值之和。為了實現上述目的,根據本申請的另一方面,提供了一種文本分類方法。根據本申請的文本分類方法包括:采用本申請提供的任意一種文本分類的特征處理方法進行特征提取,得到用于文本分類的學習特征;對學習特征進行訓練,得到分類模型;以及采用分類模型對待分類文本進行文本分類。為了實現上述目的,根據本申請的又一方面,提供了一種文本分類的特征處理裝置。根據本申請的文本分類的特征處理裝置用于執行本申請提出的任意一種文本分類的特征處理方法。為了實現上述目的,根據本申請的又一方面,提供了一種文本分類的特征處理裝置。根據本申請的文本分類的特征處理裝置包括:獲取模塊,用于獲取用于文本分類的學習資料的特征集合,其中,特征集合包括多個特征詞;計算模塊,用于計算每個特征詞在所有分類類別中的信息增益值之和;以及提取模塊,用于提取特征集合中預訂數量的特征詞作為用于文本分類的學習特征,以使用于文本分類的學習特征為特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對應的信息增益值之和大于未提取的特征詞對應的信息增益值之和。為了實現上述目的,根據本申請的又一方面,提供了一種文本分類裝置。根據本申請的文本分類裝置用于執行本申請提出的任意一種文本分類方法。為了實現上述目的,根據本申請的又一方面,提供了一種文本分類裝置。根據本申請的文本分類裝置包括:本申請提供的任意一種文本分類的特征處理裝置,用于特征提取,得到用于文本分類的學習特征;訓練模塊,用于對學習特征進行訓練,得到分類模型;以及分類模塊,用于采用分類模型對待分類文本進行文本分類。通過本申請,采用本申請提供的文本分類的特征處理方法,按照信息增益值之和大小,提取預定數量的部分特征詞作為文本分類的學習特征,將整個特征集合中去除停用詞后的剩余特征詞中的部分特征詞組成特征庫,縮小了特征庫,減小了占用內存。進一步地,由于特征集合中的噪聲詞對應的信息增益值之和小于非噪聲詞對應的信息增益值之和,因此,只要采用特征集合中信息增益值之和較大的部分特征詞作為特征庫,便能夠去除非停用詞中的部分或全部噪聲詞,從而使得文本分類的學習特征中不包含或包含較少噪聲詞,提高了文本訓練的效果,使得采用該特征處理方法進行特征提取的文本分類方法的分類精度更高,解決了現有技術中文本分類的特征庫大,導致機器學習時占用內存大的問題,進而達到減小文本分類的特征庫,減小機器學習時占用內存的效果。
為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。在附圖中:圖1是根據本申請實施例的文本分類裝置的框
圖2是根據本申請第一實施例的文本分類的特征處理裝置的框圖;圖3是根據本申請第二實施例的文本分類的特征處理裝置的框圖;圖4是根據本申請實施例的文本分類方法的流程圖;圖5是根據本申請第一實施例的文本分類的特征處理方法的流程圖;以及圖6是根據本申請第二實施例的文本分類的特征處理方法的流程圖。
具體實施例方式為了使本技術領域的人員更好地理解本申請中的技術方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員所獲得的所有其他實施例,都應當屬于本申請保護的范圍。首先,對本申請實施例的一種文本分類裝置進行說明,如圖1所示,該文本分類裝置包括:特征處理裝置20,訓練模塊40和分類模塊60。在文本分類的機器學習任務之前,必須要有一定量的學習資料提供給機器,這里的機器指一種能夠按照程序運行,自動、高速處理海量數據的現代化智能電子設備。比如說我們常見的PC,服務器等。所謂學習資料,可以是指經過人工標注類別的文本資料。這些文本一般來自我們實際使用的環境。以對圖書館的圖書進行分門別類為例,需要隨機抽取涵蓋所有類別圖書,通過人工先標注這些圖書的類別,這部分標注好的書籍就可以作為機器學習的資料了。獲取到學習資料后,特征處理裝置20用于對這些學習資料進行特征提取,得到用于文本分類的學習特征。本實施例的特征處理裝置20與現有技術不同,不是直接將對學習資料進行分詞得到特征詞去掉停用詞后作為文本分類的學習特征,而是將由學習資料分詞得到的特征詞進行選取,選取部分特征詞作為文本分類的學習特征。其中,選取的判斷條件為特征詞在所有分類類別中的信息增益值之和的大小,將較大的信息增益值之和對應的特征詞作為用于文本分類的學習特征,其中,用于文本分類的學習特征為去掉停用詞后的剩余特征詞中的部分特征詞,提取到的特征詞對應的信息增益值之和均大于未提取的特征詞對應的信息增益值之和。其中,停用詞可以是電腦檢索用的虛字,即非檢索用詞,例如,中文中的“的”、“了”等詞,英文中的“a”、“of”等詞。停用詞對文本分類沒有特別貢獻,因為幾乎所有的文本中都會出現該類詞,不具有顯著的區分性。訓練模塊40用于對特征處理裝置20提取到的學習特征進行訓練,得到分類模型,該處的訓練模塊40用于完成機器學習過程,訓練時可以采用任意的模式識別方法,例如支持向量機,神經網絡等。在通過訓練模塊40得到文本分類的分類模型后,分類模塊60用于采用分類模型對待分類文本進行文本分類。機器可以通過對部分作為學習資料的圖書進行學習,得到圖書分類的分類模型后,便可實現其他的圖書的分類。在本申請技術方案中,特征處理裝置20提取預定數量的、較大的信息增益值之和對應的特征詞作為文本分類的學習特征,訓練模塊40對該學習特征進行訓練,得到分類模型,分類模塊60采用該分類模型對待分類文本進行文本分類。應用本申請技·術方案,在文本分類時,特征處理裝置20提取預定數量的特征詞組成特征庫,采用合適大小的預訂數量,使特征庫在去除停用詞的基礎上進一步縮小,從而減小了訓練模塊40學習時的占用內存。進一步地,特征處理裝置20能夠實現提取包含較少或不包含噪聲詞的學習特征,從而能夠提高訓練模塊40的訓練精度,進而使得分類模塊60的分類精度提聞。其次,對本申請實施例的一種文本分類的特征處理裝置進行說明,如圖2所示,該文本分類的特征處理裝置包括:獲取模塊22,計算模塊24和提取模塊26。獲取模塊22用于獲取用于文本分類的學習資料的特征集合,其中,特征集合包括多個特征詞,獲取模塊22可直接接收用戶輸入的特征集合,也可接收用戶輸入的學習資料,對學習資料進行分詞得到特征詞。計算模塊24用于計算每個特征詞在所有文本類別中的信息增益值之和。其中,信息增益值是指期望信息或者信息熵的有效減少量(通常用“字節”衡量),根據它能夠確定在什么樣的層次上選擇什么樣的變量來分類。信息增益值用來表示一個特征詞對該類別帶來的信息量,信息增益值越大越表示該特征詞對于該類別越好,也即該特征詞越歸屬于該類別,從而采用該特征詞進行分類時,分類的準確性越高,具體地,可采用如下的方法計算一個特征詞在所有分類類別中的信息增益值之和:假設特征為t,類別為Cl Cn,則特征t的信息增益之和為:
權利要求
1.一種文本分類的特征處理方法,其特征在于,包括: 獲取用于文本分類的學習資料的特征集合,其中,所述特征集合包括多個特征詞; 計算每個特征詞在所有分類類別中的信息增益值之和;以及 提取所述特征集合中預定數量的特征詞作為用于文本分類的學習特征,以使所述用于文本分類的學習特征為所述特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對應的信息增益值之和大于未提取的特征詞對應的信息增益值之和。
2.根據權利要求1所述的文本分類的特征處理方法,其特征在于, 在獲取所述多個特征詞之后,所述方法還包括:去除所述多個特征詞中的停用詞, 其中,計算每個特征詞在所有分類類別中的信息增益值之和的步驟包括:計算去除停用詞后的每個特征詞在所有分類類別中的信息增益值之和。
3.根據權利要求1所述的文本分類的特征處理方法,其特征在于,獲取文本分類的學習資料的特征集合的步驟包括: 獲取用于文本分類的學習資料; 對所述用于文本分類的學習資料進行分詞處理,得到多個特征詞;以及 統計所述多個特征詞,得到用于文本分類的學習資料的特征集合。
4.根據權利要求1至3中任一項所述的文本分類的特征處理方法,其特征在于,提取所述特征集合中 預定數量的特征詞作為用于文本分類的學習特征的步驟包括: 按照信息增益值之和的大小對所述特征集合中的特征詞進行排序;以及按照信息增益值之和的大小順序,提取所述特征集合中預設百分比數量的特征詞作為用于文本分類的學習特征。
5.根據權利要求1至3中任一項所述的文本分類的特征處理方法,其特征在于,提取所述特征集合中預定數量的特征詞作為用于文本分類的學習特征的步驟包括: 判斷所述每個特征詞對應的信息增益值之和是否大于預設值;以及提取所述特征集合中信息增益值之和大于所述預設值的特征詞作為用于文本分類的學習特征。
6.一種文本分類方法,其特征在于,包括: 采用權利要求1至5中任一項所述的文本分類的特征處理方法進行特征提取,得到用于文本分類的學習特征; 對所述學習特征進行訓練,得到分類模型;以及 采用所述分類模型對待分類文本進行文本分類。
7.一種文本分類的特征處理裝置,其特征在于,包括: 獲取模塊,用于獲取用于文本分類的學習資料的特征集合,其中,所述特征集合包括多個特征詞; 計算模塊,用于計算每個特征詞在所有分類類別中的信息增益值之和;以及提取模塊,用于提取所述特征集合中預定數量的特征詞作為用于文本分類的學習特征,以使所述用于文本分類的學習特征為所述特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對應的信息增益值之和大于未提取的特征詞對應的信息增益值之和。
8.根據權利要求7所述的文本分類的特征處理裝置,其特征在于,所述獲取模塊還包括:篩選子模塊,用于在獲取所述多個特征詞后,去除所述多個特征詞中的停用詞, 其中,所述計算模塊用于計算去除停用詞后的每個特征詞在所有分類類別中的信息增益值之和。
9.根據權利要求7所述的文本分類的特征處理裝置,其特征在于,所述獲取模塊包括: 獲取子模塊,用于獲取用于文本分類的學習資料; 分詞子模塊,用于對所述用于文本分類的學習資料進行分詞處理,得到多個特征詞;以及 統計子模塊,用于統計所述多個特征詞,得到用于文本分類的學習資料的特征集合。
10.一種文本分類裝置,其特征在于,包括: 權利要求7至9中任一項所述的文本分類的特征處理裝置,用于特征提取,得到用于文本分類的學習特征 ; 訓練模塊,用于對所述學習特征進行訓練,得到分類模型;以及 分類模塊,用于采用所述分類模型對待分類文本進行文本分類。
全文摘要
本申請公開了一種文本分類方法和裝置及文本分類的特征處理方法和裝置。該文本分類的特征處理方法包括獲取用于文本分類的學習資料的特征集合;計算每個特征詞在所有分類類別中的信息增益值之和;以及提取特征集合中預定數量的特征詞作為用于文本分類的學習特征,以使用于文本分類的學習特征為特征集合中除去停用詞后的剩余特征詞中的部分特征詞,其中,提取到的特征詞對應的信息增益值之和大于未提取的特征詞對應的信息增益值之和。應用本申請方案,在文本分類的特征提取時,能夠有效地避免將噪聲特征納入機器學習流程,提高了文本分類的精度,同時極大地縮減了特征庫規模,降低了內存占用。
文檔編號G06F17/30GK103246686SQ201210033208
公開日2013年8月14日 申請日期2012年2月14日 優先權日2012年2月14日
發明者許文奇 申請人:阿里巴巴集團控股有限公司