一種短文本分類方法及裝置的制造方法
【專利摘要】本發明公開了一種短文本分類方法及裝置。該方法包括:對待分類的短文本進行分詞預處理,并獲取分詞得到的每個詞語的擴展詞;根據預先構建的詞項集獲取每個詞語及其擴展詞的權重值;根據權重值,利用多個類別SVM分類模型獲取短文本所屬每個類別的概率;根據預設的概率分類模型確定短文本的所屬類別。本發明所提供的短分本分類方法,克服了短文本特征稀疏的問題,有效降低采用多分類模型的復雜度,更符合實際應用。
【專利說明】
一種短文本分類方法及裝置
技術領域
[0001] 本發明涉及計算機自然語言處理領域,尤其涉及一種短文本分類方法及裝置。
【背景技術】
[0002] 隨著網絡技術的迅速發送,互聯網已經成為海量信息的載體,用戶創建的內容已 經成為互聯網上一個重要數據源。尤其是微博、微信、購物等移動應用推廣之后,基于微博、 微信、QQ聊天及商品評論等短文本的數量正在呈爆炸式增長。各種形式的短文本已經成為 我國各階層的信息溝通渠道和情感交流手段,深刻改變了億萬中國人的溝通方式和生活習 慣。
[0003] 短文本數據量異常龐大,數據中包含人們對社會各種現象的各種觀點和立場,話 題涉及政治、經濟、軍事、娛樂、生活等各個領域。然而如何從短文本中挖掘出有價值的信息 成為當前的一個非常關鍵的問題。短文本在很多方面都有廣泛應用,例如幫助用戶快速了 解產品的優劣,選擇滿意的商品,再例如,追蹤社會輿論趨勢,發現社會熱點問題,幫助政府 把握社會態勢等。因此,短文本分類具有很強的應用價值。
[0004] 短文本分類的顯著特征是受其長度的限制,所包含的詞語和上下文信息不足,因 此基于統計量的傳統的文本表示方法和分類模型面臨數據稀疏性問題。因此,準確的進行 短文本的語義特征表示并實現自動分類,是一項極具挑戰性而且亟待研究的技術問題。
【發明內容】
[0005] 本發明提供了一種高效的短文本分類方法及裝置,用以解決現有技術中短文本特 征稀疏、噪聲大導致分類不準確的技術問題。
[0006] 依據本發明的一個方面,本發明提供一種短文本分類方法,包括:
[0007] 對待分類的短文本進行分詞預處理,并獲取分詞得到的每個詞語的擴展詞;
[0008] 根據預先構建的詞項集獲取每個詞語及其擴展詞的權重值;
[0009] 根據所述權重值,利用多個類別SVM分類模型獲取所述短文本所屬每個類別的概 率;
[0010] 根據預設的概率分類模型確定所述短文本的所屬類別。
[0011] 進一步地,根據詞向量空間模型獲取分詞得到的每個詞語的擴展詞。
[0012] 進一步地,預先構建所述詞項集時,包括:
[0013] 對標注樣本集中所有的短文本進行分詞預處理,并獲取每個詞語的擴展詞;
[0014] 計算每一個詞語以及擴展詞語的權重值,并將詞語、擴展詞語及權重值保存至所 述詞項集中。
[0015] 進一步地,所述權重值為TF-IDF值。
[0016] 進一步地,所述根據預設的概率分類模型確定所述短文本的所屬類別,包括:
[0017] 步驟1,若所述短文本所屬某個類別的概率在[S1,1]之間,則將所述類別作為短文 本所屬類別,否則,執行步驟2;其中,SlG[0.5,l);
[0018] 步驟 2,設置 S2 = S1_0.1;
[0019] 步驟3,判斷S2與0.5的大小:
[0020]若S2>0.5,且所述短文本所屬某個類別的概率在[S2,S1]之間,則將所述類別作 為短文本所屬類別,否則,SI = S2,并執行步驟2;
[0021 ]若S2<0.5,且所述短文本所屬某個類別的概率在[0.4,S1 ]之間,則將概率值最大 的類別作為短文本所屬類別;否則沒有所屬類別。
[0022 ]依據本發明的一個方面,本發明提供一種短文本分類裝置,包括:
[0023]預處理單元,用于對待分類的短文本進行分詞預處理;
[0024]第一獲取單元,用于獲取分詞得到的每個詞語的擴展詞;
[0025]構建單元,用于預先構建詞項集;
[0026] 第二獲取單元,用于根據所述構建單元構建的詞項集獲取每個詞語及其擴展詞的 權重值;
[0027] 第三獲取單元,用于根據所述權重值,利用多個類別SVM分類模型獲取所述短文本 所屬每個類別的概率;
[0028] 確定單元,用于根據預設的概率分類模型確定所述短文本的所屬類別。
[0029] 進一步地,所述第一獲取單元具體用于根據詞向量空間模型獲取分詞得到的每個 詞語的擴展詞。
[0030]進一步地,所述構建單元具體用于:
[0031] 對標注樣本集中所有的短文本進行分詞預處理,并獲取每個詞語的擴展詞;
[0032] 計算每一個詞語以及擴展詞語的權重值,并將詞語、擴展詞語及權重值保存至所 述詞項集中。
[0033] 進一步地,所述確定單元具體用于:
[0034] 步驟1,若所述短文本所屬某個類別的概率在[SI,1]之間,則將所述類別作為短文 本所屬類別,否則,執行步驟2;其中,SlG[0.5,l);
[0035] 步驟 2,設置 S2 = S1_0.1;
[0036] 步驟3,判斷S2與0.5的大小:
[0037]若S2>0.5,且所述短文本所屬某個類別的概率在[S2,S1]之間,則將所述類別作 為短文本所屬類別,否則,令SI = S2,并執行步驟2;
[0038]若S2<0.5,且所述短文本所屬某個類別的概率在[0.4,S1]之間,則將概率值最大 的類別作為短文本所屬類別;否則判定所述短文本沒有所屬類別。
[0039]本發明具有以下有益效果:
[0040] 本發明所提供的短分本分類方法及裝置,引入詞向量模型對短文本進行擴充,克 服了短文本的特征稀疏的問題;同時通過多個類別的SVM模型,有效降低采用多分類模型的 復雜度;以及根據概率分類模型,使得同一短文本可以屬于多個類別,更符合實際應用。
[0041] 上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段, 而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠 更明顯易懂,以下特舉本發明的【具體實施方式】。
【附圖說明】
[0042] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖僅僅是 本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還 可以根據這些附圖獲得其他的附圖。
[0043] 圖1為本發明實施例中短文本分類方法的流程圖;
[0044] 圖2為本發明實施例中采用的短文本分類模型的示意圖;
[0045]圖3為本發明實施例中短文本分類裝置的結構框圖。
【具體實施方式】
[0046] 下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于 本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他 實施例,都屬于本發明保護的范圍。
[0047] 本發明實施例提供一種短文本分類方法,包括如下步驟:
[0048]步驟1,對待分類的短文本進行分詞預處理,并獲取分詞得到的每個詞語的擴展 詞;
[0049] 步驟2,根據構建的詞項集獲取每個詞語及其擴展詞的權重值;
[0050] 步驟3,根據權重值,利用多個類別SVM分類模型獲取所屬每個類別的概率;
[0051] 步驟4,根據預設的概率分類模型確定所述短文本的所屬類別。
[0052]本發明所提供的短文本分類方法,對每個短文本進行分詞處理后,將映射到高維 空間的向量,向量的每一維代表某種潛在語義。越相似詞語之間的向量距離越接近,這樣可 以將每個詞語進行語義擴展,有效克服了短文本的特征稀疏問題。通過SVM分類模型獲取短 文本所屬每個類別的概率,根據預設的概率分類模型確定該短文本所屬的類別,有效解決 了文本信息因噪聲大導致分類不準確的問題。
[0053]下面結合附圖1和具體實施例對本發明的技術內容做進一步地詳細說明。
[0054]本發明的執行環境采用一臺具有2.4G赫茲中央處理器和8G字節內存的奔騰4計算 機并用JAVA語言編制了短文本分類方法,還可以采用其他的執行環境,在此不再贅述。
[0055]參見圖1中的測試過程,首先對待分類的短文本進行分詞預處理,并獲取每個詞語 的擴展詞。
[0056]本發明實施例中利用NLPIR的分詞工具將一個短文本切割為一個個獨立的詞語, 那么一個短文本就可以表示為[詞1,詞2……詞n],其中n為該短文本的詞語數目。預處理工 作除了進行分詞外,還包括去除短文本中的I"等特殊符號,以達到去除一定的干擾 的目的。本發明對訓練短文本集中數據的特殊字符的干擾,進行針對性的判別,提高了分類 的精度。
[0057]在該步驟中,根據訓練的詞向量空間模型對分詞后的短文本進行擴充。本發明實 施例中采用word2VeC詞向量空間模型,可以將短文本擴展成指定數目或滿足特定相似度的 向量,表示為:詞語一>與該詞語強關聯的向量 [0058]對每一個詞語特征擴展后,可以得到一段短文本的特征擴展。
[0059]
[詞1,詞2, "?"?詞n].擴_ [詞1,詞2, ??詞n]+ [詞1強關聯的詞語 組合,……詞11強關聯的詞浯組合]
[0060] 本發明通過引入詞向量模型對短文本進行擴充,可以有效克服短文本的特征稀疏 的問題。
[0061] 接著,根據詞項集獲取每個詞語及其擴展詞的權重值。
[0062] 本發明實施例中,在構建詞項集時(圖1中標注文本集的過程),按照上述的預處理 的方法對標注樣本集中所有的短文本進行分詞以及詞語擴展處理,并計算每一個詞語以及 擴展詞語的權重值。其中,權重值采用詞頻來表示,現在比較常用的特征權重的計算方式為 TF*IDF,TF*RF。本發明實施例采用TF-IDF值,計算公式如下:
[0064]其中,|D|表示標注樣本集中的文本總數,|Di|表示包含詞語i的文本總數,蟮表示 詞語<在文本i中出現的次數。
[0065]根據標注文本集中的詞語、詞語的擴展詞語、以及根據每個詞語的TF-IDF值生成 詞項集。在進行分類時,對待分類的短文本進行分詞以及詞語擴展處理后,從詞項集中獲取 每個詞語對應的詞語權重值。
[0066]然后,根據權重值,利用多個類別SVM分類模型獲取所屬每個類別的概率。
[0067] 當權重值確定后,利用分類算法進行訓練和預測分類模型。現在文本分類的算法 很多,常見的有Naive 8&768,3¥11,1(順,1(^18^(3回歸等。本發明實施例中優選采用3¥1 (Support Vector Model,支持向量機)分類模型,對于支持向量機屬于本領域技術人員所 熟知的技術,這里不再進行詳細介紹。本發明實施例中,對于n個類別,只有n個SVM分類模 型。本發明中的SVM分類模型不是判斷屬于正負類別,而是輸出屬于各類別的概率,最終可 以得到分類結果的可信度量化數值。根據每個所屬類別的量化值,在進一步判斷該短文本 的所屬類別。通過采用多個單類別的分類模型,在一定程度上有效減少了多分類模型的運 算復雜度。
[0068] 最后,根據預設的概率分類模型確定短文本的所屬類別。
[0069] 參見圖2,本發明實施例采用的概率分類模型,假設有n個類別,每個待分類文本輸 入n個類別的SVM分類模型,得到屬于各類別的概率,利用概率分類模型,確定最終分類。本 發明的實施例中采用的概率分類模型,具體包括如下步驟:
[0070] 步驟1,若所屬某個類別的概率在[Sl,l]之間,則將所述類別作為短文本所屬類 另IJ,否則,執行步驟2;其中,SlG[0.5,l);
[0071] 步驟 2,設置 S2 = S1_0.1;
[0072] 步驟3,判斷S2與0.5的大小:
[0073] 若S2>0.5,且短文本所屬某個類別的概率在[S2,S1 ]之間,則將類別作為短文本 所屬類別,否則,令SI = S2,并執行步驟2;
[0074] 若S2<0.5,且短文本所屬某個類別的概率在[0.4,S1 ]之間,則將概率值最大的類 別作為短文本所屬類別;否則判定短文本沒有所屬類別。
[0075] 本發明實施例提供的概率分類模型,可以取出概率高的類別,極端情況下,模型判 斷不屬于該類別,所有類別概率都小于0.5的情況下,也有可能取到正確類別;此外,最終的 輸出結果是文本所屬類別或者類別集合,同一段文本可以屬于不同類別,更符合實際應用。
[0076] 參見圖3,本發明實施例還提供一種短文本分類裝置,用于實現上述的短文本分類 方法,具體包括:
[0077]預處理單元,用于對待分類的短文本進行分詞預處理;
[0078]第一獲取單元,用于獲取分詞得到的每個詞語的擴展詞;
[0079]構建單元,用于預先構建詞項集;
[0080] 第二獲取單元,用于根據構建單元構建的詞項集獲取每個詞語及其擴展詞的權重 值;
[0081] 第三獲取單元,用于根據權重值,利用多個類別SVM分類模型獲取短文本所屬每個 類別的概率;
[0082] 確定單元,用于根據預設的概率分類模型確定短文本的所屬類別。
[0083] 進一步地,第一獲取單元具體用于根據詞向量空間模型獲取分詞得到的每個詞語 的擴展詞。
[0084]進一步地,構建單元具體用于:
[0085] 對標注樣本集中所有的短文本進行分詞預處理,并獲取每個詞語的擴展詞;
[0086] 計算每一個詞語以及擴展詞語的權重值,并將詞語、擴展詞語及權重值保存至詞 項集中。
[0087] 進一步地,確定單元具體用于:
[0088] 步驟1,若短文本所屬某個類別的概率在[SI,1]之間,則將類別作為短文本所屬類 另IJ,否則,執行步驟2;其中,SlG[0.5,l);
[0089] 步驟 2,設置 S2 = S1_0.1;
[0090] 步驟3,判斷S2與0.5的大小:
[0091]若S2>0.5,且所述短文本所屬某個類別的概率在[S2,S1]之間,則將所述類別作 為短文本所屬類別,否則,令SI = S2,并執行步驟2;
[0092]若S2<0.5,且所述短文本所屬某個類別的概率在[0.4,S1]之間,則將概率值最大 的類別作為短文本所屬類別;否則判定所述短文本沒有所屬類別。
[0093]綜上所述,本發明所提供的短分本分類方法及裝置,通過引入詞向量模型對短文 本進行擴充,可以有效克服了短文本的特征稀疏的問題;同時通過多個單類別的SVM分類模 型,有效降低采用多分類模型的運算復雜度;同時由于該SVM分類模型獲取的是所屬類別概 率,因此分類結果是可信度量化值,可以有效提高了分類精度;根據概率分類模型,取出概 率較高的類別,使得同一短文本可以同時屬于多個類別,使得該分類方法更具有實際意義。 [0094]本領域普通技術人員可以理解實現上述實施例方法中的全部或部分流程,是可以 通過計算機程序來指令相關的硬件來完成,程序可存儲于計算機可讀取存儲介質中,該程 序在執行時,可包括如上述各方法的實施例的流程。
[0095]雖然通過實施例描述了本申請,本領域的技術人員知道,本申請有許多變形和變 化而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要
【主權項】
1. 一種短文本分類方法,其特征在于,包括: 對待分類的短文本進行分詞預處理,并獲取分詞得到的每個詞語的擴展詞; 根據預先構建的詞項集獲取每個詞語及其擴展詞的權重值; 根據所述權重值,利用多個類別SVM分類模型獲取所述短文本所屬每個類別的概率; 根據預設的概率分類模型確定所述短文本的所屬類別。2. 如權利要求1所述的方法,其特征在于,根據詞向量空間模型獲取分詞得到的每個詞 語的擴展詞。3. 如權利要求1所述的方法,其特征在于,預先構建所述詞項集時,包括: 對標注樣本集中所有的短文本進行分詞預處理,并獲取分詞得到的每個詞語的擴展 詞; 計算每一個詞語以及擴展詞語的權重值,并將詞語、擴展詞語及權重值保存至所述詞 項集中。4. 如權利要求1或3所述的方法,其特征在于,所述權重值為TF-IDF值。5. 如權利要求1所述的方法,其特征在于,所述根據預設的概率分類模型確定所述短文 本的所屬類別,包括: 步驟1,若所述短文本所屬某個類別的概率在[SI,1]之間,則將所述類別作為短文本所 屬類別,否則,執行步驟2;其中,Sie[〇.5,l); 步驟2,設置S2 = Sl-0.1; 步驟3,判斷S2與0.5的大小: 若S2>0.5,且所述短文本所屬某個類別的概率在[S2,S1]之間,則將所述類別作為短 文本所屬類別,否則,令SI = S2,并執行步驟2; 若S2<0.5,且所述短文本所屬某個類別的概率在[0.4,Sl ]之間,則將概率值最大的類 別作為短文本所屬類別;否則判定所述短文本沒有所屬類別。6. -種短文本分類裝置,其特征在于,包括: 預處理單元,用于對待分類的短文本進行分詞預處理; 第一獲取單元,用于獲取分詞得到的每個詞語的擴展詞; 構建單元,用于預先構建詞項集; 第二獲取單元,用于根據所述構建單元構建的詞項集獲取每個詞語及其擴展詞的權重 值; 第三獲取單元,用于根據所述權重值,利用多個類別SVM分類模型獲取所述短文本所屬 每個類別的概率; 確定單元,用于根據預設的概率分類模型確定所述短文本的所屬類別。7. 如權利要求6所述的裝置,其特征在于,所述第一獲取單元具體用于根據詞向量空間 模型獲取分詞得到的每個詞語的擴展詞。8. 如權利要求6所述的裝置,其特征在于,所述構建單元具體用于: 對標注樣本集中所有的短文本進行分詞預處理,并獲取每個詞語的擴展詞; 計算每一個詞語以及擴展詞語的權重值,并將詞語、擴展詞語及權重值保存至所述詞 項集中。9. 如權利要求6所述的裝置,其特征在于,所述確定單元具體用于: 步驟I,若所述短文本所屬某個類別的概率在[SI,1]之間,則將所述類別作為短文本所 屬類別,否則,執行步驟2;其中,sie[0.5,l); 步驟2,設置S2 = Sl-0.1; 步驟3,判斷S2與0.5的大小: 若S2>0.5,且所述短文本所屬某個類別的概率在[S2,S1]之間,則將所述類別作為短 文本所屬類別,否則,令SI = S2,并執行步驟2; 若S2<0.5,且所述短文本所屬某個類別的概率在[0.4,Sl ]之間,則將概率值最大的類 別作為短文本所屬類別;否則判定所述短文本沒有所屬類別。
【文檔編號】G06K9/62GK105912716SQ201610285420
【公開日】2016年8月31日
【申請日】2016年4月29日
【發明人】佟玲玲, 杜翠蘭, 鈕艷, 李鵬霄, 易立, 段東圣, 查奇文, 劉曉輝, 柳毅
【申請人】國家計算機網絡與信息安全管理中心