專利名稱::行業(yè)分類方法、裝置和服務(wù)器的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明實施例涉及網(wǎng)絡(luò)通信
技術(shù)領(lǐng)域:
,特別涉及一種行業(yè)分類方法、裝置和服務(wù)器。
背景技術(shù):
:隨著互聯(lián)網(wǎng)在全球的普及,以及互聯(lián)網(wǎng)應(yīng)用的不斷發(fā)展,網(wǎng)頁上的文本信息近年來呈現(xiàn)爆炸式增長,如何充分有效地利用網(wǎng)頁上的文本信息成為關(guān)注的焦點。文本分類通過自動為文本標注類別,可以有效地組織和管理文本信息,已經(jīng)漸漸成為數(shù)據(jù)挖掘領(lǐng)域中一個重要的研究方向并且具有很高的商業(yè)價值。目前,文本分類已經(jīng)被應(yīng)用到許多領(lǐng)域中,包括抽取符號知識、分發(fā)電子郵件、生成用戶興趣模式和郵件內(nèi)容監(jiān)控等。文本分類就是將大量文本信息劃分為若干組,每組一個類別,每個類別代表不同的概念主題。文本分類是一個有指導(dǎo)的學習過程,文本分類根據(jù)一個己經(jīng)被標注的訓(xùn)練文本集合,找到文本特征和文本類別之間的關(guān)系模型,然后利用學習得到的關(guān)系模型對新的文本進行類別判斷。文本分類的基礎(chǔ)技術(shù)由文本的預(yù)處理、文本的表示、分類方法及效果評估三部分組成?,F(xiàn)有的分類方法主要采用自動分類算法,自動分類算法主要有Rocchio算法、決策樹算法、K-近鄰(K-NearestNeighbor;以下筒稱KNN)算法、貝葉斯(Bayes)算法、神經(jīng)網(wǎng)絡(luò)算法、步進(boosting)算法和支持向量機(SupportVectorMachines;以下簡稱SVM)等。Rocchio算法根據(jù)待分類文本的向量與每一個類別的中心向量的距離來確定類別屬性。KNN算法通過查詢已知的類似文檔的分類情況,來判斷新文檔和已知文檔是否屬于統(tǒng)一類別。貝葉斯算法將訓(xùn)練的文檔分解為特征向量和決策類別向量,是一種統(tǒng)計學的分類方法,計算新文檔屬于各類的概率,最大概率對應(yīng)的類別即為新文檔所屬的類別。SVM算法是一種建立在統(tǒng)計學習理論基礎(chǔ)上的機器學習的放大,主要針對兩類分類的問題,在高維空間上尋找一個超平面對兩類的樣本進行分割。決策樹算法實際上是把搜索空間劃分為一些矩陣區(qū)域,然后根據(jù)文本落入?yún)^(qū)域?qū)ξ谋具M行分類。文本分類包括兩個方面一方面是長文本分類,另一方面是短文本分類?,F(xiàn)有的分類方法主要面向較長文本分類,例如文章級別或者段落級別的分類。由于短文本的長度較短,一般只有幾個漢字至十幾個漢字,現(xiàn)有的文本分類方法并不適用于短文本分類,在應(yīng)用現(xiàn)有的文本分類方法對短文本進行分類時,準確度4^f氐。有的分類方法無法在行業(yè)體系下對用戶和該用戶對應(yīng)的拍賣詞進行準確的分類。
發(fā)明內(nèi)容本發(fā)明提供一種行業(yè)分類方法、裝置和服務(wù)器,以實現(xiàn)根據(jù)用戶和該用戶對應(yīng)的拍賣詞的關(guān)聯(lián)關(guān)系對短文本進行分類,將用戶和拍賣詞分類到對應(yīng)的^f亍業(yè)中。本發(fā)明提供一種行業(yè)分類方法,包括確定跨行業(yè)用戶,將所述跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶,根據(jù)所述跨行業(yè)用戶的拍賣詞確定所述虛擬用戶對應(yīng)的拍賣詞;將所述虛擬用戶對應(yīng)的拍賣詞與各行業(yè)的種子詞進行匹配,確定所述虛擬用戶對應(yīng)的拍賣詞的初始4亍業(yè);根據(jù)所述虛擬用戶對應(yīng)的拍賣詞的初始行業(yè)對所述虛擬用戶進行聚類,根據(jù)所述虛擬用戶的聚類結(jié)果對所述虛擬用戶對應(yīng)的拍賣詞進行聚類,重復(fù)執(zhí)行所述聚類的步驟,才艮據(jù)達到預(yù)定條件時的聚類結(jié)果確定所述虛擬用戶和7所述虛擬用戶對應(yīng)的拍賣詞所屬的^f亍業(yè)。本發(fā)明還提供一種行業(yè)分類裝置,包括用戶確定模塊,用于確定跨行業(yè)用戶;用戶分離模塊,用于將所述用戶確定模塊確定的跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶;拍賣詞確定模塊,用于根據(jù)所述跨行業(yè)用戶的拍賣詞確定所述用戶分離模塊分離的虛擬用戶對應(yīng)的拍賣詞;初始行業(yè)確定模塊,用于將所述拍賣詞確定模塊確定的虛擬用戶對應(yīng)的拍賣詞與各行業(yè)的種子詞進行匹配,確定所述虛擬用戶對應(yīng)的拍賣詞的初始行業(yè);行業(yè)確定模塊,用于根據(jù)所述初始行業(yè)確定模塊確定的虛擬用戶對應(yīng)的拍賣詞的初始行業(yè)對所述虛擬用戶進行聚類,根據(jù)所述虛擬用戶的聚類結(jié)果對所述虛擬用戶對應(yīng)的拍賣詞進行聚類,重復(fù)執(zhí)行所述聚類的步驟,根據(jù)達到預(yù)定條件時的聚類結(jié)果確定所述虛擬用戶和所述虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。本發(fā)明還提供一種服務(wù)器,包括上述的行業(yè)分類裝置。本發(fā)明通過將跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶,然后4艮據(jù)虛擬用戶對應(yīng)的拍賣詞的初始行業(yè)對虛擬用戶進行聚類,才艮據(jù)虛擬用戶的聚類結(jié)果對虛擬用戶對應(yīng)的拍賣詞進行聚類,最后,根據(jù)最終的聚類結(jié)果確定虛擬用戶和虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。從而實現(xiàn)了根據(jù)虛擬用戶和該虛擬用戶對應(yīng)的拍賣詞的關(guān)聯(lián)關(guān)系對短文本進行分類,將虛擬用戶和拍賣詞分類到對應(yīng)的行業(yè)中,實現(xiàn)了在行業(yè)體系下對用戶和該用戶對應(yīng)的拍賣詞進行準確的分類。為了更清楚地說明本發(fā)明或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通^t術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明行業(yè)分類方法一個實施例的流程圖;圖2為本發(fā)明分離跨行業(yè)用戶一個實施例的流程圖;圖3為本發(fā)明行業(yè)分類裝置一個實施例的結(jié)構(gòu)示意圖;圖4為本發(fā)明行業(yè)分類裝置另一個實施例的結(jié)構(gòu)示意圖。具體實施例方式下面將結(jié)合本發(fā)明中的附圖,對本發(fā)明中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。圖1為本發(fā)明行業(yè)分類方法一個實施例的流程圖,如圖1所示,本實施例包括步驟101,確定跨行業(yè)用戶。具體可以為將用戶的每個拍賣詞與預(yù)定行業(yè)包括的所有行業(yè)的種子詞進4亍匹配;如果該用戶的拍賣詞中與種子詞匹配的拍賣詞的個數(shù)大于或等于預(yù)設(shè)的第一閾值,并且該用戶的拍賣詞在該預(yù)定行業(yè)包括的各行業(yè)的分布熵小于或等于預(yù)設(shè)的第二閾值,則確定該用戶為上述預(yù)定行業(yè)的跨行業(yè)用戶。具體地,有l(wèi)i殳預(yù)定行業(yè)為行業(yè)T,確定一個用戶U是否為行業(yè)T的跨行業(yè)用戶可以為1011,設(shè)定用戶U的拍賣詞中與行業(yè)T包括的所有行業(yè)的種子詞匹配的拍賣詞的個數(shù)的數(shù)組為trade—matched數(shù)組,初始化trade—matched數(shù)組的值為0;1012,將用戶U的每個拍賣詞與行業(yè)T包括的所有行業(yè)的種子詞進4亍匹配,每匹配上一個種子詞,將trade一matched數(shù)組中與匹配上種子詞的拍賣詞9所對應(yīng)的記錄位置處的值加1;1013,假設(shè)行業(yè)T中包括N個行業(yè),如果<formula>formulaseeoriginaldocumentpage10</formula>Sthrescrosstrade,則可以確定用戶U是行業(yè)T的3爭行業(yè)用戶,其中,thres—match—words為第一閾值,thres—cross—trades為第二閾值。其中,行業(yè)可以劃分為多級體系,例如一級行業(yè)可以包括醫(yī)療和才幾電等行業(yè);一級行業(yè)中的醫(yī)療行業(yè)可以包括多個二級4亍業(yè),例如醫(yī)療藥品、醫(yī)療器械和醫(yī)療機構(gòu)等。本實施例中的預(yù)定行業(yè)T可以為一級行業(yè)中的任一行業(yè),包括多個二級行業(yè);也可以為一級行業(yè)之上的一個虛擬4亍業(yè),該虛擬行業(yè)包括多個一級行業(yè)。本實施例中,種子詞指描述行業(yè)特征的短語,種子詞的屬性包括字面、否定和肯定標識,以及權(quán)重。其中字面可以為醫(yī)院或才幾械等;肯定標識為行業(yè)的特性,否定標識為排除行業(yè)的特性;權(quán)重為行業(yè)的優(yōu)先級別。步驟102,將跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶,根據(jù)跨行業(yè)用戶的拍賣詞確定該虛擬用戶對應(yīng)的拍賣詞。圖2為本發(fā)明分離跨行業(yè)用戶一個實施例的流程圖,如圖2所示,本實施例包4舌步驟201,對跨行業(yè)用戶的所有拍賣詞進行切詞。下面以拍賣詞為W為例,對切詞的方法進行介紹。假設(shè)拍賣詞W的形式為ABS^DSsE,其中SpS2均為行業(yè)的種子詞,長度分別為L!和L2,A、B、C、D和E為基本的中文單詞。2011,在拍賣詞W中查找種子詞,記錄下種子詞在拍賣詞W中的位置和對應(yīng)長度,本實施例中,種子詞在拍賣詞W中的位置和對應(yīng)長度為{3:Ll55:L2},并標注種子詞的行業(yè)標識;其中,查找到的種子詞相互之間可能有重疊,且本實施例不限制查找到的種子詞的個it。在查找種子詞時,可以遵循以下原則(1)種子詞完全包含,長詞優(yōu)先原則;例如當種子詞為"鼻,,和"鼻竇炎,,,拍賣詞為"患了鼻竇炎怎么辦"時,在該拍賣詞中查找到的種子詞為"鼻竇炎";當種子詞為"鼻竇炎,,和"炎",拍賣詞為"患了鼻竇炎怎么辦,,時,在該拍賣詞中查找到的種子詞為"鼻竇炎";(2)種子詞部分重疊原則a)后匹配原則例如當種子詞為"交通法規(guī)"和"法規(guī)培訓(xùn)",拍賣詞為"交通法規(guī)培訓(xùn)學校"時,在該拍賣詞中查找到的種子詞為"法規(guī)培訓(xùn)";b)被選出的種子詞數(shù)量最多匹配原則例如當種子詞為"交通法"、"法規(guī)培訓(xùn)"和"學校",拍賣詞為"交通法規(guī)培訓(xùn)學校"時,在該拍賣詞中查找到的種子詞為"法規(guī)培訓(xùn)"和"學4交"。2012,以種子詞為分隔符將拍賣詞W拆分成若干字符串,如下所示"AB,,、"S1"、"CD"、"S2"和"E,,。2013,對拍賣詞W中種子詞以外的字符串進行切詞,切詞過程中,對中文單字和英文單字母過濾。本實施例中,需要對"AB"、"CD"和"E"這三部分進行切詞,4叚設(shè)切詞結(jié)果為"A,,、"B,,、"CD"和"E,,。2014,根據(jù)拍賣詞W中詞的出現(xiàn)順序組合切詞結(jié)果和種子詞,并以"\t"分隔各切詞結(jié)果和種子詞。本實施例中,組合的結(jié)果為"A\tB\tSl\tCD\tS2\tE,,。步驟202,對切詞結(jié)果進行停用詞過濾,并在過濾后的切詞結(jié)果中按照預(yù)定的規(guī)則確定跨行業(yè)用戶的高頻切詞。具體地,該預(yù)定的規(guī)則可以為詞覆蓋和詞頻覆蓋算法,即在過濾后的切詞結(jié)果中按照詞覆蓋和詞頻覆蓋算法確定跨行業(yè)用戶的高頻切詞。下面對本實施中采用的詞覆蓋和詞頻覆蓋算法進行介紹。2021,初始化切詞數(shù)組term—array,翁:組term—array中的每一個H組元素記錄一個切詞出現(xiàn)的次數(shù);2022,初始化覆蓋詞凄t目的數(shù)組term—coverage_array,數(shù)組term—coverage—array用于記錄切詞數(shù)組term—array中的對應(yīng)切詞覆蓋的拍賣詞的凄t目;對應(yīng)term—array里面的每一個切詞,凄t組term—coverage—array中的對應(yīng)元素記錄該切詞覆蓋了多少個拍賣詞;2023,對跨行業(yè)用戶的所有拍賣詞進行切詞,得到若干個切詞,記為集合A,統(tǒng)計集合A中每個切詞出現(xiàn)的次數(shù)(頻率);將每個拍賣詞對應(yīng)的切詞記為集合B,因此集合B中的每個切詞肯定在集合A中出現(xiàn),同時對應(yīng)一個頻率;找出每個集合B包含的切詞中在集合A里頻率最高的切詞,將數(shù)組term—coverage—array中與該頻率最高的切詞對應(yīng)的記錄位置處的數(shù)組元素的數(shù)值加1;2024,將term—array數(shù)組按詞頻由高到4氐進行排序,其中詞頻指切詞出現(xiàn)的次數(shù);2025,i殳term—freq_cnt為所有切詞的詞頻總和,定義兩個變量least—term和least—word,#刀士臺4匕l(fā)east—word=(unsignedint)(thres—wc_percentxword一num)+l;^口果term—frecLcnK酉己置參凄l(xiāng),貝'Jleast—term=term—freq_cnt;j口果term—freq_cnt》配置參凄t,則least—term=(unsignedint)(thres—tc_percent*term—num)+l;其中,thres—tc_percent是詞步貞覆蓋率的閾值,thres—wc_percent是詞覆蓋率的閾值,term—num是切詞的詞頻總和,word—num是切詞的翁:量;配置參數(shù)可以為任意正整數(shù),例如1000。m2026,尋找最小的m,使得》erm—array[i]Sleast—term,且i=lmZterm—coverage—array[i]>least—word;i=l122027,確定term—array數(shù)組的前m個切詞為5爭4亍業(yè)用戶的高頻切詞。步驟2(B,對高頻切詞進行聚類。具體地,對高頻切詞進行聚類可以為將高頻切詞與預(yù)定行業(yè)包括的所有行業(yè)的種子詞進行模糊匹配,在匹配成功之后,將該高頻切詞標上行業(yè)標注,將具有相同行業(yè)標注的高頻切詞劃分到同一聚類中;根據(jù)沒有行業(yè)標注的高頻切詞與具有行業(yè)標注的聚類中每個高頻切詞的相似度,將沒有行業(yè)標注的高頻切詞聚到具有行業(yè)標注的聚類中;其中,相似度的計算方法為按照頻率從高到低的順序,計算沒有行業(yè)標注的高頻切詞與具有行業(yè)標注的聚類中每個高頻切詞的相似度,對計算得到的相似度求和得到sum;設(shè)具有行業(yè)標注的聚類中高頻切詞的個數(shù)為term—num,設(shè)tmp—div為只于term—num進4亍<尤4匕后的<直,tmp一div=int(double(375x(-333+double(sqrt(double(333x333+4x520xterm—num)))))/1040)+1,則最終相似度=sum/tmp—div;如果一個沒有行業(yè)標注的高頻切詞與某個聚類的所有高頻切詞計算得到的最終相似度最大,且大于預(yù)設(shè)的閾值,則將該沒有行業(yè)標注的高頻切詞聚到該最終相似度最大的聚類中。對于經(jīng)過上述聚類過程后剩余的高頻切詞可以按一個較小的閾值thres—two進行聚類。具體可以為以一個沒有行業(yè)標注的高頻切詞X為例,計算所有未曾與X計算過相似度的聚類與X的相似度,如果一個聚類與X的相似度高于thres—two,將X聚到相似度高于thres—two的該聚類中。在對剩余的高頻切詞按照較小的閾值thres一two進行聚類時,可以按照剩余的高頻切詞的頻率由高到低的順序依次進行。步驟204,根據(jù)高頻切詞的聚類確定高頻切詞所屬拍賣詞的聚類。具體地,在對高頻切詞進行聚類之后,根據(jù)行業(yè)標注和每個聚類中高頻切詞的數(shù)量計算權(quán)值。該權(quán)值=1+log(24xterm_num),其中term_num為聚類中包含的高頻切詞的數(shù)量;如果該聚類有行業(yè)標注,則將通過上式計算的4又值再加10。對于僅包括一個高頻切詞的拍賣詞,該高頻切詞的聚類即為該拍賣詞的聚類;對于包括多個高頻切詞的拍賣詞,確定高頻切詞所屬的聚類中,計算得到的上述權(quán)值最大的聚類為拍賣詞的聚類;例如4叚設(shè)拍賣詞Y包括三個高頻切詞A、B和C,分別屬于聚類l、2和3,通過計算,獲得聚類l的權(quán)值為10,聚類2的權(quán)值為20,聚類3的權(quán)值為30,則可以確定拍賣詞的聚類為高頻切詞C所屬的聚類3。另外,如果允許將拍賣詞劃分到多個聚類中,假設(shè)權(quán)值最大的聚類有行業(yè)標注,權(quán)值第二的聚類無行業(yè)標注,則可以將拍賣詞輸出到這兩個聚類;仍以上述包括三個高頻切詞A、B和C的拍賣詞Y為例,假定聚類3有行業(yè)標注,聚類2無行業(yè)標注,則可以確定拍賣詞Y的聚類為聚類3和聚類2。對于不包括高頻切詞的拍賣詞,可以集中劃分到一個單獨的聚類中。步驟205,確定拍賣詞的一個聚類為一個單一行業(yè)的虛擬用戶,該聚類對應(yīng)的拍賣詞為虛擬用戶的拍賣詞。在確定了拍賣詞的聚類之后,將每一個聚類單獨作為一個單一行業(yè)的虛擬用戶;而每個聚類所對應(yīng)的拍賣詞,作為該虛擬用戶的拍賣詞。通過上述分離跨行業(yè)用戶的過程,可以去除跨行業(yè)用戶對于用戶和拍賣詞的雙向關(guān)聯(lián)關(guān)系的噪聲。步驟103,將虛擬用戶對應(yīng)的拍賣詞與各行業(yè)的種子詞進行匹配,確定該虛擬用戶對應(yīng)的拍賣詞的初始4亍業(yè)。下匹配^見則(1)最高優(yōu)先級匹配原則權(quán)重越大,優(yōu)先級越高。如果一個拍賣詞匹配到多個種子詞,那么以最大權(quán)重的種子詞的行業(yè)作為該拍賣詞的初始行業(yè);(2)否定種子詞不匹配原則如果一個拍賣詞匹配到一個種子詞Sl,S1在行業(yè)T1,但是該拍賣詞同時匹配到種子詞S2,S2為否定標識,S2也在行業(yè)Tl,那么該拍賣詞不能匹配到行業(yè)T1里面去;(3)為了實現(xiàn)某些特定的策略,對某些特定優(yōu)先級的種子詞進行特殊處理。例如<table>tableseeoriginaldocumentpage15</column></row><table>(4)在種子詞的權(quán)重相同的情況下,優(yōu)先根據(jù)后匹配原則進行匹配,在根據(jù)后匹配原則進行匹配時,根據(jù)長詞優(yōu)先原則進行匹配。在將虛擬用戶對應(yīng)的拍賣詞與各行業(yè)的種子詞進行匹配時,必須滿足上述每一條規(guī)則。述聚類的步驟,根據(jù)達到預(yù)定條件時的聚類結(jié)果確定虛擬用戶和虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。具體地,對于任意虛擬用戶,該虛擬用戶對應(yīng)的每個拍賣詞為該拍賣詞所屬的聚類投一票,得票最多的聚類為該虛擬用戶的聚類;其中,該虛擬用拍賣詞,該拍賣詞對應(yīng)的每個虛擬用戶均為該虛擬用戶所屬的聚類投一票,得票最多的聚類為該拍賣詞的聚類。重復(fù)執(zhí)行上述聚類的步驟,直至滿足預(yù)定的循環(huán)結(jié)束條件,然后,可以根據(jù)達到預(yù)定條件時的聚類結(jié)果確定虛擬用戶和該虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。其中,預(yù)定的循環(huán)結(jié)束條件可以為循環(huán)步驟達到預(yù)設(shè)的數(shù)值,例如100步;或者,虛擬用戶所在的聚類和拍賣詞所在的聚類都不再有任何變動;當然,還可以設(shè)定其他的循環(huán)結(jié)束條件,本實施例對循環(huán)結(jié)束條件的設(shè)定不作限定。在上述聚類過程中,還可以引入基準拍賣詞和基準虛擬用戶,引入基準拍賣詞和基準虛擬用戶是人工干預(yù)措施的接口,利用已知的資源來強化分類的效果。具有行業(yè)標注的基準拍賣詞和基準虛擬用戶在上述聚類過程中,行業(yè)標注不會發(fā)生變化。其中,在上述每次聚類過程中,可以通過計算虛擬用戶和拍賣詞所屬聚類的權(quán)重,確定虛擬用戶和拍賣詞的聚類。具體地,對于任意虛擬用戶,可以計算該虛擬用戶對應(yīng)的每個拍賣詞的初始行業(yè)的權(quán)重,確定權(quán)重最大的初始行業(yè)為該虛擬用戶的聚類。對于任意拍賣詞,可以計算每個拍賣詞對應(yīng)的所有虛擬用戶所屬聚類的權(quán)重,確定權(quán)重最大的聚類為該拍賣詞的聚類。下面詳細介紹上述聚類過程中權(quán)重的計算過程。本實施例以虛擬用戶或該虛擬用戶對應(yīng)的拍賣詞作為^:票者,對應(yīng)地,以虛擬用戶所在的聚類或拍賣詞所在的聚類作為被投票者,介紹上述聚類過程中權(quán)重的計算過程。1041,計算虛擬用戶和該虛擬用戶對應(yīng)的拍賣詞的初始一又重。具體地,拍賣詞的初始權(quán)重=(1/sqrt(log(拍賣詞對應(yīng)的虛擬用戶的數(shù)量+2》),虛擬用戶的初始權(quán)重=1/sqrt(log(虛擬用戶對應(yīng)的拍賣詞的數(shù)量+2)))。本實施例中,投票者的聚類必須大于0,且初始權(quán)重大于0.0001;即,擬用戶只于應(yīng)的拍賣詞的初始一又重必須大于0.0001。1042,對每一個投票者的聚類的權(quán)重進行求和,設(shè)一共有M個投票者,每個投票者有一個聚類號,投票者聚類號組成的集合為N,求出每一個聚類i(ieN)上屬于聚類i的投票者的權(quán)重的和,并記為Wtrade[i],Wtrade[i]=ZW其中,W為投票者的權(quán)重,i為標號為i的聚類,W對應(yīng)的投票者屬于聚類i。1043,當被投票者只有一個投票者時,被投票者的權(quán)重不變,將被投票者的聚類設(shè)置為投票者的聚類;當一個被投票者有多個投票者時,設(shè)多個投票者的集合為集合S,多個投票者所對應(yīng)的聚類號的集合為P,那么對這些投票者,計算集合S中的投票者在集合P中的各個聚類的權(quán)重和sumwcate[j],其中,j表示標號為j的聚類,jeN;并計算集合S中所有投票者的權(quán)值總和sumw和集合S中所有投票者的Wxlog(W)的總和sumwlgw;其中,集合S中投票者的總數(shù)為ws。1044,在給被投票者賦值新的聚類號的時候,每一個投票者的聚類的比專交4又重V為V—sumwcate[j]xWtrade[j].^n—Wtrade[j]+100,^,本實施例在聚類過程中,選擇最大的權(quán)重V所對應(yīng)的聚類j作為祐:才殳票者的聚類。同時為了計算被投票者的權(quán)重,計算臨時變換權(quán)值,具體可以為<formula>formulaseeoriginaldocumentpage17</formula>1045,計算被投票者的權(quán)重。具體地,被投票者的權(quán)重weight(maxinfQ—infQ)。maxinfo在上述計算權(quán)重的過程中,引入的基準拍賣詞和基準虛擬用戶的權(quán)重不會發(fā)生變化。上述實施例通過將跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶,然后根據(jù)虛擬用戶對應(yīng)的拍賣詞的初始行業(yè)對虛擬用戶進行聚類,根據(jù)虛擬用戶的聚類結(jié)果對虛擬用戶對應(yīng)的拍賣詞進行聚類,最后,根據(jù)最終的聚類結(jié)果確定虛擬用戶和虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。從而實現(xiàn)了才艮據(jù)虛擬用戶和該虛擬用戶對應(yīng)的拍賣詞的關(guān)聯(lián)關(guān)系對短文本進行分類,將虛擬用戶和拍賣詞分類到對應(yīng)的行業(yè)中,實現(xiàn)了在行業(yè)體系下對用戶和該用戶對應(yīng)的拍賣詞進行準確的分類。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括ROM、RAM、-茲碟或者光盤等各種可以存儲程序代碼的介質(zhì)。圖3為本發(fā)明行業(yè)分類裝置一個實施例的結(jié)構(gòu)示意圖,該實施例的行業(yè)分類裝置可以作為一個服務(wù)器,或者位于服務(wù)器中,實現(xiàn)本發(fā)明圖1所示實施例的流程。如圖3所示,該行業(yè)分類裝置包括用戶確定模塊31、用戶分離模塊32、拍賣詞確定模塊33、初始行業(yè)確定模塊34和行業(yè)確定模塊35。其中,用戶確定模塊31可以用于確定跨行業(yè)用戶;具體地,將用戶的每個拍賣詞與預(yù)定行業(yè)包括的所有行業(yè)的種子詞進行匹配;如果該用戶的拍賣詞中與種子詞匹配的拍賣詞的個數(shù)大于或等于預(yù)設(shè)的第一閾值,并且該用戶的拍賣詞在該預(yù)定行業(yè)包括的各行業(yè)的分布熵小于或等于預(yù)設(shè)的第二閾值,則確定該用戶為上述預(yù)定行業(yè)的^爭行業(yè)用戶。用戶分離模塊32可以將用戶確定模塊31確定的跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶;具體地,在用戶分離模塊32將跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶時,可以采用本發(fā)明圖2所示實施例中"l是供的方法。拍賣詞確定模塊33可以根據(jù)跨行業(yè)用戶的拍賣詞確定用戶分離模塊32分離的虛擬用戶對應(yīng)的拍賣詞。初始行業(yè)確定模塊34可以將拍賣詞確定模塊33確定的虛擬用戶對應(yīng)的拍賣詞與各行業(yè)的種子詞進行匹配,確定該虛擬用戶對應(yīng)的拍賣詞的初始行業(yè);初始行業(yè)確定模塊34在將虛擬用戶對應(yīng)的拍賣詞與各行業(yè)的種子詞進行匹配時,可以采用以下匹配失見則(1)最高優(yōu)先級匹配原則權(quán)重越大,優(yōu)先級越高。如果一個拍賣詞匹配到多個種子詞,那么以最大權(quán)重的種子詞的行業(yè)作為該拍賣詞的初始行業(yè);(2)否定種子詞不匹配原則如果一個拍賣詞匹配到一個種子詞Sl,Sl在行業(yè)Tl,但是該拍賣詞同時匹配到種子詞S2,S2為否定標識,S2也在行業(yè)Tl,那么該拍賣詞不能匹配到行業(yè)T1里面去;(3)為了實現(xiàn)某些特定的策略,對某些特定優(yōu)先級的種子詞進行特殊處理。例如<table>tableseeoriginaldocumentpage19</column></row><table>(4)在種子詞的;f又重相同的情況下,優(yōu)先才艮據(jù)后匹配原則進^f亍匹配,在根據(jù)后匹配原則進行匹配時,根據(jù)長詞優(yōu)先原則進行匹配。初始行業(yè)確定模塊34在將虛擬用戶對應(yīng)的拍賣詞與各行業(yè)的種子詞進行匹配時,必須滿足上述每一條^見則。行業(yè)確定模塊35可以根據(jù)初始行業(yè)確定模塊34確定的虛擬用戶對應(yīng)的拍賣詞的初始行業(yè)對虛擬用戶進行聚類,根據(jù)該虛擬用戶的聚類結(jié)果對該虛擬用戶對應(yīng)的拍賣詞進行聚類,重復(fù)執(zhí)行上述聚類的步驟,根據(jù)達到預(yù)定條件時的聚類結(jié)果確定虛擬用戶和該虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。具體地,對于任意虛擬用戶,該虛擬用戶對應(yīng)的每個拍賣詞為該拍賣詞所屬的聚類投一票,得票最多的聚類為該虛擬用戶的聚類;其中,該虛擬用戶對應(yīng)的每個拍賣詞的初始行業(yè)為每個拍賣詞的初始聚類。然后,行業(yè)確定體地,對于任意拍賣詞,該拍賣詞對應(yīng)的每個虛擬用戶均為該虛擬用戶所屬的聚類投一票,得票最多的聚類為該拍賣詞的聚類。重復(fù)執(zhí)行上述聚類的步驟,直至滿足預(yù)定的循環(huán)結(jié)束條件,然后,行業(yè)確定模塊35可以根據(jù)達到預(yù)定條件時的聚類結(jié)果確定虛擬用戶和該虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。其中,預(yù)定的循環(huán)結(jié)束條件可以為循環(huán)步驟達到預(yù)設(shè)的數(shù)值,例如100步;或者,虛擬用戶所在的聚類和拍賣詞所在的聚類都不再有任何變動;當然,還可以設(shè)定其他的循環(huán)結(jié)束條件,本實施例對循環(huán)結(jié)束條件的設(shè)定不作限定。在上述聚類過程中,還可以引入基準拍賣詞和基準虛擬用戶,引入基準拍賣詞和基準虛擬用戶是人工干預(yù)措施的接口,利用已知的資源來強化分類的效果。具有行業(yè)標注的基準拍賣詞和基準虛擬用戶在上述聚類過程中,行業(yè)標注不會發(fā)生變化。其中,在上述每次聚類過程中,行業(yè)確定模塊35可以通過計算虛擬用戶和拍賣詞所屬聚類的權(quán)重,確定虛擬用戶和拍賣詞的聚類。具體地,對于任意虛擬用戶,可以計算該虛擬用戶對應(yīng)的每個拍賣詞的初始4亍業(yè)的4又重,確定權(quán)重最大的初始行業(yè)為該虛擬用戶的聚類。對于任意拍賣詞,可以計算每個拍賣詞對應(yīng)的所有虛擬用戶所屬聚類的權(quán)重,確定權(quán)重最大的聚類為該拍賣詞的聚類。上述實施例中,用戶分離模塊32通過將用戶確定模塊31確定的跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶,然后行業(yè)確定模塊35根據(jù)虛擬用戶對應(yīng)的拍賣詞的初始行業(yè)對虛擬用戶進行聚類,根據(jù)虛擬用戶的聚類結(jié)果對虛擬用戶對應(yīng)的拍賣詞進行聚類,最后,行業(yè)確定模塊35根據(jù)最終的聚類結(jié)果確定虛擬用戶和虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。從而實現(xiàn)了根據(jù)虛擬用戶和該虛擬用戶對應(yīng)的拍賣詞的關(guān)聯(lián)關(guān)系對短文本進行分類,將虛擬用戶和拍賣詞分類到對應(yīng)的行業(yè)中,實現(xiàn)了在行業(yè)體系下對用戶和該用戶對應(yīng)的拍賣詞進行準確的分類。圖4為本發(fā)明行業(yè)分類裝置另一個實施例的結(jié)構(gòu)示意圖,該實施例的行業(yè)分類裝置可以作為一個服務(wù)器,或者位于服務(wù)器中,實現(xiàn)本發(fā)明圖1所示實施例的流程。如圖4所示,該行業(yè)分類裝置包括用戶確定模塊41、用戶分離模塊42、拍賣詞確定模塊43、初始行業(yè)確定模塊44和行業(yè)確定模塊45。其中,用戶確定才莫塊41可以用于確定if爭行業(yè)用戶;具體地,用戶確定模塊41可以包括匹配子模塊411和確定子模塊412。其中,匹配子模塊411可以將用戶的每個拍賣詞與預(yù)定行業(yè)包括的所有行業(yè)的種子詞進行匹配;確定子模塊412可以在用戶的拍賣詞中與所述種子詞匹配的拍賣詞的個數(shù)大于或等于預(yù)設(shè)的第一閾值,并且該用戶的拍賣詞在該預(yù)定行業(yè)包括的各行業(yè)的分布熵小于或等于預(yù)設(shè)的第二閾值時,確定該用戶為預(yù)定行業(yè)的跨行業(yè)用戶。用戶分離模塊42可以將用戶確定模塊41確定的跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶;具體地,在用戶分離模塊42將跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶時,可以采用本發(fā)明圖2所示實施例中提供的方法。該用戶分離模塊42可以包括切詞子模塊421、高頻切詞確定子模塊422和聚類確定子模塊423。其中,切詞子模塊421可以對跨行業(yè)用戶的所有拍賣詞進行切詞;高頻切詞確定子模塊422可以對切詞子模塊421的切詞結(jié)果進行停用詞過濾,并在過濾后的切詞結(jié)果中按照預(yù)定的規(guī)則確定跨行業(yè)用戶的高頻切詞;聚類確定子模塊423可以對高頻切詞確定子模塊422確定的高頻切詞進行聚類,并根據(jù)高頻切詞的聚類確定高頻切詞所屬拍賣詞的聚類,確定該拍賣詞的一個聚類為一個單一行業(yè)的虛擬用戶,該聚類對應(yīng)的拍賣詞為虛擬用戶的拍賣詞。高頻切詞確定子模塊422具體用于將高頻切詞與預(yù)定行業(yè)包括的所有行業(yè)的種子詞進4亍沖莫糊匹配,在匹配成功之后,將該高頻切詞標上4亍業(yè)標注,將具有相同行業(yè)標注的高頻切詞劃分到同一聚類中;并根據(jù)沒有行業(yè)標注的高頻切詞與具有行業(yè)標注的聚類中每個高頻切詞的相似度,將沒有行業(yè)標注的高頻切詞聚到具有行業(yè)標注的聚類中。拍賣詞確定模塊43可以根據(jù)跨行業(yè)用戶的拍賣詞確定用戶分離模塊42分離的虛擬用戶對應(yīng)的拍賣詞。初始行業(yè)確定模塊44可以將拍賣詞確定模塊43確定的虛擬用戶對應(yīng)的拍賣詞與各行業(yè)的種子詞進行匹配,確定該虛擬用戶對應(yīng)的拍賣詞的初始行業(yè);初始行業(yè)確定沖莫塊44在將虛擬用戶對應(yīng)的拍賣詞與各行業(yè)的種子詞進行匹配時,可以采用本發(fā)明圖3所示實施例中提到的4種匹配規(guī)則,初始行業(yè)滿足這4種規(guī)則。行業(yè)確定模塊45可以根據(jù)初始行業(yè)確定外莫塊44確定的虛擬用戶對應(yīng)的拍賣詞的初始行業(yè)對虛擬用戶進行聚類,根據(jù)該虛擬用戶的聚類結(jié)果對該虛擬用戶對應(yīng)的拍賣詞進行聚類,重復(fù)執(zhí)行上述聚類的步驟,根據(jù)達到預(yù)定條件時的聚類結(jié)果確定虛擬用戶和該虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。具體地,對于4壬意虛擬用戶,該虛擬用戶對應(yīng)的每個拍賣詞為該拍賣詞所屬的聚類投一票,得票最多的聚類為該虛擬用戶的聚類;其中,該虛擬用戶對應(yīng)的每個拍賣詞的初始行業(yè)為每個拍賣詞的初始聚類。然后,行業(yè)確定模塊45再根據(jù)虛擬用戶的聚類結(jié)果對該虛擬用戶對應(yīng)的拍賣詞進行聚類,具體地,對于任意拍賣詞,該拍賣詞對應(yīng)的每個虛擬用戶均為該虛擬用戶所屬的聚類投一票,得票最多的聚類為該拍賣詞的聚類。重復(fù)執(zhí)行上述聚類的步驟,直至滿足預(yù)定的循環(huán)結(jié)束條件,然后,行業(yè)確定it塊45可以纟艮據(jù)達到預(yù)定條件時的聚類結(jié)果確定虛擬用戶和該虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。其中,預(yù)定的循環(huán)結(jié)束條件可以為循環(huán)步驟達到預(yù)設(shè)的數(shù)值,例如100步;或者,虛擬用戶所在的聚類和拍賣詞所在的聚類都不再有任何變動;當然,還可以設(shè)定其他的循環(huán)結(jié)束條件,本實施例對循環(huán)結(jié)束條件的設(shè)定不作限定。在上述聚類過程中,還可以引入基準拍賣詞和基準虛擬用戶,引入基準拍賣詞和基準虛擬用戶是人工干預(yù)措施的接口,利用已知的資源來強化分類的效果。具有行業(yè)標注的基準拍賣詞和基準虛擬用戶在上述聚類過程中,行業(yè)標注不會發(fā)生變化。其中,行業(yè)確定模塊45可以包括用戶聚類確定子模塊451和拍賣詞聚類確定子模塊452。具體地,用戶聚類確定子模塊451可以計算該虛擬用戶對應(yīng)的每個拍賣詞的初始4亍業(yè)的^又重,確定外又重最大的初始4亍業(yè)為該虛擬用戶的聚類;拍賣詞聚類確定子模塊452可以計算每個拍賣詞對應(yīng)的所有虛擬用戶所屬聚類的權(quán)重,確定權(quán)重最大的聚類為該拍賣詞的聚類。上述實施例中,用戶分離模塊42通過將用戶確定才莫塊41確定的跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶,然后行業(yè)確定模塊45根據(jù)虛擬用戶對應(yīng)的拍賣詞的初始行業(yè)對虛擬用戶進行聚類,根據(jù)虛擬用戶的聚類結(jié)果對虛擬用戶對應(yīng)的拍賣詞進行聚類,最后,行業(yè)確定模塊45根據(jù)最終的聚類結(jié)果確定虛擬用戶和虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。從而實現(xiàn)了根據(jù)虛擬用戶和該虛擬用戶對應(yīng)的拍賣詞的關(guān)聯(lián)關(guān)系對短文本進4亍分類,將虛擬用戶和拍賣詞分類到對應(yīng)的行業(yè)中,實現(xiàn)了在行業(yè)體系下對用戶和該用戶對應(yīng)的拍賣詞進行準確的分類。本領(lǐng)域技術(shù)人員可以理解附圖只是一個優(yōu)選實施例的示意圖,附圖中的模塊或流程并不一定是實施本發(fā)明所必須的。本領(lǐng)域技術(shù)人員可以理解實施例中的裝置中的沖莫塊可以按照實施例描述進行分布于實施例的裝置中,也可以進行相應(yīng)變化位于不同于本實施例的一個或多個裝置中。上述實施例的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。最后應(yīng)說明的是以上實施例僅用以說明本發(fā)明的技術(shù)方案而非對其進行限制,盡管參照較佳實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通4支術(shù)人員應(yīng)當理解其依然可以對本發(fā)明的技術(shù)方案進行^f務(wù)改或者等同替換,而這些修改或者等同替換亦不能使修改后的技術(shù)方案脫離本發(fā)明技術(shù)方案的精神和范圍。權(quán)利要求1、一種行業(yè)分類方法,其特征在于,包括確定跨行業(yè)用戶,將所述跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶,根據(jù)所述跨行業(yè)用戶的拍賣詞確定所述虛擬用戶對應(yīng)的拍賣詞;將所述虛擬用戶對應(yīng)的拍賣詞與各行業(yè)的種子詞進行匹配,確定所述虛擬用戶對應(yīng)的拍賣詞的初始行業(yè);根據(jù)所述虛擬用戶對應(yīng)的拍賣詞的初始行業(yè)對所述虛擬用戶進行聚類,根據(jù)所述虛擬用戶的聚類結(jié)果對所述虛擬用戶對應(yīng)的拍賣詞進行聚類,重復(fù)執(zhí)行所述聚類的步驟,根據(jù)達到預(yù)定條件時的聚類結(jié)果確定所述虛擬用戶和所述虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。2、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定跨行業(yè)用戶包括將用戶的每個拍賣詞與預(yù)定行業(yè)包括的所有行業(yè)的種子詞進行匹配;預(yù)設(shè)的第一閾值,并且所述用戶的拍賣詞在所述預(yù)定行業(yè)所包括的各行業(yè)的分布熵小于或等于預(yù)設(shè)的第二閾值,則確定所述用戶為所述預(yù)定行業(yè)的跨行業(yè)用戶。3、根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述將所述跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶,根據(jù)所述跨行業(yè)用戶的拍賣詞確定所述虛擬用戶對應(yīng)的拍賣詞包括對所述跨行業(yè)用戶的所有拍賣詞進行切詞,并對切詞結(jié)果進行停用詞過濾,并在過濾后的切詞結(jié)果中按照預(yù)定的規(guī)則確定所述跨行業(yè)用戶的高頻切詞;對所述高頻切詞進行聚類,并才艮據(jù)所述高頻切詞的聚類確定所述高頻切詞所屬拍賣詞的聚類;確定所述拍賣詞的一個聚類為一個單一行業(yè)的虛擬用戶,所述聚類對應(yīng)的拍賣詞為所述虛擬用戶的拍賣詞。4、根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對所述高頻切詞進行聚類包括將所述高頻切詞與所述預(yù)定行業(yè)包括的所有行業(yè)的種子詞進行模糊匹配,在匹配成功之后,將所述高頻切詞標上行業(yè)標注,將具有相同行業(yè)標注的高頻切詞劃分到同一聚類中;根據(jù)沒有行業(yè)標注的高頻切詞與具有行業(yè)標注的聚類中每個高頻切詞的相似度,將所述沒有行業(yè)標注的高頻切詞聚到所述具有行業(yè)標注的聚類中。5、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述虛擬用戶對應(yīng)的拍賣詞的初始^f亍業(yè)對所述虛擬用戶進4亍聚類包括計算所述虛擬用戶對應(yīng)的每個拍賣詞的初始行業(yè)的權(quán)重,確定權(quán)重最大的初始行業(yè)為所述虛擬用戶的聚類。6、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述虛擬用戶的聚類結(jié)果對所述虛擬用戶對應(yīng)的拍賣詞進行聚類包括計算每個拍賣詞對應(yīng)的所有虛擬用戶所屬聚類的權(quán)重,確定權(quán)重最大的聚類為所述拍賣詞的聚類。7、一種行業(yè)分類裝置,其特征在于,包括用戶確定模塊,用于確定跨行業(yè)用戶;用戶分離模塊,用于將所述用戶確定模塊確定的跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶;拍賣詞確定模塊,用于根據(jù)所述跨行業(yè)用戶的拍賣詞確定所述用戶分離模塊分離的虛擬用戶對應(yīng)的拍賣詞;初始行業(yè)確定模塊,用于將所述拍賣詞確定模塊確定的虛擬用戶對應(yīng)的拍賣詞與各行業(yè)的種子詞進行匹配,確定所述虛擬用戶對應(yīng)的拍賣詞的初始行業(yè);行業(yè)確定模塊,用于根據(jù)所述初始行業(yè)確定模塊確定的虛擬用戶對應(yīng)的拍賣詞的初始行業(yè)對所述虛擬用戶進行聚類,根據(jù)所述虛擬用戶的聚類結(jié)果對所述虛擬用戶對應(yīng)的拍賣詞進行聚類,重復(fù)執(zhí)行所述聚類的步驟,根據(jù)達到預(yù)定條件時的聚類結(jié)果確定所述虛擬用戶和所述虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。8、根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述用戶確定模塊包括子詞進4亍匹配;個數(shù)大于或等于預(yù)設(shè)的第一閾值,并且所述用戶的拍賣詞在所述預(yù)定行業(yè)所包括的各行業(yè)的分布熵小于或等于預(yù)設(shè)的第二閾值時,確定所述用戶為所述預(yù)定行業(yè)的跨行業(yè)用戶。9、根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述用戶分離模塊包括切詞子模塊,用于對所述跨行業(yè)用戶的所有拍賣詞進行切詞;高頻切詞確定子模塊,用于對所述切詞子模塊的切詞結(jié)果進行停用詞過濾,并在過濾后的切詞結(jié)果中按照預(yù)定的規(guī)則確定所述跨行業(yè)用戶的高頻切詞;聚類確定子模塊,用于對所述高頻切詞確定子模塊確定的高頻切詞進行聚類,并根據(jù)所述高頻切詞的聚類確定所述高頻切詞所屬拍賣詞的聚類,確定所述拍賣詞的一個聚類為一個單一行業(yè)的虛擬用戶,所述聚類對應(yīng)的拍賣詞為所述虛擬用戶的拍賣詞。10、根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述高頻切詞確定子模塊具體用于將所述高頻切詞與所述預(yù)定行業(yè)包括的所有行業(yè)的種子詞進行模糊匹配,在匹配成功之后,將所述高頻切詞標上行業(yè)標注,將具有相同行業(yè)標注的高頻切詞劃分到同一聚類中;并根據(jù)沒有行業(yè)標注的高頻切詞與具有行業(yè)標注的聚類中每個高頻切詞的相似度,將所述沒有行業(yè)標注的高頻切詞聚到所述具有行業(yè)標注的聚類中。11、根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述行業(yè)確定模塊包括用戶聚類確定子模塊,用于計算所述虛擬用戶對應(yīng)的每個拍賣詞的初始行業(yè)的權(quán)重,確定權(quán)重最大的初始行業(yè)為所述虛擬用戶的聚類;拍賣詞聚類確定子模塊,用于計算每個拍賣詞對應(yīng)的所有虛擬用戶所屬聚類的權(quán)重,確定權(quán)重最大的聚類為所述拍賣詞的聚類。12、一種服務(wù)器,其特征在于,包括根據(jù)權(quán)利要求7-ll任意一項所述的行業(yè)分類裝置。全文摘要本發(fā)明公開了一種行業(yè)分類方法、裝置和服務(wù)器,該方法包括確定跨行業(yè)用戶,將跨行業(yè)用戶分離為多個單一行業(yè)的虛擬用戶,根據(jù)跨行業(yè)用戶的拍賣詞確定虛擬用戶對應(yīng)的拍賣詞;將虛擬用戶對應(yīng)的拍賣詞與各行業(yè)的種子詞進行匹配,確定虛擬用戶對應(yīng)的拍賣詞的初始行業(yè);根據(jù)虛擬用戶對應(yīng)的拍賣詞的初始行業(yè)對虛擬用戶進行聚類,根據(jù)虛擬用戶的聚類結(jié)果對虛擬用戶對應(yīng)的拍賣詞進行聚類,重復(fù)執(zhí)行聚類的步驟,根據(jù)達到預(yù)定條件時的聚類結(jié)果確定虛擬用戶和虛擬用戶對應(yīng)的拍賣詞所屬的行業(yè)。本發(fā)明實現(xiàn)了根據(jù)虛擬用戶和該虛擬用戶對應(yīng)的拍賣詞的關(guān)聯(lián)關(guān)系對短文本進行分類,實現(xiàn)了在行業(yè)體系下對用戶和該用戶對應(yīng)的拍賣詞進行準確的分類。文檔編號G06F17/30GK101673305SQ20091023527公開日2010年3月17日申請日期2009年9月29日優(yōu)先權(quán)日2009年9月29日發(fā)明者徐茂興,平王,王健民,龍柏煒申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司