專利名稱:評價對象聚類方法和裝置的制作方法
技術領域:
本發明涉及自然語言處理領域。特別地,本發明涉及一種用于將評價對象聚類的方法和裝置。
背景技術:
對于文本傾向性分析,根據其處理粒度的不同可以將其分為篇章級、句子級以及屬性級。面向篇章級和句子級的傾向性分析主要是判斷其是否具有褒義、貶義或中性等情感傾向。僅給出其傾向性不能滿足許多應用需求,因此開始了面向更細粒度的屬性級傾向性分析。該任務不但要求給出傾向性,還需找出被評論的對象,這些信息可被用來進一步分析觀點傾向或生成評論文摘等。
發明內容
本發明的一個目的是,提供一種用于將評價對象聚類的方法和裝置。在下文中給出關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。根據本發明的一個實施例,基于語素提取評價對象的語素特征;基于評價對象的上下文提取評價對象的外部關聯詞語,作為所述評價對象的外部關聯特征;以及利用所述語素特征和所述外部關聯特征對所述評價對象進行第一聚類。在根據本發明的實施例中,由于通過語素考慮了評價對象的內部關聯特性,并且通過外部關聯詞語考慮了評價對象的外部關聯特性,因此可以更有效地對評價對象進行聚類。通過以下結合附圖對本發明的最佳實施例的詳細說明,本發明的上述以及其他優點將更加明顯。
本發明可以通過參考下文中結合附圖所給出的描述而得到更好的理解。所述附圖連同下面的詳細說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進一步舉例說明本發明的優選實施例和解釋本發明的原理和優點。在附圖中圖1示出了根據本發明的一個實施例的用于將評價對象聚類的方法的流程圖;圖2示出了根據本發明的另一個實施例的用于將評價對象聚類的方法的流程圖;圖3示出了根據本發明的另一個實施例的用于將評價對象聚類的方法的流程圖;圖4示出了根據本發明的一個實施例的用于將評價對象聚類的裝置的示意性結構圖;圖5示出了根據本發明的另一個實施例的用于將評價對象聚類的裝置的示意性結構圖;圖6示出了根據本發明的另一個實施例的用于將評價對象聚類的裝置的示意性結構圖;并且圖7示出了可用于實施根據本發明的實施例的計算機的示意性框圖。在附圖中,相同或者相應的方法步驟或者部件使用了相同的或者相應的參考標記。
具體實施例方式在下文中將結合附圖對本發明的示范性實施例進行描述。為了清楚和簡明起見, 在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現開發人員的具體目標,并且這些決定可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發工作有可能是非常復雜和費時的,但對得益于本公開內容的本領域技術人員來說,這種開發工作僅僅是例行的任務。在此,還需要說明的一點是,為了避免因不必要的細節而模糊了本發明,在附圖中僅僅示出了與根據本發明的方案密切相關的裝置結構,而省略了與本發明關系不大的其他細節。隨著博客、論壇、社區等社會化媒體的發展,如何挖掘其中的信息是一個具有科學性和商業性的問題。發明人注意到,對于評價對象(例如產品屬性)的信息而言,由于其通常由用戶自由撰寫,因此對于同一評價對象會有多種詞語來表達。例如,在數碼相機的評論中“外殼”、“樣子”、“外形”等都是指數碼相機的外觀這一評價對象。措辭的多樣化使得抽取出的評價對象信息過于細化、瑣碎,不便于用戶和商家瀏覽和總結,也不利于人工分析。因此,發明人研究了如何挖掘評價對象之間的關系,將具有相同、相近含義的評價對象自動歸類。根據本發明的一個實施例,提出了一種用于將評價對象聚類的方法。圖1示出了根據本發明的一個實施例的用于將評價對象聚類的方法的流程圖。從圖1中可以看到,該方法包括如下步驟步驟S110,基于語素提取評價對象的語素特征。如上面所提及的那樣,發明人注意到由于用戶的隨意性,對于同一評價對象可能會使用多種措辭。目前在分析這些評價對象時通常以詞作為最小的語言單位來對兩個詞語之間的相似度進行衡量,然而對于一些評價對象難以達到令人滿意的結果。例如對于評價對象“電池”、“電池續航能力”和“電源”,如果以詞為最小單元進行相似度計算,則“電池” 和“電池續航能力”之間由于有“電池”而具有一定關聯,而“電池”和“電源”,“電池續航能力,,和“電源”之間則因為沒有共有詞而沒有關聯。然而從常識可以判斷,“電池”及“電池續航能力”與“電源”之間實際上是有一定關聯的。為此,發明人注意到,為了進一步挖掘評價對象之間的關聯性,可以利用語素作為最小的語言單位來對評價對象之間的相關性進行分析。通過引入語素,可以從比詞更小的語言單位獲取評價對象之間的關聯信息。語素是最小的語法單位,也是最小的語音、語義結合體。語素按音節分類可以分為單音節語素,雙音節語素和多音節語素。單音節語素如土、人、水、風等。雙音節語素是指組成該語素的兩個音節合起來才有意思,分開來沒有與該語素有關的意義,雙音節語素主要包括連綿詞、外來詞和專有名詞,如蜻蜓、牡丹、芭蕾等。多音節語素主要是擬聲詞、專用名詞和音譯外來詞。如喜馬拉雅、珠穆朗瑪、法蘭克福等。在中文中,語素作為比詞語小的語言單位,具有很好的語言顯著性。同時,語素在評論信息中出現的頻率要高于詞語出現的頻率,因此選擇語素為研究單元在一定程度上還可以對數據稀疏起到緩解作用。在上面的例子中,對于評價對象“電池”、“電池續航能力”和“電源”,利用語素作為最小的語言單位來進行分析,由于它們三者都具有“電”這一語素,因此可以分析得出它們之間具有一定的關聯。同樣對于另一評價對象的例子“顯示屏”、“屏幕”、“觸摸屏”,如果采用詞作為最小單位來進行分析,則會認為它們之間沒有關聯,然而通過利用語素作為最小的語言單位來進行分析,由于它們三者都具有“屏”這一語素,因此可以分析得出它們之間具有一定的關聯。語素是包含在評價對象詞內的語言單位,因此可以認為語素是評價對象的一種內部關聯特征。根據圖1的方法還包括步驟S130 基于評價對象的上下文提取評價對象的外部關聯詞語,作為所述評價對象的外部關聯特征。發明人在研究中注意到,在中文產品評論信息中,人們喜歡用簡單的句子表達對產品的喜好。評論中的句子主要由被評價對象和評價詞構成。以數碼相機領域為例,評論信息如下面所示>外觀漂亮,小巧。>屏幕超級大,顏色也很絢麗,拍的效果也不錯。;>屏幕大,造型時尚。>造型非常漂亮,電池不耐用。>觸摸屏比較容易臟。>顯示屏大,很好!可以看出,評論信息中評價詞常出現在被評價的評價對象周圍,評價詞與評價對象之間具有很強的關聯程度,評價詞對于評價對象之間的關系具有很好的指示作用。研究表明,對于某些語義相近的詞語,其上下文信息也具有一定的相似程度,即上下文信息具有很好的指示作用。因此,在對評價對象聚類時如果進一步考慮評價對象的上下文中的評價詞,也即考慮評價對象的外部關聯特征,則應該可以進一步改進聚類的結果。例如,“外觀”、“造型”兩者在以語素作為最小單元時,無法發現其具有內部關聯。 如果考慮與其關聯的評價詞,可以發現“漂亮”、“小巧”、“時尚”等評價詞常用來修飾外觀這一屬性,“外觀”、“造型”在這一方面具有一定的關聯性。這說明了在衡量評價對象之間的外部關聯時,評價詞具有一定的語義信息來反映評價對象之間的關系。發明人注意到,程度副詞、否定副詞雖然可使得傾向性截然相反,然而由于它們可以和多種評價詞連用,相當于通用詞匯,因此并沒有很好的類別指示作用。如常見的程度副詞“非常”,否定副詞“不”,它們可以修飾“耐用”、“漂亮”等評價詞。而“耐用”多用來指電池屬性,“漂亮”多指外觀屬性。這些副詞的引入容易使得類別之間的區分度降低。因此優選的是,只采用上下文中出現的評價詞作為評價對象的外部關聯詞語來衡量評價對象的外部關聯性,而并未使用所有的詞語。研究表明,人們習慣于在被評價對象附近(例如在同一個句子中)給出對被評價對象的意見,因此,認為與評價對象近距離出現的評價詞與該評價對象有關系。例如,可以假設與評價對象相距距離在某個閾值之下的評價內容與該評價對象有關,這里的距離可以是指詞的個數。因此,根據本發明的一個實施方式提出了,所述外部關聯特征是包括所述評價對象的預定大小的窗口內的評價詞。當然,本領域技術人員也可以使用任何其他可能的方法來確定與評價對象關聯的評價詞,以作為評價對象的外部關聯特征。例如,可以認為與評價對象在同一個句子中的評價詞就可能與該評價對象關聯,或者也可以使用依存句法分析方法等。其中依存句法分析方法中通過對句子進行句法分析來將句子由線性序列轉化為結構化的依存分析數,從而分析各部分信息之間的關聯。在步驟SllO中獲取評價對象的語素特征并且在步驟S130中獲取評價對象的外部關聯特征之后,在步驟S150中利用所述語素特征和所述外部關聯特征對所述評價對象進
行第一聚類。本領域技術人員知道,可以使用多種聚類算法來進行上述第一聚類。例如可以使用常用的K-Means算法作為聚類算法,也可以采用其他的聚類算法如,K-MED0IDS算法、 CLARANS算法等。下面以K-Means算法作為例子來進行說明。在K-Means算法中首先接收輸入量k(k為自然數);然后將η個數據對象劃分為 k個聚類以便使得所獲得的聚類滿足如下條件同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得的一個“中心對象”(引力中心)來進行計算的。K-Means算法的說明如下首先從η個數據對象任意選擇k個對象作為初始聚類中心;而對于所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心 (該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數。k個聚類具有以下特點各聚類本身盡可能地緊湊,而各聚類之間盡可能地分開。在K-Means算法中,針對每個評價對象xi確定其相應的特征向量Vector(Xi)= {yn,yi2' · · · ‘ Υπ oin, oi2, · · ·, oim},其中 Yil' Yi2' · · ·,Yil 是 Xi 中白勺語素,Oin, Oi2, · · ·,Oim 是與Xi的距離在給定窗口內的評價詞。窗口設定可以是{-、,、},即句子中在Xi左面的、個詞和右面的、個詞,也可以是在一個分句內,或在一個句子內。需要說明的是,該特征向量并非局限于只包括上述語素特征和評價詞特征,本領域技術人員也可以根據需要引入其他特征,例如評價對象內的詞語特征、評價對象上下文的其他詞語特征等等。針對特征向量中的每個特征,可以基于評價對象和與該評價對象關聯的特征之間的共現關系來確定所述特征的權重。例如可以采用點互信息(PMI)方法來確定特征的權重,當然也可以采用其他本領域技術人員所熟知的方法來確定特征的權重。在PMI方法中針對向量中的某個特征yj,利用下式來計算其權重
PifLxi)PMI(f;,Xi) = Iog2 二. d廣、
6
其中P(/j,x,0是Xi和/j在語料中的聯合概率,也即Xi和/j在語料中相互關聯地同時出現的概率,巧/j)是/j在語料中出現的概率,P (Xi)是Xi在語料中出現的概率。上式的計算結果是對Xi和/j之間的一種統計依賴關系衡量,因此可以確定相應的特征/j的權重。隨后,基于上述特征向量和向量中的各特征的權重利用K-Means算法得到第一聚類的結果。這里需要說明的是,雖然在上面的實施例中提出了將評價對象的語素特征和外部關聯特征相結合,由此對評價對象來進行第一聚類,然而本領域技術人員容易想到的是,也可能單獨地僅僅利用評價對象的語素特征或者評價對象的外部關聯特征來對評價對象進行聚類。另外,也可能的是,在提取評價對象的外部關聯詞語時,對外部關聯詞語進行聚類,并將同一類的外部關聯詞語作為相同的外部關聯詞語,由此可以進一步提高對評價對象聚類的準確性。圖2示出了根據本發明的另一個實施例的用于將評價對象聚類的方法的流程圖。 從圖中可以看到,圖2所示的方法和圖1相比,在第一聚類步驟S150之后還進一步包括第二聚類步驟S170。在步驟S170中,將第一聚類的結果作為約束條件,對評價對象進行第二聚類,以獲取進一步的聚類結果。可以根據第一聚類的結果獲得兩種約束條件必屬于同一類(Must-Link)的約束條件和不屬于同一類(Carmot-Link)的約束條件。其中Must-Link的約束條件是指兩個評價對象必須在一個類別中,而Carmot-Link的約束條件是指兩個評價對象一定不在一個類別中。通過利用這兩種約束條件,或者通過利用這兩種約束條件其中之一,可以進一步對評價對象進行第二聚類來改進聚類結果。例如,可以使用COP-Kmeans半監督聚類方法來進行第二聚類。該COP-Kmeans半監督聚類方法的思想是將已有知識融入到K-Means算法中。關于該半監督聚類方法的具體描述,可以參見Wagstaff,Kiri等人于2001年所著的 Constrainded K—meansClustering with Background Knowledge, Proceedings of 18th InternationalConference on Machine Learning,第 577一584 頁,因此這里不再贊述。通過引入第二聚類步驟,進一步改進了對評價對象的聚類結果。在研究中,發明人注意到高頻的評價對象通常會具有更穩定、更豐富的統計信息。因此,如果先選出一定數目的評價對象來進行第一聚類,然后將聚類結果轉化為約束條件,隨后對所有評價對象進行半監督聚類,則一方面可以在第一聚類步驟中節省資源,而另一方面同樣可以實現比較好的聚類結果。圖3示出了根據本發明的另一個實施例的用于將評價對象聚類的方法的流程圖。從圖中可以看到,圖3所示的方法和圖2相比,在步驟SllO 之前還包括步驟SlOO 確定用于第一聚類的評價對象。優選的是,根據評價對象在語料中出現的頻度來確定用于第一聚類的評價對象。例如選擇在語料中具有高的出現頻度的評價對象作為用于第一聚類的評價對象。或者也可以根據評價對象和評價詞之間的關系來確定用于第一聚類的評價對象,其理由是,通常評價對象與越多的評價詞有關,則該評價對象的語義關系通常越豐富。因此在步驟SlOO中確定用于第一聚類的評價對象之后,繼續執行提取語素特征、 提取外部關聯特征、第一聚類、第二聚類等步驟。這些步驟的具體描述可參見前面的實施例,這里不再贅述。區別僅僅在于,在第一聚類步驟中是針對步驟SlOO中所選擇的評價對象來執行,而在第二聚類步驟中則是針對語料中的所有評價對象來執行的。圖4示出了根據本發明的一個實施例的用于將評價對象聚類的裝置的示意性結構圖。該實施例對應于上面針對圖1所描述的方法實施例。從圖中可以看到,該用于將評價對象聚類的裝置包括語素特征提取器410,其被配置用于基于語素提取評價對象的語素特征;外部關聯特征提取器430,其被配置用于基于評價對象的上下文提取評價對象的外部關聯詞語,作為所述評價對象的外部關聯特征; 以及第一聚類器450,其被配置用于利用所述語素特征和所述外部關聯特征對所述評價對象進行第一聚類。其中上述語素特征可以包括評價對象的單音節語素、雙音節語素和多音節語素,而所述外部關聯特征可以是包括所述評價對象的預定大小的窗口內的評價詞。優選地,外部關聯特征提取器430可以包括關聯詞語聚類器,其被配置用于對所述外部關聯詞語進行聚類,將同一類的外部關聯詞語作為相同的外部關聯詞語,由此可以進一步提高對評價對象聚類的準確性。優選地,第一聚類器450可以進一步包括特征權重確定器,其被配置用于基于評價對象和與該評價對象關聯的特征之間的共現關系來確定所述特征的權重。關于上述各部件具體如何執行各相應的步驟以及其他相關細節,可以相應地參見上面針對圖1所描述的方法實施例,這里不再贅述。圖5示出了根據本發明的另一個實施例的用于將評價對象聚類的裝置的示意性結構圖。該實施例對應于上面針對圖2所描述的方法實施例。與圖4相比可以看到,根據該實施例的裝置還包括第二聚類器470,其被配置用于將第一聚類的結果作為約束條件,對評價對象進行第二聚類,以獲取進一步的聚類結果。關于如何進行第二聚類可以參見上面針對圖2所描述的方法實施例,這里不再贅述。圖6示出了根據本發明的另一個實施例的用于將評價對象聚類的裝置的示意性結構圖。該實施例對應于上面針對圖3所描述的方法實施例。從圖6中可以看到,該裝置還包括評價對象選擇器400,其被配置用于根據評價對象在語料中出現的頻度或者根據評價對象與評價詞之間的關系來確定用于第一聚類的評價對象。相應地,在該實施例中,第一聚類器450針對評價對象選擇器400所選擇的評價對象來進行第一聚類,而第二聚類器470 針對語料中的所有評價對象來進行第二聚類。關于這些具體細節,同樣可以參見上面針對圖3所描述的方法實施例,這里不再贅述。上述裝置中各個組成模塊、單元可通過軟件、固件、硬件或其組合的方式進行配置。配置可使用的具體手段或方式為本領域技術人員所熟知,在此不再贅述。在通過軟件或固件實現的情況下,從存儲介質或網絡向具有專用硬件結構的計算機(例如圖7所示的通用計算機700)安裝構成該軟件的程序,該計算機在安裝有各種程序時,能夠執行各種功能等。在圖7中,中央處理單元(CPU) 701根據只讀存儲器(ROM) 702中存儲的程序或從存儲部分708加載到隨機存取存儲器(RAM) 703的程序執行各種處理。在RAM 703中,也根據需要存儲當CPU 701執行各種處理等等時所需的數據。CPU 70UROM 702和RAM 703經由總線704彼此連接。輸入/輸出接口 705也連接到總線704。下述部件連接到輸入/輸出接口 705 輸入部分706(包括鍵盤、鼠標等等)、輸出部分707(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚聲器等)、存儲部分708(包括硬盤等)、通信部分709(包括網絡接口卡比如LAN卡、調制解調器等)。通信部分709經由網絡比如因特網執行通信處理。根據需要,驅動器710也可連接到輸入/輸出接口 705。可拆卸介質711比如磁盤、光盤、磁光盤、半導體存儲器等等根據需要被安裝在驅動器710上,使得從中讀出的計算機程序根據需要被安裝到存儲部分708中。在通過軟件實現上述系列處理的情況下,從網絡比如因特網或存儲介質比如可拆卸介質711安裝構成軟件的程序。本領域的技術人員應當理解,這種存儲介質不局限于圖7所示的其中存儲有程序、與設備相分離地分發以向用戶提供程序的可拆卸介質711。可拆卸介質711的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(⑶-ROM)和數字通用盤 (DVD))、磁光盤(包含迷你盤(MD)(注冊商標))和半導體存儲器。或者,存儲介質可以是 ROM 702、存儲部分708中包含的硬盤等等,其中存有程序,并且與包含它們的設備一起被分發給用戶。本發明還提出一種存儲有機器可讀取的指令代碼的程序產品。所述指令代碼由機器讀取并執行時,可執行上述根據本發明實施例的方法。相應地,用于承載上述存儲有機器可讀取的指令代碼的程序產品的存儲介質也包括在本發明的公開中。所述存儲介質包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等寸。最后,還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的
要素。此外,在沒有更多限制的情況下,由語句“包括一個......”限定的要素,并不排除在
包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。以上雖然結合附圖詳細描述了本發明的實施例,但是應當明白,上面所描述的實施方式只是用于說明本發明,而并不構成對本發明的限制。對于本領域的技術人員來說,可以對上述實施方式作出各種修改和變更而沒有背離本發明的實質和范圍。因此,本發明的范圍僅由所附的權利要求及其等效含義來限定。通過以上的描述不難看出,根據本發明的實施例,提供了如下的方案附記1. 一種用于將評價對象聚類的方法,包括-基于語素提取評價對象的語素特征;-基于評價對象的上下文提取評價對象的外部關聯詞語,作為所述評價對象的外部關聯特征;-利用所述語素特征和所述外部關聯特征對所述評價對象進行第一聚類。附記2.根據附記1所述的方法,其中所述語素特征包括評價對象的單音節語素、 雙音節語素和多音節語素。附記3.根據附記1所述的方法,其中所述外部關聯特征包括所述評價對象的預定大小的窗口內的評價詞。附記4.根據附記1所述的方法,進一步包括,對所述外部關聯詞語進行聚類,將同一類的外部關聯詞語作為相同的外部關聯詞語。
附記5.如附記1-4之一所述的方法,進一步包括-將所述第一聚類的結果作為約束條件,對評價對象進行第二聚類,以獲取進一步的聚類結果。附記6.根據附記1-4之一所述的方法,其中,根據評價對象在語料中出現的頻度或者根據評價對象與評價詞之間的關系來確定用于第一聚類的評價對象。附記7.根據附記1-4之一所述的方法,其中基于評價對象和與該評價對象關聯的特征之間的共現關系來確定所述特征的權重。附記8.根據附記5所述的方法,所述約束條件包括必屬于同一類的約束條件和不屬于同一類的約束條件。附記9. 一種用于將評價對象聚類的裝置,包括-語素特征提取器G10),其被配置用于基于語素提取評價對象的語素特征;-外部關聯特征提取器G30),其被配置用于基于評價對象的上下文提取評價對象的外部關聯詞語,作為所述評價對象的外部關聯特征;-第一聚類器050),其被配置用于利用所述語素特征和所述外部關聯特征對所述評價對象進行第一聚類。附記10.根據附記9所述的裝置,其中所述語素特征包括評價對象的單音節語素、 雙音節語素和多音節語素。附記11.根據附記9所述的裝置,其中所述外部關聯特征包括所述評價對象的預定大小的窗口內的評價詞。附記12.根據附記9所述的裝置,其中所述外部關聯特征提取器(430)包括關聯詞語聚類器,其被配置用于對所述外部關聯詞語進行聚類,將同一類的外部關聯詞語作為相同的外部關聯詞語。附記13.如附記9-12之一所述的裝置,進一步包括-第二聚類器070),其被配置用于將所述第一聚類的結果作為約束條件,對評價對象進行第二聚類,以獲取進一步的聚類結果。附記14.根據附記9-12之一所述的裝置,進一步包括評價對象選擇器000),其被配置用于根據評價對象在語料中出現的頻度或者根據評價對象與評價詞之間的關系來確定用于第一聚類的評價對象。附記15.根據附記9-12之一所述的裝置,其中第一聚類器(450)進一步包括特征權重確定器,其被配置用于基于評價對象和與該評價對象關聯的特征之間的共現關系來確定所述特征的權重。附記16.根據附記13所述的裝置,所述約束條件包括必屬于同一類的約束條件和不屬于同一類的約束條件。附記17. —種程序產品,該程序產品包括機器可執行的指令,當在信息處理設備上執行所述指令時,所述指令使得所述信息處理設備執行如附記1至8中的任一項所述的方法。附記18. —種存儲介質,該存儲介質包括機器可讀的程序代碼,當在信息處理設備上執行所述程序代碼時,所述程序代碼使得所述信息處理設備執行如附記1至8中的任一項所述的方法。
權利要求
1.一種用于將評價對象聚類的方法,包括-基于語素提取評價對象的語素特征;-基于評價對象的上下文提取評價對象的外部關聯詞語,作為所述評價對象的外部關聯特征;-利用所述語素特征和所述外部關聯特征對所述評價對象進行第一聚類。
2.一種用于將評價對象聚類的裝置,包括-語素特征提取器G10),其被配置用于基于語素提取評價對象的語素特征;-外部關聯特征提取器G30),其被配置用于基于評價對象的上下文提取評價對象的外部關聯詞語,作為所述評價對象的外部關聯特征;-第一聚類器G50),其被配置用于利用所述語素特征和所述外部關聯特征對所述評價對象進行第一聚類。
3.根據權利要求2所述的裝置,其中所述語素特征包括評價對象的單音節語素、雙音節語素和多音節語素。
4.根據權利要求2所述的裝置,其中所述外部關聯特征包括所述評價對象的預定大小的窗口內的評價詞。
5.根據權利要求2所述的裝置,其中所述外部關聯特征提取器(430)包括關聯詞語聚類器,其被配置用于對所述外部關聯詞語進行聚類,將同一類的外部關聯詞語作為相同的外部關聯詞語。
6.如權利要求2-5之一所述的裝置,進一步包括-第二聚類器G70),其被配置用于將所述第一聚類的結果作為約束條件,對評價對象進行第二聚類,以獲取進一步的聚類結果。
7.根據權利要求2-5之一所述的裝置,進一步包括評價對象選擇器000),其被配置用于根據評價對象在語料中出現的頻度或者根據評價對象與評價詞之間的關系來確定用于第一聚類的評價對象。
8.根據權利要求2-5之一所述的裝置,其中第一聚類器(450)進一步包括特征權重確定器,其被配置用于基于評價對象和與該評價對象關聯的特征之間的共現關系來確定所述特征的權重。
9.根據權利要求6所述的裝置,所述約束條件包括必屬于同一類的約束條件和不屬于同一類的約束條件。
全文摘要
本發明涉及一種用于將評價對象聚類的方法和裝置。所述方法包括基于語素提取評價對象的語素特征;基于評價對象的上下文提取評價對象的外部關聯詞語,作為所述評價對象的外部關聯特征;以及利用所述語素特征和所述外部關聯特征對所述評價對象進行第一聚類。
文檔編號G06F17/30GK102375848SQ201010260750
公開日2012年3月14日 申請日期2010年8月17日 優先權日2010年8月17日
發明者于浩, 夏迎炬, 孟遙, 張姝, 賈文杰 申請人:富士通株式會社