專利名稱:構造、維護個性化分類樹、分類顯示文檔的方法及系統的制作方法
技術領域:
本發明涉及數據處理技術,具體地,涉及個性化分類樹的構造和利用該個性化分類樹對文檔進行分類的技術。
背景技術:
對于企業和個人來說,都存在對其擁有的信息文檔進行分類存放的問題。尤其對于擁有大量信息文檔的企業和處理各種文檔的個人來說,將這些文檔按類有規則地存放對其工作效率來說無疑會是有利的。現在已經有許多統計分類方法被成功地應用于實際文檔分類中,這些方法如支持向量機(Support Vector Machine,SVM)、K-最鄰近分類法(K-NearestNeighbor,KNN)、判定樹(Decision Trees)、Naive Bayesian方法等。利用這些統計方法,文檔分類的準確性和查全率可以達到85%以上。
在傳統文檔分類技術中,在進行文檔分類之前,要由領域專家定義出分類樹,并對分類樹中的每一個類節點都要用一組人工標記的文檔的訓練集來進行定義。然后,利用訓練文檔集構造相應的分類器。最后利用分類器對待分類的文檔進行自動分類。但是,傳統分類方法的準確性是依賴于訓練集中訓練樣本的數量和質量的。
Yiming Yang和Xin Liu在Proceedings of ACM SIGIR Conference onResearch and Development in Information Retrieval(SIGIR′99,pp42-49,1999)上發表的文章“A re-examination of text categorizationmethods”中對包括SVM(支持向量機)、KNN(最鄰近)、LLSF(線性最小平方擬合)、NN(神經網絡)、和NB(Naive Bayesian)在內的五種統計分類方法進行了測試。如該文章中所記載的,利用Reuters-21578的測試表明對于包含訓練樣本較多的類別(具有300個以上的訓練樣本),上述方法可達到很高準確性和查全率,而對于包含訓練樣本較少的類別(具有低于10個的訓練樣本)來說,上述方法具有很低的準確性和查全率。
在實際應用中,分類樹中各個類中訓練樣本的分布往往并不均衡,有的類節點只有很少的訓練樣本。根據該篇文章的統計,利用ApteMod版本,最普通(常用)的類別為“earn”,其具有2,877篇訓練文檔,但是有82%的類別具有100個以下的實例,33%的類別具有10個以下的實例。如該文章中所記載的,對上述方法的測試結果表明它們的性能是訓練集類頻度(training-set category frequency)的函數。對于那些具有10個以下的訓練文檔大小的類別,其F值(F-meausure)測量只達到0.2以下,而對于那些具有高于2000的訓練集頻度的類別,其測量可達到0.9或更高。從以上可以看出,在具有較小訓練集的情況下,統計方法不能夠很好地工作。
此外,所有上述算法都是以預定義的分類樹為基礎的,這些分類樹結構完善,并且分類樹中每一類都被人工配置了幾十個或上百個訓練樣本。然而,無論預定義的分類樹其結構如何復雜,任何由專家定義的特定分類樹都不可能完全達到用戶所需的詳細程度。在大多數情況下,普通用戶將分類樹當作硬盤上的文件夾層次結構,希望能夠象對待文件夾一樣對分類樹進行自定義的個性化管理。因此,一般應用系統應該允許用戶任意定義其個性化分類樹,而且在這樣的分類樹中用戶應該還可以引入語義的不一致性。例如,用戶首先定義了一個子樹IBM→PCServer,]]>并希望能夠將與IBM產品有關的文檔放入這一子樹中,即將與IBM PC有關的文檔放入類“PC”中,將與IBM Server有關的文檔放入類“Server”中。但是,隨著時間的推移,用戶希望將關于DELL PC的一些文檔收集到類“PC”中。然而,這一操作將語義不一致性引入到了這一個性化分類樹中。傳統分類方法是不能將語義不一致的關于DELL PC的文檔引入到類“PC”中的,因此不能實現這樣的個性化分類樹。
因此,用戶希望能夠任意創建類似自己文件夾層次結構的個性化分類樹,并將滿足自己需求的語義結構自由映射到這一個性化分類樹上,而不必受到傳統的語義一致性的限制,同時,還希望不需要自己手工完成冗長的、耗費時間和精力的大量訓練樣本的指定工作,從而實現滿足個人需求的個性化文檔分類。
發明內容
為了解決上述現有技術中存在的問題,本發明提出了構造、維護個性化分類樹、利用個性化分類樹分類顯示文檔的方法以及個性化分類系統,從而使用戶能夠通過定義滿足個人需求的個性化分類樹,實現個性化的文檔分類,并且無須手工標記大量的訓練文檔集和考慮語義不一致性的問題。
根據本發明的一個方面,提供了一種構造個性化分類樹的方法,上述個性化分類樹是包含至少一個類節點(category node)的分類樹,獨立地創建上述至少一個類節點的每一個時包括步驟為該類節點定義一個名字;以及為該類節點指定至少一個關鍵詞(keyword)。缺省地,該類的名字就是該類的一個關鍵詞。
根據本發明的另一個方面,提供了一種構造個性化分類樹的方法,上述個性化分類樹是包含至少一個類節點的樹,在創建上述至少一個類節點的每一個時包括步驟利用至少一個關鍵詞查找文檔;從查找結果中選擇至少一個文檔;為該類節點定義一個名字;將上述查找使用的關鍵詞指定作為該類節點的關鍵詞;以及將上述選中的至少一個文檔指定作為該類節點的特征文檔。
根據本發明的另一個方面,提供了一種維護個性化分類樹的方法,上述個性化分類樹是包含至少一個類節點的分類樹,上述至少一個類節點的每一個包含一個名字和至少一個關鍵詞,該方法包括對于上述至少一個類節點的每一個,利用該類節點中包含的上述至少一個關鍵詞查找文檔;從查找結果中選擇至少一個文檔作為該類節點的特征文檔;以及根據上述至少一個特征文檔,進行主題跟蹤增加與該類節點相關的文檔。
根據本發明的另一個方面,提供了一種維護個性化分類樹的方法,上述個性化分類樹是包含至少一個類節點的分類樹,上述至少一個類節點的每一個包含一個名字、至少一個關鍵詞和至少一個特征文檔,該方法包括對于上述至少一個類節點的每一個,根據上述至少一個特征文檔,進行主題跟蹤增加與該類節點相關的文檔。
根據本發明的另一個方面,提供了一種利用個性化分類樹分類顯示文檔的方法,上述個性化分類樹是包含至少一個類節點的樹,上述至少一個類節點的每一個包含名字和屬于該類節點的相關文檔,該方法包括步驟選擇上述個性化分類樹中的一個類節點;以及顯示屬于該類節點的相關文檔。
根據本發明的另一個方面,提供了一種個性化分類系統,包括分類樹編輯器,用于創建并修改個性化分類樹,其中,上述個性化分類樹是包含至少一個類節點的分類樹,上述至少一個類節點的每一個包含一個名字和至少一個關鍵詞;以及類節點編輯器,用于配置上述個性化分類樹中的類節點。
相信通過以下結合附圖對本發明具體實施方式
的說明,能夠使人們更好地了解本發明上述的特點、優點和目的。
圖1是根據本發明一個實施例的構造個性化分類樹的方法的流程圖;圖2是根據本發明另一實施例構造個性化分類樹中每一節點的方法的流程圖;圖3是根據本發明一個實施例的維護個性化分類樹的方法的流程圖;圖4是顯示了根據本發明一個實施例的維護個性化分類樹的方法中針對一個類節點進行主題跟蹤以增加相關文檔的詳細步驟的流程圖;圖5是用于說明文檔長度規范化的圖;圖6是根據本發明一個實施例的利用個性化分類樹分類顯示文檔的方法的流程圖;圖7A~7C示出了本發明利用個性化分類樹分類顯示文檔的方法中在不同顯示模式下的文檔顯示結果;圖8是根據本發明一個實施例的個性化分類系統的方框圖。
具體實施例方式
下面就結合附圖對本發明的各個優選實施例進行詳細的說明。
如前面所述,在傳統文檔分類方法中都是由領域專家來構造分類樹,并為分類樹中的每一類選擇大量訓練文檔集,從而利用訓練集對新文檔進行語義鑒定以將其歸到分類樹中的各類中,這樣的分類樹遵守語義一致性,不允許用戶引入語義的不一致性。此外,這類已由專家定義的分類樹對于用戶想要創建自己的個性化類別存在很大的困難,因為用戶需要為定義的新類選擇大量的訓練文檔,這對于非語言學專家的普通用戶來說是困難的且其分類的準確性也沒有保證。因此,如果能夠使用戶可以根據自己的需求構造個性化分類樹,并利用該樹在沒有訓練樣本或小樣本的情況下,對文檔進行自動的分類和管理,則會為用戶省去很多煩瑣的文檔管理工作。
傳統的分類樹把各個文檔及它們之間的聯系以樹的形式組織在一起,父子節點之間是包含關系并且父子節點之間具有嚴格的語義限定關系,訓練時是相互依賴的,對子節點的限定包含對其父節點的語義限定,即,父節點包含屬于子節點的全部文檔。這就保證了分類樹的語義一致性。而在本發明中,父子節點分別進行獨立的限定,語義相對獨立,通過不同的視圖、文檔組織/定制/過濾,來滿足用戶瀏覽和查找文檔的需要。亦即,根據本發明的分類樹中,父子節點的路徑組織形式是父子關系,但父子節點的限定和內容是相互獨立的。
構造個性化分類樹的方法根據本發明的一個方面,提供了一種構造個性化分類樹的方法。下面就結合附圖對該方法進行詳細說明。
圖1是根據本發明一個實施例的構造個性化分類樹的方法的流程圖。本發明的個性化分類樹允許存在語義的不一致性,因此在構造該個性化分類樹時可以不用考慮子節點與父節點的一致性問題,以同樣的步驟創建每一個類節點。
如圖1所示,本實施例的構造個性化分類樹的方法開始后,首先在步驟105進行初始化工作,創建一個只包含根節點的分類樹。
接著在步驟110,向上述個性化分類樹中增加一個類節點。
接著在步驟115,為該新類節點定義一個名字。該名字應該能夠表現該節點的類別特征,類似于文件夾的名字。
接著在步驟120,為該新類節點指定至少一個關鍵詞。優選地,該類的名字就被作為該類的一個關鍵詞。類節點的關鍵詞用于描述該類節點的主題內容,如后面所述,可以利用該關鍵詞查找與該類節點相關的文檔和該類節點的特征文檔。
接著在步驟125,為該新類節點指定信息源。該信息源用于表明該類節點的相關文檔的來源,例如,可以是URL、路徑、IP地址或計算機名等等。需要指出的是,可以為一個類節點指定一個信息源,也可以為其指定多個信息源,而且多個類節點也可共用一個信息源。當未對新類節點指定信息源時,該類節點的信息源缺省繼承其父節點的信息源。
接著在步驟130,為該新類節點指定至少一個特征文檔。本發明中,特征文檔是與該類節點相關性很高的、最能體現該類內容的文檔,相當于傳統分類方法中的訓練樣本。但是與傳統分類方法不同之處在于,本發明的特征文檔的數量可以大大小于傳統分類方法中的訓練樣本的數量(例如,用戶可以只需要選出3至5個樣本),因而可以節省用戶指定特征文檔的時間。
接著在步驟135,判斷對該個性化分類樹的構造任務是否完成,如果還需要增加新的類節點,則返回到步驟110,重復前面描述的步驟110至130,在個性化分類樹中增加新的節點。
如果在步驟135中判斷為構造任務完成,則該方法在步驟140結束。
采用本實施例的利用本實施例的構造個性化分類樹的方法,由于不考慮父節點與子節點之間的一致性,因此可以簡單地、同等地創建每一個類節點,因此即是作為非語言專家的普通用戶也可以方便地完成。而且,按照本實施,用戶不需要指定大量的訓練樣本,從而可以減少工作量。
進而,根據本實施例的一個變形例,也可以省略步驟125和/或步驟130,即,不為每個節點指定信息源和特征文檔。其中信息源可以是整個分類樹指定一樣的信息源或者子節點使用父節點的信息源,特征文檔可以在后面描述的維護個性化分類樹的過程中來選定。或者不指定信息源,而將用戶能夠訪問或者有權限訪問的信息源作為節點的信息源,也可以不選定特征文檔,而將用戶經常訪問的文檔作為特征文檔或者僅使用關鍵詞來進行分類。這樣,可以進一步節省用戶構造個性化分類樹的工作量。
圖2是根據本發明另一實施例構造個性化分類樹中每一節點的方法的流程圖。本實施例構造個性化分類樹的方法與上述實施例構造個性化分類樹的方法的不同之處在于每個類節點的創建過程不同。本實施例個性化分類樹中每個類節點的創建是在用戶檢索文檔的同時完成的。
如圖2所示,首先在步驟205,用戶利用一個或多個關鍵詞從信息源查找文檔。具體地,用戶可以利用關鍵詞在一個本地或網絡路徑下查找包含該關鍵詞的文檔,也可以是,例如,用戶在一個搜索引擎中輸入關鍵詞來進行相關文檔的查詢。
接著在步驟210,從上一步驟的查找結果中選擇至少一個文檔。具體地,用戶可以通過瀏覽查找到每個文檔的摘要或正文來,選擇一個或多個希望得到的文檔。
接著在步驟215,向個性化分類樹中增加一個類節點。用戶可以在該個性化分類樹中的任意一個希望的位置增加一個類節點。
接著在步驟220,為該類節點定義一個名字,以作為該類的標記。
接著在步驟225,將步驟205中查找所用的關鍵詞指定作為該類節點的關鍵詞。
接著在步驟230,將在步驟210中選中的文檔指定作為該類節點的特征文檔。
然后在步驟235,為該類節點指定信息源。該信息源可以是前面步驟205中查找文檔的路徑,或者如果用戶通過搜索引擎進行查詢時可以是搜索到的文檔所在的URL或路徑等等。當然,也可以為該類節點指定多個信息源,例如當查詢到的文檔來自不同的地方時。
以上,結合附圖1和2對本發明實施例的構造個性化分類樹的方法進行了描述。應當指出,在增加新節點時,子節點可以繼承父節點的屬性,例如,信息源、關鍵詞等,也可以為分類樹設定共同的屬性,如信息源。
通過以上的描述可知,由于在構造個性化分類樹時對其中的每個類節點都是依各自需求單獨創建的,各個類節點之間都是平等互不依賴的關系,因此利用上述實施例構造出的個性化分類樹不存在類節點之間的語義約束問題,因而允許語義不一致性的存在。此外,因為對每個類節點無需指定或只需指定很少幾篇特征文檔,而無需象傳統分類樹那樣要由語言學專家來指定大量的訓練樣本集,因而大大簡化了分類樹的構造過程,節省了大量的人力和寶貴的時間。
此外,因為上述個性化分類樹中可為每個類節點分別指定信息源并且一個類節點可以具有多個信息源,因此進一步方便了用戶來使用個性化分類樹管理文檔。
此外,在上一實施例中,還可以在用戶進行文檔檢索的同時完成向個性化分類樹中增加新類節點的工作,從而將用戶檢索與個性化分類樹的創建結合起來,這樣進一步簡化了用戶的工作。
維護個性化分類樹的方法在同一發明構思下,根據本發明的另一個方面,提供了一種維護個性化分類樹的方法,該個性化分類樹可以是例如由前面所述的構造個性化分類樹的方法生成的。下面就結合附圖對該方法進行說明。
圖3是根據本發明一個實施例的維護個性化分類樹的方法的流程圖。需要說明的是,本實施例適用于,個性化分類樹是由前面所述構造個性化分類樹的方法所生成的,其包含至少一個類節點,且每個類節點包含一個名字、至少一個關鍵詞以及用于表明該類節點的相關文檔來源的信息源。
如圖3所示,首先在步驟305,從上述個性化分類樹中選擇一個類節點。由于本發明中個性化分類樹中父節點與子節點之間是相對獨立的,沒有嚴格的語義約束關系,因此,在維護該個性化分類樹時,可以按照任意的順序來逐一地選擇類節點進行處理,例如,可以是按照深度優先或寬度優先的順序,或者其他的順序。
接著在步驟310,對于選中的該類節點,利用關鍵詞從該類節點指定的信息源查找相關文檔。
接著在步驟315,從上一步驟的查找結果中選擇至少一個文檔作為該類節點的特征文檔。
接著在步驟320,根據上述至少一個特征文檔,該類節點指定的信息源中的文檔進行主題跟蹤(topic tracking)、增加該類節點的相關文檔。在現有技術中,已知有多種主題跟蹤的方法,例如Martin Franz等人在文章“Unsupervised and Supervised Clustering for Topic Tracking”(NAACL-2001)中提出的主題跟蹤方法,以及J.G.Fiscus等人在文章“NIST’s 1998 Topic Detection and Tracking Evaluation(TDT2)”(發表于Proceedings of the DARPA Broadcast News Workshop,1999)中所述的主題跟蹤方法等等,這里將其全文引入在此作為參考。后面將結合附圖對該跟蹤方法進行詳細描述。
接著在步驟325,判斷對該個性化分類樹的維護工作是否完成,如果還需要對該分類樹中其他節點進行維護,則該方法前進到步驟330。在步驟330,選擇該個性化分類樹中需要進行維護的下一類節點,該方法返回到步驟310重復前面所述的步驟310至步驟325。
如果步驟325的判斷結果為全部節點已經處理完成,則該方法在步驟335結束。
另外,根據本實施例的一個變形例,上述個性化分類樹中的類節點已經指定了特征文檔,則對該節點的維護過程中可以省略步驟310和步驟315,而直接根據指定的特征文檔進行主題跟蹤。
另外,根據本實施例的另一個變形例,沒有為上述個性化分類樹中的每個類節點指定信息源,則對該節點的維護過程中可以針對一個共同的信息源下的文檔來進行文檔查找和/或主題跟蹤。
圖4顯示了根據本發明一個實施例的維護個性化分類樹的方法中針對一個類節點進行主題跟蹤以增加相關文檔的詳細步驟。
如圖4所示,首先在步驟405,從類節點的特征文檔中提取關鍵詞。具體地,例如可以采用tf(term frequency)方法或者tf-idf(termfrequency-inverse document frequency)方法等。tf方法就是按照每個關鍵詞在該文檔中出現的次數來排序計算權重。tf-idf方法則是通過計算tf×idf來確定每個關鍵詞的權重,if是該詞在該文檔中的出現的頻率(次數),idf=all_sentences/term_sentences其中,all_sentences是該文檔中全部句子的數量,term_sentences是其中包含該詞的句子的數量。然后,根據以上計算結果提取出權重高的一個或多個關鍵詞。
接著在步驟410,在類節點指定的信息源中選取一個文檔。
接著在步驟415,利用上述從特征文檔中提取出的至少一個關鍵詞以及該類節點內包含的關鍵詞,對該類節點信息源中的該文檔進行長度規范化。
由于各種文檔的結構和長度不同,有時一篇文檔會會在不同的部分包含與希望的主題相關的內容和不相關的內容,這種情況下,如果直接對該文檔計算與特征文檔的主題相關程度,往往會導致計算出的相關程度很低,從而漏掉本應當選中的相關文檔。為此,本實施例中,利用上述從特征文檔中提取出的關鍵詞以及該類節點指定的關鍵詞,對該類節點信息源中的該文檔進行長度規范化,來克服上述問題。
圖5是用于說明文檔長度規范化的圖。如圖5所示,具體來說,對文檔進行長度規范化是將該上述的每個關鍵詞都看作是一個種子(seed)。對于在該文檔中出現的每個種子,從該文檔中提取出包含該種子的周圍文本(surrounding text),這里所提取的周圍文本的基本單元是該文檔中包含種子的段落。然后,將提取出來的各個周圍文本組合起來作為該文檔的長度規范化后的結構。這樣文本中與希望主題無關的部分就本排除出去了。
接著在步驟420,計算長度規范化后的上述文檔與該類節點中特征文檔的主題相關程度。
具體地,可以使用多種方法來計算主題相關程度,例如前面提到的現有技術文件中所描述的那樣。本實施例中,使用Okapi公式來計算第一和第二文檔主題相關程度,即Ok(d1,d2)=Σw∈d1∩d2tw1tw2λ(w,μ)]]>其中,d1表示第一文檔,d2表示第二文檔, 是詞w在文檔i中的調整詞頻,twi=twi‾α+twi‾,twi‾]]>詞w在文檔i中的詞頻,α是調整系數,用于調整詞頻最大值與最小值之間的差距;μ是節點中所包含的特征文檔集合;λ(w,μ)=idf0(w)+Δλ(w,μ),idf0(w)詞w的反向文檔頻率,Δλ(ω,μ)主要用于比較兩個文檔集合的相似程度,這兩個文檔集合分別是Dw,包含詞w的文檔集合;以及一個類節點中所包含的特征文檔集合μ。
Δλ(w,μ)=λ02nw,μnw+nμ,]]>其中,nw是包含詞w的文檔總數,nμ是一個類節點中所包含的特征文檔總數,nw,μ是文檔集合μ中包含詞w的文檔總數;λ0是一個可調整的比例系數,用于調整Δλ(w,μ)項目的重要程度。
接著在步驟425,判斷該文檔與該類節點中特征文件之間的主題相關程度是否大于一個第一指定閾值。該第一指定閾值可以為例如40%。若判斷為“是”,則該方法進行到步驟430,將該文檔作為相關文檔加入到該節點之下;否則,該方法進行到步驟445。
在步驟430之后執行步驟435,判斷該文檔與該類節點中特征文件之間的主題相關程度是否大于一個第二指定閾值,該第二指定閾值大于第一指定閾值,例如為60%。如果判斷為“是”,則該方法進行到步驟440,增加該文檔作為該類節點的特征文檔;否則,該方法進行到步驟445。
然后在步驟445,判斷該類節點信息源中的所有文檔是否都已處理完成。若還有未處理的文檔,則該方法前進到步驟450,選取該信息源中的下一個文檔并返回到步驟415重復前面描述的過程處理該文檔;否則,該方法在步驟455結束。
進而,根據本實施例的一個變形例,可以不對被處理的文檔進行長度規范化,因此,步驟405、415可以省略。
另外,根據本發明的另外一個實施例,在對個性化分類樹的維護過程中,還判斷節點下特征文檔是否大于一個預定數量,例如100篇,如果是,則可以采用傳統的統計分類方法來進行維護。
通過以上的描述可知,對個性化分類樹的維護是通過每個類節點直接從信息源獲取相關文檔來實現,因此,類節點之間可以不考慮在語義約束的問題。而且,不需要指定或只需指定很少幾篇特征文檔即可進行文檔的分類。
此外,本實施例的維護個性化分類樹的方法在進行節點維護即文檔分類的同時,還可以不斷擴充類節點的特征文檔的數量,從而自動調整對主題跟蹤,使文檔的分類精度也逐漸提高。
再者,上述維護個性化分類樹的方法當個性化分類樹中類節點的特征文檔的數量達到一定數量時,便可使用傳統的分類方法,因此,本實施例的方法還可作為傳統分類方法中當類節點中訓練樣本數量較少時的補充方法。
利用個性化分類樹分類顯示文檔的方法在同一發明構思下,根據本發明的另一個方面,提供了一種利用個性化分類樹分類顯示文檔的方法。下面就結合附圖對該方法進行說明。
圖6是本發明一個實施例的利用個性化分類樹分類顯示文檔的方法的流程圖。其中的個性化分類樹可以是例如由前面所述的構造個性化分類樹的方法生成的、并由前面所述維護個性化分類樹的方法所維護的個性化分類樹。該個性化分類樹至少包含一個類節點,且每一個類節點包含名字、關鍵詞、特征文檔和屬于該類節點的相關文檔。
如圖6所示,首先在步驟605,選擇個性化分類樹中的一個類節點。
接著在步驟610,選擇顯示模式。即用戶利用輸入設備選擇文檔的顯示模式。本實施例中,文檔顯示模式包括普通模式(Common view)、下級模式(Lower view)、上級模式(Upper view)、和限制模式(Limitedview)。缺省地以“普通模式”向用戶顯示選定類節點中的相關文檔。其中,在“普通模式”中,只顯示屬于選中類節點的相關文檔;在“下級模式”中,顯示屬于選中類節點的相關文檔和屬于該類節點的子節點的相關文檔,如圖7B所示;在“上級模式”中,顯示屬于選中類節點的相關文檔和屬于該類節點的父節點的相關文檔,如圖7A所示;在“限制模式”中,則排除屬于該類節點的子節點的相關文檔,如圖7C所示。
需要說明的是,上述幾種顯示模式可以組合使用來顯示相關文檔。例如當組合選擇“上級模式”和“限制模式”時,如圖7C所示,則可以向傳統的分類樹一樣語義嚴格地分類顯示文檔。
具體地,在步驟615,判斷用戶是否選擇了“下級模式”。如果是,則執行步驟625,顯示屬于該類節點的相關文檔和屬于該類節點的子節點的相關文檔。
接著在步驟620,判斷用戶是否選擇了“上級模式”。如果是,則執行步驟630,顯示屬于該類節點的相關文檔和屬于該類節點的父節點的相關文檔。
接著在步驟635,判斷用戶是否選擇了“限制模式”。如果是,則執行步驟640,將屬于該類節點的子節點的相關文檔從顯示的文檔列表中排除出去。
最后該方法在步驟645結束。當然,上述步驟也可以被重復執行,從而允許用戶不斷選擇類節點來分類顯示文檔。
另外,本實施例中除了向用戶顯示符合條件的文檔列表之外,還可顯示該列表中選定文檔的摘要信息。同時,文檔列表還以相關文檔與該類節點中特征文檔之間的相關程度的大小順序顯示列表中的文檔。
通過以上的描述可知,本實施例的利用個性化分類樹分類顯示文檔的方法可以利用前面描述的個性化分類樹對相關文檔進行分類顯示。并且,利用本實施例提供的多種顯示模式,可以以多種方式組織相關文檔進行顯示;進而還可以彌補上述個性化分類樹中的不一致性。
個性化分類系統在同一發明構思下,根據本發明的另一個方面,提供了一種個性化分類系統。下面就結合附圖對該系統進行說明。
圖8是根據本發明一個實施例的個性化分類系統的方框圖。如圖8所示,本實施例的個性化分類系統800包括分類樹編輯器801、類節點編輯器802、爬行器803、個性化分類器804、分類顯示裝置806、分類樹存儲裝置807。
其中,分類樹編輯器801用于創建和修改個性化分類樹,例如,添加類節點、刪除類節點、和修改樹結構等。
類節點編輯器802,用于配置上述個性化分類樹中的類節點,例如,為節點定義名字、關鍵字、特征文檔、和信息源等。當用戶未指定一個類節點的關鍵字、特征文檔、和信息源時,該類節點編輯器缺省地還可以繼承該類節點父節點的設置。
爬行器803,用于從指定的信息源獲取文檔。該爬行器803可以是現有技術中已知的網絡爬行器。當個性化分類樹中的每個類節點指定了信息源時,爬行器803則可以從各個類節點指定的信息源獲取文檔。
個性化分類器804,用于將由上述爬行器803獲取的文檔分類到上述個性化分類樹中。根據本實施例,個性化分類器804進一步包括關鍵詞提取單元8042、長度規范化單元8044、相關性計算單元8046。
其中,關鍵詞提取單元8042,用于從指定的特征文檔中提取關鍵詞。長度規范化單元8044,用于根據關鍵詞對文檔進行長度規范化。相關性計算單元8046,用于計算被處理的文檔與特征文檔集之間的主題相關程度,例如,可以使用前面描述的Okapi算法。進而,個性化分類器804可以根據該主題相關程度來確定是否將該文檔分類到該節點中,此外,還可以根據其主題相關程度來確定是否將該相關文檔加為該節點的特征文件。
分類顯示裝置806,用于利用上述個性化分類樹分類顯示相關文檔。在本實施例中,分類顯示裝置806可以以前面描述的各種顯示模式,來顯示相關文檔。
分類樹存儲裝置805,用于存儲上述個性化分類樹,包括例如,每個類節點中的屬性信息及該節點的相關文檔、特征文檔等。
通過以上的描述可知,利用本實施例的個性化分類系統可以實現前面描述的構造個性化分類樹的方法、維護個性化分類樹的方法和利用個性化分類樹分類顯示文檔的方法。
應當指出,本發明的上述個性化分類系統及其組成部分可以以硬件和軟件方式實現,并且根據需要可以和其他裝置結合,例如,可以實現在個人計算機、服務器、筆記本計算機、掌上型計算機、PDA等各種具有信息處理功能的設備上,并且可以物理地分離而操作上互相連接完成功能。
以上雖然通過一些示例性的實施例對本發明的構造個性化分類樹的方法、維護個性化分類樹的方法、利用個性化分類樹分類顯示文檔的方法及個性化分類系統進行了詳細的描述,但是以上這些實施例并不是窮舉的,本領域技術人員可以在本發明的精神和范圍內實現各種變化和修改。因此,本發明并不限于這些實施例,本發明的范圍僅由所附權利要求為準。
權利要求
1.一種構造個性化分類樹的方法,其特征在于,上述個性化分類樹是包含至少一個類節點(category node)的分類樹,獨立地創建上述至少一個類節點的每一個時包括以下步驟為該類節點定義一個名字(label);以及為該類節點指定至少一個關鍵詞(keyword)。
2.如權利要求1所述的構造個性化分類樹的方法,其特征在于,在創建上述至少一個類節點的每一個時還包括以下步驟為該類節點指定至少一個特征文檔(feature file)。
3.如權利要求2所述的構造個性化分類樹的方法,其特征在于,在創建上述至少一個類節點的每一個時還包括以下步驟為該類節點指定至少一個用于表明該類節點的相關文檔來源的信息源(resource)。
4.如權利要求3所述的構造個性化分類樹的方法,其特征在于,當上述類節點是一個子節點(child node)時,缺省地繼承其父節點(parent node)的關鍵詞、特征文檔和/或信息源。
5.如權利要求1~4中任意一項所述的構造個性化分類樹的方法,其特征在于,各個節點的語義限定是相互獨立的。
6.一種構造個性化分類樹的方法,其特征在于,上述個性化分類樹是包含至少一個類節點的樹,在創建上述至少一個類節點的每一個時包括以下步驟利用至少一個關鍵詞查找文檔;從查找結果中選擇至少一個文檔;為該類節點定義一個名字;將上述查找使用的關鍵詞指定作為該類節點的關鍵詞;以及將上述選中的至少一個文檔指定作為該類節點的特征文檔。
7.如權利要求6所述的構造個性化分類樹的方法,其特征在于,在創建上述至少一個類節點的每一個時還包括以下步驟為該類節點指定至少一個信息源。
8.如權利要求7所述的構造個性化分類樹的方法,其特征在于,當上述類節點是一個子節點時,缺省地繼承其父節點的關鍵詞、特征文檔和/或信息源。
9.一種維護個性化分類樹的方法,其特征在于,上述個性化分類樹是包含至少一個類節點的分類樹,上述至少一個類節點的每一個包含一個名字和至少一個關鍵詞,該方法包括對于上述至少一個類節點的每一個,根據該類節點中包含的上述至少一個關鍵詞,為該類節點指定至少一個特征文檔;以及根據上述至少一個特征文檔,進行主題跟蹤增加與該類節點相關的文檔。
10.根據權利要求9所述的維護個性化分類樹的方法,其特征在于上述指定至少一個特征文檔的步驟包括利用該類節點中包含的上述至少一個關鍵詞查找文檔;以及從查找結果中選擇至少一個文檔作為該類節點的特征文檔。
11.如權利要求10所述的維護個性化分類樹的方法,其特征在于,上述至少一個類節點的每一個還包含至少一個用于表明該類節點的相關文檔來源的信息源,上述進行主題跟蹤增加與該類節點相關的文檔的步驟,對來自上述信息源的文檔進行主題跟蹤。
12.如權利要求11所述的維護個性化分類樹的方法,其特征在于,上述進行主題跟蹤增加與該類節點相關的文檔的步驟,包括從上述至少一個特征文檔中提取出至少一個關鍵詞;根據上述提取出的至少一個關鍵詞和該類節點包含的上述至少一個關鍵詞,對來自上述信息源的上述至少一個文檔進行長度規范化;為長度規范化后的上述至少一個文檔的每一個計算與上述特征文檔的主題相關程度;以及將上述主題相關程度大于一個第一指定閾值的上述文檔作為相關文檔加入到該類節點之下。
13.如權利要求11所述的維護個性化分類樹的方法,其特征在于,上述進行主題跟蹤增加與該類節點相關的文檔的步驟,包括為對來自上述信息源的上述至少一個文檔的每一個計算與上述特征文檔的主題相關程度;以及將上述主題相關程度大于一個第一指定閾值的上述文檔作為相關文檔加入到該節點之下。
14.如權利要求12或13所述的維護個性化分類樹的方法,其特征在于,上述進行主題跟蹤增加與該類節點相關的文檔的步驟,還包括將上述主題相關程度大于一個第二指定閾值的上述文檔增加作為該類節點的特征文檔,其中上述第二指定閾值大于上述第一指定閾值。
15.如權利要求12或13所述的維護個性化分類樹的方法,其特征在于,利用Okapi公式計算上述主題相關程度。
16.如權利要求12或13所述的維護個性化分類樹的方法,其特征在于,進一步包括當上述至少一個類節點的特征文檔多于一個預定數量時,開始使用統計分類方法。
17.一種利用個性化分類樹分類顯示文檔的方法,其特征在于,上述個性化分類樹是包含至少一個類節點的樹,上述至少一個類節點的每一個包含一個名字、只少一個關鍵詞和屬于該類節點的相關文檔,該方法包括以下步驟選擇上述個性化分類樹中的一個類節點;以及顯示屬于該類節點的相關文檔。
18.如權利要求17所述的分類顯示文檔的方法,其特征在于,上述選中的類節點之下具有子節點,所述方法進一步包括響應顯示模式的操作,進一步顯示屬于該類節點的子節點的相關文檔。
19.如權利要求17所述的分類顯示文檔的方法,其特征在于,上述選中的類節點之上具有父節點,所述方法進一步包括相應顯示模式的操作,進一步顯示屬于該類節點的父節點的相關文檔。
20.如權利要求17所述的分類顯示文檔的方法,其特征在于,上述選中的類節點之下具有子節點,所述方法進一步包括相應顯示模式的操作,從顯示的文檔中排除屬于該類節點的子節點的相關文檔。
21.如權利要求17至20中任意一項所述的分類顯示文檔的方法,其特征在于,上述個性化分類樹中的每個類節點還包含只少一個特征文檔,顯示相關文檔的步驟包括,按照相關文檔與上述特征文檔的相關程度的順序,顯示上述相關文檔。
22.一種個性化分類系統,其特征在于,包括分類樹編輯器,用于創建和修改個性化分類樹,其中,上述個性化分類樹是包含至少一個類節點的分類樹,上述至少一個類節點的每一個包含一個名字和至少一個關鍵詞;以及類節點編輯器,用于配置上述個性化分類樹中的類節點。
23.如權利要求22所述的個性化分類系統,其特征在于,還包括爬行器(crawler),用于從指定的信息源獲取文檔;以及個性化分類器,用于將由上述爬行器獲取的文檔分類到上述個性化分類樹中。
24.如權利要求23所述的個性化分類系統,其特征在于,上述個性化分類樹中的每個類節點還包含至少一個用于表明該類節點的相關文檔來源的信息源;上述爬行器從由上述每個類節點指定的信息源獲取文檔。
25.如權利要求23所述的個性化分類系統,上述至少一個類節點的每一個還包含至少一個特征文檔,其特征在于,所述個性化分類器進一步包括關鍵詞提取單元,用于從指定的特征文檔中提取關鍵詞;長度規范化單元,用于根據關鍵詞對文檔進行長度規范化。;相關性計算單元,用于計算指定的文檔與特征文檔集之間的主題相關程度。
26.如權利要求25所述的個性化分類系統,其特征在于,所述相關性計算單元利用Okapi公式計算上述主題相關程度。
27.如權利要求22所述的個性化分類系統,其特征在于,還包括分類顯示裝置,用于利用上述個性化分類樹分類顯示相關文檔。
全文摘要
本發明提供了構造個性化分類樹的方法、維護個性化分類樹的方法、利用個性化分類樹分類顯示文檔的方法,以及個性化分類系統。該個性化分類樹是包含至少一個類節點的分類樹,該構造個性化分類樹的方法包括獨立地創建上述至少一個類節點的每一個時包括以下步驟為該類節點定義一個名字;以及為該類節點指定至少一個關鍵詞。
文檔編號G06F17/30GK1725213SQ20041005463
公開日2006年1月25日 申請日期2004年7月22日 優先權日2004年7月22日
發明者劉世霞, 楊力平 申請人:國際商業機器公司