專利名稱:一種提供即時個性化動態專題服務的方法
技術領域:
本發明涉及一種對信息進行處理的方法,具體的說是一種提供即時個性化動態專題服務的方法。
背景技術:
傳統意義上的專題,就是以所包含全文內容的布爾邏輯表達式(多個詞之間的與或非)和屬性內容的布爾表達式的布爾邏輯組合,是表達知識的知識。
專題的形成過程對于傳統模式下的計算機系統,實際上是一個包含全文和屬性的復雜檢索過程,這種模式無法解決大量專題需要根據信息源的變化動態更新的要求,將對系統造成巨大的壓力如果信息源發生變化,有十萬個專題就意味著需要并發或順序進行十萬次復雜檢索,這實際上是低效和不可行的。
發明內容
我們的動態專題是基于動態監控技術和即時專題技術相結合的產物。動態是指系統具有主動監控信息變化的能力。通過對系統的監控,任何文檔和信息源的變化,將直接傳遞到即時動態個性化專題系統,通過獨特的專題算法和策略,使專題自主更新,無需通過定時由應用觸發掃描專題或以n次復雜檢索來更新專題,是基于創新技術的專題更新模式。
由于專題的定制方式是無限制的,如果有5萬個用戶,每個用戶定義20個專題,就會存在100萬個專題,意味著更新一次專題需要進行100萬次復雜檢索,但實際上,即使不排除可能的完全一樣的專題,在專題數增加到一定程度后,如1萬個專題,實際專題中出現的不同的檢索詞的總量將出現相對穩定,不會隨著專題數量的增加而快速變大。假設1萬個專題中出現了3000個不同的檢索詞,那么10萬個專題可能是7000個,100萬個專題可能是2萬個,1000萬個專題可能是2.5萬個。因為常用的詞畢竟是有限的,而人們的信息的需求的雷同性也是毋庸置疑的。
基于這樣的合理假設,我們采用將所有專題中不同的檢索詞(我們稱之為檢索元詞)進行提取,并建立專用的索引算法,在動態引擎察覺到信息源變化時,立即通過后臺的進程對這n個檢索元詞與新建立的全文索引和屬性數據庫進行n次檢索匹配,并對產生的結果生成一個動態表。這時,即時個性化動態專題引擎將利用數據庫的動態視圖能力,根據每一個專題的檢索元詞組合,更新數據庫中原來的視圖,使專題發生主動的變化。
為了加快即時專題更新的速度,提高效率,我們采用了兩個技術和算法方面的策略1、對全文索引采用分段索引分段優化的方式,使每次系統主動更新即時專題時,只需要對最近增加或修改的那一段索引進行索引及檢索,其他絕大多數的專題列表已經存在于數據庫視圖中,可直接讀取,大大提高了專題的即時性。
2、為了能使即時專題的更新能充分利用多線程應用的效率,體現將大多數人的利益放在第一位的原則,在檢索元詞的索引生成過程中,按照一定的策略,系統主動將按使用次數較多的單個檢索元詞的專題、使用次數較少單個檢索元詞的專題(按照由多到少的順序)、兩個、三個檢索元詞的專題的順序,將能影響最大多數專題的檢索元詞先完成檢索更新,以使最大量的用戶能更快獲得個性化的即時專題服務,提高巨量即時專題平均更新速度。
實現提供即時個性化動態專題服務的方法,包括如下步驟首先,對所有用戶輸入的專題中需要在全文中查找的關鍵字進行提取,根據關鍵字出現的次數多少按由多到少進行排序;對于那些專題中只有一個全文查找關鍵字的專題,這個關鍵字的優先級將被提高;同時建立全文關鍵字結果表,表中各個關鍵字的查找結果均為0;然后根據每個專題中涉及到的全文關鍵字的數量建立專題關鍵字表,根據涉及到的全文關鍵字的數量由少到多進行排序;當發現有文件變化時,按照以前關鍵字的排序順序對該文件的內容進行查找,如發現匹配,則將該關鍵字的查找結果置為1,然后在所有專題的關鍵字表中將這個結果帶入進行匹配,如發現某個專題的計算結果不為0,則表示這個專題發生變化,就可以立即通知用戶。
通過這種方法,每個人都可以通過即時動態個性化專題服務體系的平臺,擁有完全符合自己信息需求的專題或在企業主專題之下定義自己的子專題,充分實現個性化的特色,并可以以專題的方式實現個人知識門戶。通過動態專題自定義訂閱機制和獨創的即時專題技術,徹底使“我找信息”轉變為“信息找我”只要一次性告訴系統您對信息的需求,權限范圍內相符合的信息就會源源不斷地自動進入定義的動態目錄,做到“信息找我”。如果某些信息實時性要求很高,用戶還可以將專題設定為活躍專題,專題服務體系把信息的最新變化在第一時間通過手機短信或郵件方式,主動通知您或有權限的其他人。
圖1是本發明實現即時個性化動態專題服務的方法的流程圖。
實施例一例如,有6個專題,其中的ABCD表示出現在全文中的關鍵字,OR AND表示這些關鍵字間的關系。
A OR B OR C OR DA OR C AND DA AND(B OR C)B AND DAC首先進行關鍵字抽取,可以看到,這些專題中涉及到的全文關鍵字有A B C D這四個。然后按照在每個關鍵字出現的數量進行排序。可以看到在這些專題中,A出現了4次,B出現了3次,C出現了4次,D出現了3次。由于A和C都作為某個專題中的唯一一個關鍵字出現過了,所以A和C都應乘以該唯一關鍵字專題的數目的1000倍。最后的排序結果就變成了A 4*1*1000=4000B 3C 4*1*1000=4000D 3根據這個結果對這些關鍵字進行排序,我們就得到了A C B D的關鍵字查找順序。
然后對各個專題建立專題關鍵字表,該表中各個專題的排序按照專題中出現的全文關鍵字的數量按照由少到多的順序進行。可以看到,第一個專題中有4個關鍵字,第二個中有3個,第三個中有3個,第四個中有2個,第五和第六個專題中只有1個。然后,對各個專題中的關鍵字用它們的查詢結果替換,如關鍵字A的查詢結果為RA,默認為0,以此類推。對AND OR等邏輯關系運算符用*、+替換。結果如下專題6RC
專題5RA專題4RB*RD專題3RA*(RB+RC)專題2RA+RC*RD專題1RA+RB+RC+RD當發現文件變化時,利用最開始生成的關鍵字順序表逐一對各個關鍵字進行查找,并將是否查到的結果放到相應的查詢結果變量中。如先查詢關鍵字C,結果查到了,則RC=1,帶入專題關鍵字表中,可以得到專題61專題50專題40*0專題30*(0+1)專題20+1*0專題10+0+1+0進行表達式計算后,可以得到最后結果如下專題61專題50專題40專題30專題20專題11由于專題1和專題6的計算結果不為0,我們就可以知道專題6和專題1發生改變了。然后利用適當的方法通知用戶并從專題關鍵字表中刪除這兩個專題。同樣道理,如果我們接下去查找關鍵字A,如果查到了,則RA=1,帶入計算后得到專題51 1專題40*0 0專題31*(0+1)1專題21+1*0 1除了專題4,其它專題都發生變化了,通知完用戶后將這些專題從專題關鍵字表中刪除,然后查找關鍵字B,結果沒找到,則RB=0,帶入得專題40*00最后查找完關鍵字D后,發現找到,則RD=1,帶入得專題40*10可見,專題4沒有發生任何變化。
以上所述僅為本發明所述方法的一個示例,任何依據本發明說明書及圖示所述方法的產品均在本發明的保護范圍之內。
權利要求
1.一種提供即時個性化動態專題服務的方法,包括如下步驟首先,對所有用戶輸入的專題中需要在全文中查找的關鍵字進行提取,根據關鍵字出現的次數多少按由多到少進行排序;對于那些專題中只有一個全文查找關鍵字的專題,這個關鍵字的優先級將被提高;同時建立全文關鍵字結果表,表中各個關鍵字的查找結果均為0;然后根據每個專題中涉及到的全文關鍵字的數量建立專題關鍵字表,根據涉及到的全文關鍵字的數量由少到多進行排序;當發現有文件變化時,按照以前關鍵字的排序順序對該文件的內容進行查找,如發現匹配,則將該關鍵字的查找結果置為1,然后在所有專題的關鍵字表中將這個結果帶入進行匹配,如發現某個專題的計算結果不為0,則表示這個專題發生變化,就可以立即通知用戶。
全文摘要
本發明是一種提供即時個性化動態專題服務的方法。通過對系統的監控,任何文檔和信息源的變化,將直接傳遞到即時個性化動態專題系統,通過分段索引分段優化的方式和排序的方法,使專題自主更新。通過這種方法,每個人都可以通過即時動態個性化專題服務體系的平臺,擁有完全符合自己信息需求的專題或在企業主專題之下定義自己的子專題,充分實現個性化的特色,并可以以專題的方式實現個人知識門戶。
文檔編號G06F17/30GK1499401SQ0214930
公開日2004年5月26日 申請日期2002年11月7日 優先權日2002年11月7日
發明者邵建宇 申請人:邵建宇