專利名稱::用于重建網上內容的方法和數據處理系統的制作方法
技術領域:
:本發明一般涉及用于重建Web(網上)內容的方法和數據處理系統,并且尤其涉及用于重建Web內容以便增加Web內容的可用性的方法和數據處理系統。
背景技術:
:Web內容通常由多個網頁組成。術語Web內容這里通常指萬維網的內容,以及公司的內聯網的內容或指門戶(portal)的內容。在本上下文中,術語門戶指通過Web瀏覽器的使用可訪問的任何種類的網頁。構成Web內容的多個網頁的各網頁通常以樹形結構安排,該樹形結構通常源于起始網頁。典型的情景是用戶訪問他的公司的內聯網或處于相應的起始網頁的門戶。為了訪問他喜好的網頁之一,他可能不得不點擊通過許多其它的網頁,以便從起始網頁到達他喜好的網頁之一。例如如果用戶負責他的公司的子單位的管理,則他喜好的網頁之一可能是他通過其能夠管理該子單位的網頁。該網頁可能正好位于樹形結構中這樣的位置,使得用戶不得不點擊通過許多其它的網頁以便達到該網頁。內聯網或門戶的靜態結構不識別用戶的行為,并且不重新安排各網頁以便縮短用戶未來不得不走過該樹形結構的路徑。用戶可能不得不點擊通過許多其它的網頁直到他到達他喜好的網頁的原因可能是他是使用該網頁的唯一用戶,而管理員因此已經決定將該網頁放置于樹形結構中遠離起始網頁的位置。系統管理員不能實現多個網頁的拓樸的"完美安排"。他不能以使得所有用戶的要求被滿足的方式安排各網頁。系統管理員不了解也沒有時間基于用戶的希望來做,此外用戶的行為也可能隨著時間改變。因此存在對用于重建Web內容的改進的方法和數據處理系統的需要。
發明內容本發明提供一種重建Web內容的方法,其中Web內容由多個網頁組成,并且其中該方法包括生成日志文件的步驟。該日志文件包括各網頁的歷史記錄(history),并且各網頁的歷史記錄包括已經由用戶從多個網頁選4奪的所有網頁。該方法還包括為由用戶選擇的每個網頁確定訪問頻率的步驟。訪問頻率通過使用網頁的歷史記錄確定。然后確定各網頁的子集。各網頁的子集包含最大數目的網頁。該最大數目的網頁是預定的。各網頁的子集包含具有最大訪問頻率的網頁。因而在該日志文件中收集了已經由用戶訪問的各網頁的歷史記錄。為每個網頁確定訪問頻率。通過^^用已經為每個網頁確定的訪問頻率,確定用戶最經常訪問的各網頁。存在分配到各網頁子集的最大數目的網頁。該網頁的子集包含給定數目的由用戶最頻繁訪問(visit)或訪問(access)的網頁。因此根據本發明的方法通過解析和分析日志文件確定用戶喜好的網頁,該用戶喜好的網頁是包括在各網頁子集中的網頁。給定的數目是指定但可配置的數目。根據本發明的實施例,多個網頁以樹形結構安排,其中該樹形結構源于起始網頁,其中各網頁的子集由用戶從小門戶(portlet)可訪問,其中該小門戶鏈接到起始網頁。因而,該網頁的子集現在由用戶直接從小門戶可訪問,該小門戶離起始網頁僅一次點擊。因此根據本發明的方法是特別有利的,由于它允許用戶直接從小門戶直接訪問他喜好的網頁,他能夠從起始網頁直接訪問該小門戶。因此為了到達他喜好的網頁之一,他不必點過所有其它網頁。根據本發明實施例,多個網頁以樹形結構安排,其中該樹形結構源于起始網頁,其中用戶特定的特殊網頁鏈接到該起始網頁,其中各網頁的子集在當用戶訪問該用戶特定的特殊網頁時的時間點確定,其中為包括在網頁子集中的每個網頁分配臨時標簽,其中每個臨時標簽鏈接到該用戶特定的特殊網頁,并且其中該用戶能夠經由對應的臨時標簽訪問各網頁的子集。各網頁的子集在當用戶訪問該用戶特定的特殊網頁時的時間點確定。這確保該各網頁子集總是包含由用戶最頻繁訪問的各網頁,該網頁的子集通過已經為已經由用戶訪問的每個網頁確定的訪問頻率的使用來確定。那么用戶能夠直接從該用戶特定的特殊網頁訪問該網頁的子集。因此為了到達他喜好的網頁之一,他不必點過所有其它網頁。根據本發明實施例,多個網頁以樹形結構安排,其中該樹形結構源于起始網頁。轉換被附加到起始網頁。各網頁的子集在當用戶訪問該起始網頁時的時間點確定。通過使用該轉換確定網頁的動態子模型,由此該網頁的子集由所述用戶從該起始網頁可訪問。根據本發明實施例,多個網頁包括在門戶中。當經由該門戶訪問多個網頁時,根據本發明的方法是特別有利的。因為由該門戶提供的各應用和服務可能由多類用戶可訪問,所以根據本發明的方法提供了動態安排該門戶的結構的方法,由此每個用戶的特定需要被滿足。根據本發明實施例,該門戶包括日志記錄(logging)組件、解析組件和可視化組件,其中日志記錄組件用于日志文件的生成,其中解析組件用于語義地分析該日志文件,并且其中可視化組件用于門戶中的頁面子集的可視化。根據本發明實施例,該日志記錄組件是Tivoli的站點分析工具,并且該日志文件是組合NSCA的訪問日志文件。根據本發明實施例,網頁的訪問頻率由用戶訪問網頁的次數或由用戶花在該網頁上的時間測量。考慮用戶花在網頁上的時間的訪問頻率具有這樣的優點,由用戶僅為了訪問另一個網頁而使用的網頁通常不具有高的訪問頻率。才艮據本發明實施例,如果沒有從網頁訪問其它網頁,則只為該網頁確定訪問頻率。因而不為由用戶訪問只是為了瀏覽另一個網頁的網頁確定訪問頻率。這具有只有由用戶實際使用的網頁被分配到網頁子集的優點。在另一個方面,本發明涉及一種計算機程序產品,包括用于執行根據本發明方法的計算機可執行指令。在另一個方面,本發明涉及一種用于從多個網頁中識別用戶特定的喜好網頁的數據處理系統。該數據處理系統包括用于生成日志文件的裝置。該日志文件包括各網頁的歷史記錄,并且各網頁的歷史記錄包括已經由用戶從多個網頁選擇的所有網頁。該數據處理系統還包括用于為由用戶選擇的每個網頁確定訪問頻率的裝置。該訪問頻率通過使用各網頁的歷史記錄來確定。該數據處理系統還包括用于確定網頁的子集的裝置。該網頁的子集包括最大數目的網頁。該最大數目是預定的并且網頁的子集包含具有最大訪問頻率的網頁。隨后,通過參照附圖將更詳細地描述本發明的優選實施例,附圖中:圖1顯示用于重建Web內容的數據處理系統的方塊圖2顯示圖示用于重建Web內容的各基本步驟的流程圖3顯示描述用于重建Web內容的各步驟的流程圖4顯示圖示用于重建Web內容的各步驟的流程圖5顯示由以樹形結構安排的多個網頁組成的Web內容的方塊圖6顯示用于空中交通管理的門戶的起始網頁;圖7顯示用戶能夠通過其訪問網頁的子集的門戶的網頁;圖8描述用戶能夠從其訪問他喜好的網頁的門戶的網頁;圖9顯示用戶能夠通過其訪問網頁的子集的門戶的網頁;圖10描述用戶能夠從其訪問他喜好的網頁的門戶的網頁。具體實施例方式圖1顯示用于重建Web內容106的數據處理系統的方塊圖。該數據處理系統包括計算機系統100,該計算機系統100包括屏幕102、微處理器108、非易失性存儲器設備110、易失性存儲器設備112、鍵盤160、鼠標126、以及網絡卡128。計算機系統100例如能夠是利用網絡卡128連接到服務器154的客戶端計算機。瀏覽器104在屏幕102上可視化。Web內容106能夠通過網絡卡128的使用從服務器154加載到計算機系統100,并且在瀏覽器104內可視化。Web內容106由以樹形結構安排的多個網頁130.....150組成。該樹形結構源于起始網頁130。網頁可通過位于網頁上的鏈接從另一網頁訪問。例如,起始網頁130包括通過其能夠到達網頁132的鏈接,以及通過其網頁140可訪問的另一個鏈接。用戶通常在起始頁130進入Web內容106。然后用戶能夠利用鼠標126或經由鍵盤160導航通過網頁130.....150。例如,如果他想要訪問網頁138,則他通過位于網頁130上的適當鏈接進入網頁132。然后他從網頁132導航到網頁134,他能夠從那里訪問網頁136。在網頁136上,他點擊鏈接,通過該鏈接他能夠訪問網頁138。微處理器108執行計算機程序產品144,其監視用戶對網頁130.....150執行的動作。該計算機程序產品114包括日志記錄組件116。該日志記錄組件116生成存儲在非易失性存儲器設備110或者易失性存儲器設備112上的日志文件122。該日志文件122包括網頁的歷史記錄124。在網頁的歷史記錄124中,已經由用戶訪問的所有網頁被記錄。網頁的歷史記錄124例如可以是列表的形式,其中在每行由用戶訪問的一個網頁連同用戶的ID、當用戶訪問該網頁時的時間點、以及用戶花費在該網頁上的時間量一起記錄。用戶從起始網頁130對該網頁138的訪問例如可以在網頁的歷史記錄124中記錄如下用戶ID、網頁130、T=11:00:00、RP=10s;用戶ID、網頁132、T=ll:00:10、RP=ls;用戶ID、網頁134、T=ll:00:15、RP=5s;用戶ID、網頁136、T=ll:00:20、RP=5s;用戶ID、網頁138、T=ll:00:25、RP=200s;在該列表的第一列,記錄用戶的ID,在第二列,記錄網頁(為了從網頁130訪問網頁138,用戶不得不點擊通過網頁132、134和146)。在第三列,記錄當用戶訪問該網頁時的時間點,以及在最后一列存儲用戶在該頁面上的停留時間段。計算機程序產品114還包括解析組件118。該解析組件118為已經由用戶訪問的每個網頁130.....144確定存儲在非易失性存儲器設備IIO上的訪問頻率。特定網頁的訪問頻率例如通過用戶已經訪問該特定網頁的次數來確定。為了確定該訪問頻率,解析組件118審查(scanthrough)日志文件122并且確定特定網頁的進入的數目。因而通過審查上面給定的列表,網頁130、132、134、136和138的訪問頻率將是一,因為每個網頁只列出一次。特定網頁的訪問頻率還能夠由用戶已經花費在特定網頁上的時間來確定,該時間例如標準化為一秒。因而,從上面給定的列表中,網頁138的訪問頻率確定為200,而網頁132的訪問頻率為1。這確保頁面138的訪問頻率高于頁面132的訪問頻率,該頁面132可能只是由用戶訪問以便訪問頁面138,因而用戶可能對其沒有很大興趣。或者,特定網頁的訪問頻率只在沒有其它網頁通過該特定網頁訪問時確定。然后該訪問頻率通過不得不從起始網頁被點擊通過以便訪問該特定網頁的網頁數目測量。例如,將只為記錄在上面的列表中的網頁138確定訪問頻率。對于所有其它網頁將沒有訪問頻率被確定。訪問頻率將通過被訪問以便到達網頁138的網頁的數目測量。因而,網頁138的訪問頻率將是3,因為網頁132、網頁134和網頁136被訪問以便到達網頁138。在當用戶只使用網頁138和144并且它只點擊通過所有其它網頁以便訪問網頁138或144時的情況下,那么兩個網頁138、144將是具有最高訪問頻率的網頁。網頁的子集162保持具有最高訪問頻率的給定最大數目156的網頁。假定該最大數目156等于2。那么網頁138和144將被分配到網頁的子集162。數目156例如能夠由系統管理員或由用戶自己指定。在本發明的實施例中,創建被直接鏈接到起始網頁130的小門戶164。網頁的子集162鏈接到該小門戶,使得用戶能夠經由該小門戶164直接從起始網頁130訪問該網頁的子集162,在上面給定的示例中為網頁138和144。因此,他不再必須點擊通過所有其它的網頁以便能夠訪問網頁138和144。在本發明的另一個實施例中,用戶特定的網頁鏈接到起始網頁。網頁的子集162在當用戶訪問用戶特定的特殊網頁時的時間點確定。臨時標簽被分配給包含在網頁的子集中的每個網頁。該臨時標簽鏈接到用戶特定的網頁。該用戶能夠經由對應的臨時標簽訪問包含在網頁的子集中的網頁。這將在下面更詳細地描述。圖2顯示描述用于重建Web內容的各基本步驟的流程圖。在步驟200中,生成日志文件。該日志文件包括網頁的歷史記錄,并且該網頁的歷史記錄包括已經由用戶從包含在Web內容中的多個網頁選擇的所有網頁。在步驟202中,為已經被用戶選擇的每個網頁確定訪問頻率。利用網頁的歷史記錄確定該訪問頻率。在步驟204中,確定網頁的子集。該網頁的子集包含預定的最大數目的網頁。這些網頁是由用戶最頻繁地訪問的網頁。因而,網頁的子集包含用戶的喜好網頁。圖3顯示描述用于重建Web內容的各步驟的流程圖。在步驟300中,生成包括已經由用戶從多個網頁選擇的網頁的歷史記錄的日志文件。在步驟302中,確定已經由用戶選擇的每個網頁的訪問頻率。在步驟304中,利用對每個可用的訪問頻率確定網頁的子集。該網頁的子集包括最大數目的網頁。這些網頁是已經由用戶最頻繁地訪問的網頁。因而該網頁的子集包括作為用戶喜好的網頁的網頁。在步驟306中,該網頁的子集鏈接到小門戶。該小門戶直接鏈接到起始網頁,使得用戶能夠利用該小門戶直接訪問他喜好的網頁。圖4顯示圖示用于重建Web內容的各步驟的流程圖。在步驟400中,生成包含已經由用戶訪問的網頁的歷史記錄的日志文件。在步驟402中,為已經由用戶訪問的每個網頁確定訪問頻率。在步驟404中,在當用戶訪問用戶特定的特殊頁面時的時間點確定網頁的子集。在步驟406中,臨時標簽分配給網頁的子集的每個網頁,并且在步驟408中,該臨時標簽鏈接到用戶特定的特殊網頁。圖5顯示由以樹形結構安排的多個網頁組成的Web內容的方塊圖500。該樹形結構源于起始頁501。考慮用戶最經常使用網頁508、510和520。為了到達網頁508,用戶必須導航通過網頁502、504、506,然后最終他到達508。或者,他能夠點擊>^人頁506到頁510,^v而他到達另一個他喜好的網頁。因而,他總是需要四次點擊以便到達508或網頁510。如果用戶想要使用網頁520,則他不得不從起始頁501瀏覽到頁512,然后到頁514,然后到頁516,然后到518,然后最終他到達網頁520。因而,他不得不瀏覽通過四個其它頁面,以便到達網頁520。如果他頻繁使用網頁508、510和520,則這三個頁面的訪問頻率將高。如果包含在網頁的子集中的網頁的最大數目大于三,則這三個頁將被識別為用戶的喜好頁。這三個頁將是具有最大訪問頻率的頁。因此,網頁的子集將由網頁508、510和520組成。用戶特定的特殊網頁530直接鏈接到起始網頁501。因為網頁508、510和520是用戶的喜好網頁,所以臨時標簽將^fe分配給這些網頁的每一個。臨時標簽332分配給網頁508。臨時標簽534分配給網頁510,并且臨時標簽536分配給網頁520。無"^侖何時用戶訪問起始網頁都開始確定網頁的子集的處理。因此,在當用戶訪問網頁530時的時間點動態地確定臨時標簽,并且其配合用戶的行為。如果用戶開始更頻繁地訪問網頁522,并且不像之前一樣頻繁地訪問網頁508,則當網頁522的訪問頻率變得大于網頁508的訪問頻率時,臨時標簽532將分配給網頁522。用戶能夠經由用戶特定的特殊網頁530訪問他最經常使用的網頁。他不再需要瀏覽通過例如網頁512、514、516和518以便訪問網頁520。或者,可以丟掉特殊網頁或小門戶的概念,并且可以將重新安排Web內容501.....528的轉換直接附加到起始網頁501。通過應用根據本發明的相同的分析方法,例如可能是網頁508、510和520的用戶的喜好網頁能夠被識別。用戶的喜好網頁508、510和520然后直接從起始網頁501可訪問。已經分配該轉換至其的起始網頁之下的所有網頁因而將是只代表匹配用戶的行為的最合理結構的動態網頁,其將是即時(on-the-fly)構建的動態子模型的一部分。這里,動態標簽將不鏈接到用戶的喜好網頁。它們將是實際網頁而不僅是標簽,并且將包含它們引用的潛在網頁的內容。在起始網頁501上的點擊將因而直接給出用戶想要訪問的內容。圖6顯示用于空中交通的管理的小門戶的起始網頁600。該小門戶由來自IBM公司的商用程序WepSpherePortal實現。用戶訪問在起始網頁600的門戶。該起始網頁600特征在于包含在工具欄604中的"歡迎"登記(register)602利用不同的顏色編碼與工具欄604分開設置。圖7顯示通過其用戶能夠訪問網頁的子集的門戶的網頁700。用戶能夠訪問門戶的網頁700,從該門戶他能夠通過點擊也包含在工具欄708中的"我的快速鏈接"登記704訪問網頁的子集。當他選擇"我的快速鏈接"登記704時,該登記通過不同的顏色與工具欄708分開設置,而"歡迎"登記702采用工具欄的顏色。從網頁700,"快速鏈接"小門戶706變得對用戶可訪問。圖8描述門戶的網頁800,用戶從該門戶能夠訪問他的喜好網頁。通過點擊用戶選擇"快速鏈接"小門戶802,并且作為響應,包含網頁的子集804的列表打開。網頁的子集804包括到在之前一段時間期間已經由用戶最頻繁訪問的網頁的鏈接。網頁的子集804包含用戶的喜好網頁。如果用戶例如是斯圖加特機場的管理員,則他將已經頻繁地選擇通過其他能夠管理斯圖加特機場的網頁。因而,網頁的子集804包含到"斯圖加特機場"806的鏈接。通過點擊"斯圖加特機場"鏈接806,用戶能夠訪問在其上他能夠管理斯圖加4爭才幾場的網頁。圖9顯示門戶的網頁900,用戶通過該門戶能夠訪問網頁的子集。用戶能夠通過點擊"我的快速鏈接"登記904訪問門戶的網頁卯0,他從該門戶能夠訪問網頁的子集。當他選擇"我的快速鏈接"登記904時,該登記通過不同的顏色與工具欄910分開設置,而"歡迎"登記902采用工具欄900的顏色。從網頁700,除了"快速鏈接"小門戶906之外的對應于用戶特定的特殊網頁的"快速鏈接轉換"網頁908對用戶可訪問。圖IO描述門戶的網頁1000,用戶從該門戶能夠訪問他喜好的網頁。當用戶選擇"快速鏈接"轉換網頁1002時,則確定包含用戶的喜好網頁的網頁的子集1004。臨時標簽分配給網頁的子集的每個網頁,并且每個臨時標簽鏈接到"快速鏈接"轉換網頁1002。如果用戶例如是斯圖加特機場的管理員,則他將已經頻繁地選擇通過其他能夠管理斯圖加特機場的網頁。因而,網頁的子集1004包含用于"斯圖加特機場"1006的臨時標簽,通過該臨時標簽用戶能夠訪問在其上他能夠管理斯圖加特機場的網頁。參考標記的列表<table>complextableseeoriginaldocumentpage13</column></row><table><table>complextableseeoriginaldocumentpage14</column></row><table><table>complextableseeoriginaldocumentpage15</column></row><table>權利要求1.一種重建Web內容(104)的方法,所述Web內容(104)包括多個網頁(130、...、150),所述方法包括生成日志文件(122),所述日志文件(122)包括各網頁的歷史記錄(124),所述各網頁的歷史記錄(124)包括由用戶從所述多個網頁(130、...、150)選擇的所有網頁(130、...、144);為由所述用戶選擇的每個網頁(130、...、144)確定訪問頻率(156),所述訪問頻率(156)利用所述各網頁的歷史記錄(124)確定;確定網頁的子集(162),所述網頁的子集(162)包含最大數目(158)的網頁,所述最大數目(158)是預定的,所述網頁的子集(162)包含具有最大訪問頻率(156)的網頁。2.如權利要求l所述的方法,其中所述多個網頁(130.....150)以樹形結構安排,其中所述樹形結構源于起始網頁(130),其中所述網頁的子集(162)由用戶從小門戶(164)可訪問,其中所述小門戶(164)鏈接到所述起始網頁(130)。3.如權利要求l所述的方法,其中所述多個網頁(130....,50)以樹形結構安排,其中所述樹形結構源于起始網頁(130),其中用戶特定的特殊網頁鏈接到所述起始網頁(130),其中所述網頁的子集(162)在當所述用戶訪問所述用戶特定的特殊網頁時的時間點確定,其中為包括在所述網頁的子集(162)中的每個網頁分配臨時標簽,其中每個臨時標簽鏈接到所述用戶特定的特殊網頁,.其中所述用戶能夠經由對應的臨時標簽訪問網頁的子集(162)。4.如權利要求l所述的方法,其中所述多個網頁(130....,150)以樹形結構安排,其中所述樹形結構源于起始網頁(130),其中轉換被附加到所述起始網頁(130),其中所述網頁的子集(162)在當所述用戶訪問所述起始網頁(130)時的時間點確定,其中通過所述轉換確定網頁的動態子模型,由此所述網頁的子集(162)由所述用戶從所述起始網頁(130)可訪問。5.如權利要求1至4的任一所述的方法,其中所述多個網頁(130、...,150)包括在門戶中。6.如權利要求5所述的方法,其中所述門戶包括日志記錄組件、解析組件和可視化組件,其中所述日志記錄組件用于所述日志文件的生成,其中所述解析組件用于所述網頁的子集的選擇,并且其中所述可視化組件用于所述門戶中的所述頁面的子集的可視化。7.如權利要求6所述的方法,其中所述日志記錄組件是Tivoli的站點分析工具,并且其中所述日志文件是組合NSCA的訪問日志文件。8.如權利要求1至7的任一所述的方法,其中網頁的訪問頻率由所述用9.如權利要求1至8的任一所述的方法,其中如果沒有其它網頁由用戶從所述網頁訪問,則只為所述網頁確定訪問頻率。10.—種計算機程序產品,包括用于執行根據前述權利要求的任一的方法的計算機可執行指令。11.一種用于重建Web內容(104)的數據處理系統,所述Web內容(104)包括多個網頁(130.....150),所述數據處理系統包括用于生成日志文件(122)的裝置,所述日志文件(122)包括各網頁的歷史記錄(124),所述各網頁的歷史記錄(124)包括由用戶從所述多個網頁(130.....150)選擇的所有網頁(130、…、144);用于為由所述用戶選擇的每個網頁(130.....144)確定訪問頻率(156)的裝置,所述訪問頻率(156)利用所述各網頁的歷史記錄(124)確定;用于確定網頁的子集(162)的裝置,所述網頁的子集(162)包含最大數目(158)的網頁,所述最大數目(158)是預定的,所述網頁的子集(162)包含具有最大訪問頻率(156)的網頁。12.如權利要求11所述的數據處理系統,其中所述多個網頁以樹形結構安排,其中所述樹形結構源于起始網頁,其中所述數據處理系統提供用于由所述用戶從小門戶訪問所述網頁的子集的裝置,其中所述小門戶鏈接到所述起始網頁。13.如權利要求11所述的數據處理系統,其中所述多個網頁以樹形結構安排,其中所述樹形結構源于起始網頁,其中用戶特定的特殊網頁鏈接到所述起始網頁,其中所述數據處理系統提供用于在當所述用戶訪問所述用戶特定的特殊網頁時的時間點確定所述網頁的子集的裝置,其中所述數據處理方法包括用于為包括在所述網頁的子集中的每個網頁分配臨時標簽的裝置,其中每個臨時標簽鏈接到所述用戶特定的特殊網頁,其中所述用戶能夠經由對應的臨時標簽訪問網頁的子集。14.如權利要求11所述的數據處理系統,其中所述多個網頁(130.....150)以樹形結構安排,其中所述樹形結構源于起始網頁(130),其中所述數據處理系統包括用于附加轉換到所述起始網頁(130)的裝置、用于在當所述用戶訪問所述起始網頁(130)時的時間點確定所述網頁的子集(162)的裝置、以及用于通過所述轉換確定網頁的動態子模型的裝置,由此所述網頁的子集(162)由所述用戶從所述起始網頁(130)可訪問。15.如權利要求11至14的任一所述的數據處理系統,其中所述多個網頁包括在門戶中。16.如權利要求15所述的數據處理系統,其中所述門戶包括日志記錄組件、解析組件和可視化組件,其中所述日志記錄組件用于所述日志文件的生成,其中所述解析組件用于所述網頁的子集的選擇,并且其中所述可視化組件用于所述門戶中的所述頁面的子集的可視化。17.如權利要求16所述的數據處理系統,其中所述日志記錄組件是Tivoli的站點分析工具,并且其中所述日志文件是組合NSCA的訪問日志文件。18.如權利要求11至17的任一所述的數據處理系統,其中網頁的訪問頻率由所述用戶訪問所述網頁的次數或由所述用戶花在所述網頁上的總時間量測量。19.如權利要求11至18的任一所述的凄t據處理系統,其中如果沒有其它網頁由用戶從所述網頁訪問,則只為所述網頁確定訪問頻率全文摘要提供一種用于重建包括多個網頁的Web內容的方法和數據處理系統。該方法包括生成包括網頁歷史記錄的日志文件的步驟。網頁歷史記錄包括已經由用戶從多個網頁選擇的所有網頁。利用網頁歷史記錄為每個選擇的網頁確定訪問頻率。確定包括已經由用戶用最大訪問頻率訪問的網頁的網頁子集。該子集限于最大數目的網頁。多個網頁通常以樹形結構安排。該樹形結構源于起始網頁。包括在網頁子集中的網頁鏈接到直接鏈接到起始網頁的小門戶、或同樣直接鏈接到起始網頁的在當用戶訪問用戶特定的特殊網頁時的時間點確定的網頁子集。根據本發明的方法特別有利,因為它允許用戶直接訪問離起始網頁幾次點擊遠的網頁。因而為到達他的喜好網頁他不必點擊通過許多網頁。文檔編號G06F17/30GK101346720SQ200680048958公開日2009年1月14日申請日期2006年11月29日優先權日2005年12月21日發明者安德烈亞斯·諾爾茲,斯蒂芬·利希申請人:國際商業機器公司