專利名稱:用于選取和自動更新結構化文本中任意元素的方法和系統的制作方法
技術領域:
本發明一般是與計算機處理系統相關的,尤其是涉及一種用于選取和自動更新計算機處理系統內的結構化文本中任意元素的方法和系統。
2.背景概述很顯然,因特網和內聯網提供了一種既有成本效果又普遍的能夠聯系世界各地的人們和組織機構的媒介,通過富含多媒體內容的網絡文本進行信息交換和共享。
用于網絡中提供信息的最新技術之一被稱為“壓棧(push)”。在“壓棧”技術中,整個網絡站點乃至應用程序都能基于預定的周期被發送到用戶的計算機中,而無需用戶反復提出相同的請求。在“壓棧”技術中,你“訂閱”網站(也可稱為“頻道”)上的信息,他們就會按您指定的時間間隔進行發送。“頻道”通常是指由發布者建立的某一令人感興趣的區域,這里包括HTML頁、JAVA小應用程序、ActiveX控件、多媒體對象以及其它通過壓棧技術被打包在一起提供給用戶的信息。術語“訂閱”并不是指要支付信息費用。而是用于指明您要求定期接收信息。
隨著“壓棧技術”的發展,主要是POINTCAST技術,網絡上的內容提供者能夠將定制的定期出版的時事通訊發送給網絡上成百萬的用戶。這是能夠滿足用戶主要要求的最初解決措施之一,這種要求即指在需要時自動地發送用戶所渴求的網絡內容。
目前,NETSCAPE和INTERNET EXPLORER瀏覽器都以頻道的形式利用“壓棧”技術(分別使用NETCASTING和WEBCASTING技術)向用戶發送個性化的網絡內容。通過使用頻道,網絡內容以預定的方式被自動地發送給用戶,而無需他/她顯式進行交互。用戶能夠自定制、在何時、以及通常將怎樣發送網絡內容到他們的臺式電腦中。被發送的內容可能富含基于動態HTML(超文本結構化語言)和JAVASCRIPT語言的多媒體和交互式內容,這些被發送的內容既可以在任何一個瀏覽器窗口瀏覽也可以以全屏幕模式顯示。
這種向用戶發送個性化的網絡內容的技術的主要缺點之一是限制了可能實現的個性化設置的數量。個人化的網頁,如YAHOO、LYCOS、CNN上所提供的,只能允許在這些網站上可用的素材的有限范圍內實現個性化。而且,這些網頁不能刷新(更新)其內容。因此,因特網的用戶要求使個人化概念再前進一步。即,用戶希望最好只在規則的時間間隔地將網頁的某特定部分發送到他們的臺式電腦上。例如,一些用戶可能只提出網頁上羅列的所有報價中的某些股票報價能被發送過來。其它用戶可能只希望重要報刊(例如紐約時報或華盛頓郵報)的網站上經常被刷新的新聞標題能被發送過來。談到個性化,就是希望能向用戶提供盡可能多的選擇。
一種嘗試僅向用戶發送網頁的一部分的系統被稱為DIBS(請參見http//www.modaka.com/solutions/index.html)。這種工具允許用戶在網頁上選擇一個矩形區域,其中的內容被更新后按用戶選定的時間間隔發送到用戶的臺式電腦上。這類如DIBS的系統中存在兩個主要的缺陷。其一,選擇機制是純幾何性的。問題主要出在網頁要隨時動態地更換其上附加的廣告等。這樣,網頁上特定幾何區域在某個時刻上所顯示出的內容并不與另一時刻該位置上顯示出的內容相關。其二,選擇機制對上下文是無關的,因此,在一定時間段內,或者導致內容冗余或者導致丟失內容的后果。
因此,若能提供一種方法和系統,它能夠克服傳統的用于提供網頁中一部分的方法和系統所固有的問題——即幾何性選取和內容變化(丟失或增加),則是極符合需要的,也是很有益的。
按本發明的第一個方面,這里向一個用于自動地向用戶提供的系統提供計算機網絡環境內結構化文本中用戶選中的元素。結構化文本包括多種特性。該系統包括一種編輯工具,它允許用戶在結構化文本中選擇感興趣的部分,讓用戶指定接收被選擇部分的更新版本的時間間隔,能夠生成一種包含著與感興趣的被選擇部分相關聯的特性標識符的映射,以及能夠輸出這些標識符。數據庫存儲著這些標識符。服務器獲取對應這些被存儲的標識符的結構化文本的同期版本,然后提取出對應所存儲的標識符的結構化文本的同期版本中的某些部分,再將這些被提取的部分按用戶指定的時間間隔提供給用戶。
按本發明的第二個方面,網絡環境是指全球網,結構化文本指網頁。
按本發明的第三個方面,被選取的部分以HTML文件的形式被提供給用戶。
按本發明的第四個方面,編輯工具包括一種用于接收結構化文本的位置標識符的用戶接口控制器。
按本發明的第五個方面,服務器根據結構化文本的同期版本生成一種映射,其包括了含在該同期版本之中的特性標識符。
按本發明的第六個方面,服務器將被獲取的結構化文本的同期版本中的標識符與被存儲的標識符進行比較,以確定他們之中那些相同的標識符。
按本發明的第七個方面,相同的標識符被該服務器用于生成一種新的文本,該文本中包括了此結構化文本中用戶所選取部分的更新版本。
本發明的上述以及其它方面、特性和優點將在下面優選實施例的詳細說明中體現。閱讀這些優選實施例時應結合相應的附圖進行。
圖2是流程圖說明了有關按本發明的實施例
圖1的系統中客戶方所執行的步驟。
圖3是流程圖說明了有關按本發明的實施例圖1的系統中服務器方所執行的步驟。
圖4說明了按本發明的一種實施例的圖2和圖3中執行步驟的結果。
優選實施例詳述本發明致力于一種用于選取和自動更新結構化文本中任意元素的方法和系統。本發明優選通過包含兩臺或多臺計算機的網絡(例如因特網或內聯網)實現,但這不是必要的。此外,本發明也可在單獨一臺計算機上實現,其上某特定結構化文件中的信息要被經常(如手動)更新而用戶希望能夠按他/她指定的時間間隔瀏覽該文件的一部分。結構化文本的類型依據特定的使用執行程序而有所不同,這一點應被本領域中的技術人員所掌握。
出于解說的目的,這里參考全球網(以下稱為“網絡”)對本發明進行說明,結構化文本指“網頁”。但是,應當理解本發明不只限于網絡和網頁。因此,其它類型的計算機配置(優選網絡)和其它類型的結構化文件也是可以使用的。
本發明中進行圖解說明的實施例包括一個客戶或用戶部分和一個服務器部分。在網絡這種情況中,本發明允許用戶從任何網頁上拾取和選擇感興趣的元素(片段)。而且,本發明是以交互的方式實現的,并被配置成能夠使用所熟知的“剪貼”編輯范例。另外,本發明提供了一種,能夠對得到的“網頁片斷”進行格式化的增強模式。除此之外,本發明還向服務器一方提供了維護最新片段所需要的支持。
以下將給出本發明的一般性說明,向讀者介紹本發明的一些概念和優點。隨后,有關本發明各個方面的詳細說明將給出。
本發明允許用戶選擇不同網頁上的不同元素,用戶選取的內容被周期性地更新后再被發送給用戶。選取技術依賴于特定的實現機制而千差萬別。
本發明解決現有技術中存在的幾何性選取和內容丟失的問題。例如,本發明允許用戶從某一頁上選取股票報價,從另一頁上選取最近的體育報道標題,而再從又一頁上選取氣象報告,等等。本發明在用戶選擇的時間間隔內更新所有這些選中區域內的內容,然后將這些選中區域發送到用戶的臺式電腦中。與DIBS系統不同,我們的系統不是基于幾何形狀更新用戶的選擇區,而是將用戶的選擇區與網絡文本的底層結構緊密關聯。因此,更新過程更為可靠,而且隨著時間的推移用戶選擇區的相關性依然能被保持。
應該理解本發明可以被應用到各種形式的硬件、軟件、固件、特殊用途處理器、以及它們的組合結構中。本發明優選地被應用到軟件上,如確實體現在程序存儲設備中的程序。這類程序可以被裝載到包括了任何適合結構的機器上,并被其所執行。優選地,該機器在計算機平臺上實現,此計算機平臺包括硬件如一個或多個中央處理器(CPU)、隨機存儲器(RAM)和輸入/輸出接口(I/O)。計算機平臺也包括操作系統和微指令代碼。這里說明的各種處理進程和功能或者是微指令代碼的一部分或者是通過操作系統執行的程序的一部分(或者兩者的組合)。另外,各種其它的外圍設備也要被連接到計算機平臺上,如附加數據存儲設備和打印設備。
還應當理解的是,由于相應附圖中說明的一些組成系統的部件和方法步驟優選地在軟件中實現,因此系統部件(或處理步驟)之間的實際聯系會依據本發明編程方式的不同而千差萬別。
圖1是系統100中主要部件的圖解,該系統按本發明的一個實施例用于選取和自動地更新結構化文本中的任意元素。本發明中的三個主要部件是客戶前端編輯工具102、數據庫引擎104和網絡服務器106。這些部件被分成兩組客戶部分(或客戶方)和服務器部分(或服務器方)。但是,其它類型的結構也是允許的,包括至少一個中間部分(依特定的實現方式而定)。在本發明該圖解說明的實施例中,客戶前端編輯工具102對應著客戶部分,數據庫引擎104和網絡服務器106對應著服務器部分。這些部件對應著三種主要的由本發明執行的任務,它們分別是從網頁中確定選擇區、保存這些選擇區、復制這些被保存過的選擇區。
圖2是流程圖說明了關于圖1中按本發明實施例的系統的客戶方所執行的步驟。編輯頁面被裝載到網絡瀏覽器中(步驟202)。編輯頁面時允許用戶選擇網頁中的某些部分。在本發明的優選實施例中,編輯頁面具有一個浮動工具欄形式的用戶接口控件。
首張目標頁的URL(統一資源地址)被鍵入到這一用戶接口中(步驟204)。結果是目標頁被獲取到。一旦取到此目標頁,客戶方的拓撲映射(以下稱其為t-映射)就為該頁而被創建(步驟206)。T-映射在步驟206中被創建,以便為該頁中被映射的特性生成特性ID。T-映射是一種映射/數據結構,它將結構化文本中被映射的特性的標識符與這些特性的對應位置信息聯系在一起,該位置信息相應于一個給出的文本存在。當然t-映射中也可能包括與各種特性相關的附加信息。
結構化文本中的特性可能是,例如,表、段落等等。被映射的特性的標識符被稱為“特性標識符”。
結構化文本通常是層次性的,其表現形式可能會包含有嵌套區域。T-映射允許根據這些特性的位置和范圍索引這些被映射的特性。而且,t-映射允許將文本表現形式中的嵌套區域與底層文本特性關聯起來。在本發明該圖解說明的實施例中,與較局限的區域相比,范圍較大的區域顯示在t-映射的更底層。而且,在圖解的實施例中,位置信息是以絕對平面坐標的形式存在的。但是,應當理解,其它次序關系也可以被用于排列t-映射中的信息,例如,與較大范圍的區域相比,狹窄范圍區域出現在t-映射的較底層。而且,其它類型的信息也可以被用于表示被映射信息的地址。
在本發明的其它實施例中,t-映射被實現為一種鏈接層次結構,這種結構中包含了其它特性區域的特性區域在結構中的高層節點處。被定義為高層節點的區域內所包含的各個特性區域則作為該節點的子節點出現。同胞兄弟節點間被水平地鏈接起來,代與代(父-子)的節點間則被垂直地鏈接起來。基于這里提供的講解,相關技術領域中的一名普通技術人員就能聯想到t-映射這些和其它類似實現方式。
用戶在目標頁中選擇感興趣的區域(步驟208a)。然后,用戶確定其感興趣的這些區域要在什么頻率上進行一次刷新(步驟208b)。接下來才確定是否還存在著其它的目標頁(其上也有被選擇出來的感興趣的部分)(步驟210)。如果存在,則返回步驟204。另一方面,如果沒有其它的目標頁了,這些選取區的URL和特性標識符就都被存儲到數據庫引擎104中(步驟212)。
數據庫引擎104是客戶和服務器之間的接口。對于每個系統100的用戶而言,數據庫引擎104存儲著各目標頁的URL/特性標識符列表,用戶利用它們可以創建他/她自己的剪貼頁。剪貼頁是顯示給用戶的最終目標HTML文件的預覽版本。剪貼頁反映了用戶制定的選擇區。數據庫引擎104也保存著必要的用戶安全性和優先級信息。網絡服務器106使用數據庫信息管理用戶會話期。
一旦用戶請求聯機,會話就被啟動。然后,剪貼頁就會按如下所述被創建。當用戶退出時,或者經過暫停時間間隔后,會話就被關閉。
圖3是流程圖說明關于圖1中按本發明的實施例的系統中服務器方所執行的步驟。服務器106從數據庫引擎104中讀取特性標識符/URL列表信息(步驟302)。然后服務器106預取創建剪貼頁所必需的目標網頁,并創建服務器方的t-映射(步驟304)。一旦這些網頁在當地可利用時,利用預取得到的網頁中的文本就可以從其中摘取相關的內容了(步驟306a)。然后,這些內容被粘貼到最終用戶可以瀏覽的目標HTML文件中(步驟306b)。接下來,瀏覽器被指向最終的目標HTML文件(步驟308)。圖4是說明了按本發明的實施例的圖2和圖3中那些步驟的執行結果的圖示。
步驟306a包括一步,要將預取的目標網頁的特性標識符與被存儲的特性標識符進行比較,確定這些特性標識符當中相同的部分。
前端編輯工具102允許用戶從不同的網頁中選擇內容。它提供了一種簡單的機制用于從不同的網頁中選取內容,如圖4所示。一個可以改變大小的矩形被用于圈定所選擇的區域。當從某一頁中選擇了特定的區域時,其底層的特性就被確定下來,并作為特性標識符被存儲到數據庫引擎104中。用戶也要指定他/她希望多久刷新一次內容。
在服務器方,被選取的頁是要進行預取的。然后,服務器方的t-映射從該頁的HTML源中被生成。接下來,利用編輯過程中確定的特性標識符,這些頁中的相關選擇區會被重新創建,并被粘貼到可以讓用戶瀏覽的目標頁中。該過程在圖4的下半面上進行了說明。
下面介紹一下使用上下文有關的機制映射文本以及以t-映射為基礎進行網絡內容的選擇和復制所具有的優點的一些描述。首先,選擇機制獨立于幾何形狀、瀏覽器或平臺因素。其次,如果網頁的結構有時曾經改變,客戶端和服務器端的t-映射可能會不同步,用戶可以會被提示有必要重新編輯該頁的內容。第三,一旦文本的一個部分被選定,不論該部分怎樣改變,服務器都能檢索出文本被選中的結構特性,即允許信息的上下文有關的表現形式。第四,生成t-映射的過程要遵循該文本結構的層次屬性。即使選擇區是不完整的,由于選中的范圍是已知的,因此,服務器總能收集信息重建該文本丟失的部分,以便更好的顯示出來。
盡管這里該圖解說明的實施例參考相應的附圖進行說明,應當理解,本系統和方法不只限于這些確切的實施例,在不背離本發明的范圍和精神的條件下,本領域中的技術人員可以實行各種形式的變化和修改。所有這些變化和修改都如從附加的權利說明中說明的那樣意圖是被包括在本發明的范圍之內。
權利要求
1.一種系統,用于自動地向用戶提供計算機網絡環境內結構化文本中用戶選取的元素,其中結構化文本包括多種特性,該系統由以下部分組成一種編輯工具,它能夠讓用戶在結構化文本中選擇感興趣的部分,讓用戶指定接收被選擇部分的更新版本的時間間隔,生成一種包含著與感興趣的被選擇部分相關聯的特性標識符的映射,以及能夠輸出這些標識符;一個數據庫,用于存儲這些標識符;和一臺服務器,用于荻取對應這些被存儲的標識符的結構化文本的同期版本,然后提取出對應這些被存儲的標識符的結構化文本的同期版本中的某些部分,再將被提取的部分按用戶指定的時間間隔提供給用戶。
2.按權利要求1的系統,其中網絡環境是指全球網,結構化文本是指網頁。
3.按權利要求2的系統,其中被選中的部分以HTML文件的形式被提供給用戶。
4.按權利要求2的系統,其中該編輯工具包括一種用于接收結構化文本的位置標識符的用戶接口控制器。
5.按權利要求2的系統,其中該服務器根據結構化文本的同期版本生成一種映射,其包含了同期版本中所含有的特性的標識符。
6.按權利要求5的系統,其中該服務器將被獲取到的結構化文本同期版本中的標識符與被存儲的標識符進行比較,以便確定它們之中共同的標識符。
7.按權利要求6的系統,其中這些共同的標識符被該服務器用于生成新的文本,此文本包括了用戶在結構化文本中選中部分的更新版本。
8.一種方法用于自動地向用戶提供計算機網絡環境內結構化文本中用戶可選取的元素,其中結構化文本包括多種特性,該方法包括以下步驟在此結構化文本中至少選擇一個感興趣的部分;指定一時間間隔,在該時間間隔內至少一個被選中部分的更新版本要能被用戶接收到;建立一種映射,該映射包括了與至少一個被選取部分相關的特性的標識符;存儲這些標識符;獲取對應這些被存儲的標識符的結構化文本同期版本;提取出對應這些被存儲的標識符的結構化文本同期版本中的某些部分;按用戶指定的時間間隔向用戶提供這些被提取出來的部分。
9.按權利要求8中的方法,其中該網絡環境是指全球網,結構化文本指網頁。
10.按權利要求9的方法,其中被選中的部分以HTML文件的形式被提供給用戶。
11.按權利要求9的方法,其中選取一步中包括以下步驟接收結構化文本的位置標識符;和利用這些位置標識符獲取結構化文本。
12.按權利要求9的方法,其中該方法還包括根據該結構化文本的同期版本生成一種映射的步驟,其包含了同期版本中所含有的特性的標識符。
13.按權利要求12的方法,其中所述提取步聚包括將被獲取的結構化文本的同期版本的標識符與被存儲的標識符進行比較的步驟,以便確定出它們之中共同的那些標識符。
14.按權利要求13的方法,其中所述提供步驟包括利用這些共同的標識符生成新文本的步驟,此新文本包括了用戶在結構化文本中所選取部分的更新版本。
15.一種程序存儲設備可被機器讀取,該設備中確實包括一組機器可執行的指令程序,用以實現一種自動地向用戶提供計算機網絡環境內結構化的文本中用戶選取的元素的方法步驟,此種方法步驟包括在結構化文本中至少選擇一個感興趣的部分;指定一時間間隔,在該時間間隔內至少一個被選中部分的更新版本要被用戶所接收;建立一種映射,該映射包括了與至少一個被選取部分相關的特性的標識符;存儲這些標識符;獲取對應這些被存儲的標識符的結構化文本的同期版本;提取出對應這些被存儲的標識符的結構化文本的同期版本中的某些部分;按用戶指定的時間間隔向用戶提供這些被提取出來的部分。
16.按權利要求15的程序存儲設備,其中網絡環境是指全球網,結構化文本指網頁。
17.按權利要求16的程序存儲設備,其中被選定的部分以HTML文件的形式被提供給用戶。
18.按權利要求16的程序存儲設備,其中所說的選取步聚包括步驟接收結構化文本的位置標識符;和利用這些位置標識符獲取結構化文本。
19.按權利要求16的程序存儲設備,其中所述方法還包括基于結構化文本的同期版本生成一映射的步驟,其包括在同期版本中所含有的特性的標識符。
20.按權利要求19的程序存儲設備,其中所說的提取步驟包括將被獲取的結構化文本同期版本的標識符與被存儲的標識符進行比較的步驟,確定出它們之中共同的標識符。
21.按權利要求20中的方法,其中所述提供步驟包括利用這些共同的標識符生成新文本的步驟,此新文本包括了用戶在結構化文本中選取的部分的更新版本。
全文摘要
按本發明的一種實施例,這里提供了一種方法,它能自動地向用戶提供計算機網絡環境內的結構化文本中用戶所選中的元素。該結構化文本包括多種特性。該方法包括一步從結構化文本中至少選擇一個感興趣的部分(步驟208a)。指定一段時間間隔,在此間隔內至少一個被選中部分的更新版本要能被用戶接收到(步驟208b)。建立一種映射關系,其包括了與至少一個被選中部分相關的屬性標識符(步驟206)。這些標識符被存儲起來(步驟212)。對應這些被存儲的標識符的結構化文本的同期版本被獲取(步驟304)。對應這些被存儲的標識符的結構化文本的同期版本中的某些部分被提取出來(步驟306a)。被提取出來的部分按用戶指定的時間間隔被提供給用戶(步驟308)。
文檔編號G06F17/30GK1451126SQ00815732
公開日2003年10月22日 申請日期2000年9月5日 優先權日1999年9月15日
發明者A·皮扎諾, S·塞甘, C·R·薩斯特里, D·路易斯 申請人:西門子共同研究公司