>[0086] 最后,計算各個HTTP請求與各個數據改變事件的共現概率。例如,HTTP請求 "1. jsp"與數據改變事件"1"的共現概率 P([l. jsp, 1]) = 10/total [1. jsp, *]。10 表 示HTTP請求"1. jsp"與數據改變事件"1"在第二觀測序列中共同出現的次數為10次。 total[l. jsp, *]表示HTTP請求"1. jsp"在第二觀測序列中出現的總次數。
[0087] 類似地,可W計算其它的共現概率。
[0088] 所計算的共現概率,可W表征相關性,用于判斷數據是否已更新。
[0089] W上,介紹了針對黑盒子型服務器和可訪問服務器,如何利用本發明的方法來判 斷數據是否已更新。
[0090] 相應地,根據本發明的另一方面,提出了一種數據集成方法,該數據集成方法包 括;根據如上所述的估計數據更新時刻的方法,估計僅公開應用程序接口的黑盒子型服務 器或可訪問服務器的數據是否已更新;W及如果判斷為數據已更新,則從相應服務器獲取 相應的數據并存儲到數據中必。如果判斷為數據未更新,則不進行任何操作。
[0091] 其中,數據中必包括數據倉庫,其存儲用于數據呈現和數據挖掘的數據。
[0092] 下面,將參照圖6描述根據本發明實施例的估計數據更新時刻的設備。
[0093] 圖6示出了根據本發明實施例的估計數據更新時刻的設備的結構方框圖。如圖6 所示,根據本發明的估計數據更新時刻的估計設備600包括;第一判斷裝置61,對于僅公開 應用程序接口 API的黑盒子型服務器,利用隱馬爾可夫模型,W第一預定頻率,判斷當前時 刻與API相關聯的數據是否已更新,所述隱馬爾可夫模型的顯式狀態是當前時刻數據是否 已更新,所述隱馬爾可夫模型的隱式狀態是距離上一次數據更新的時間;W及第二判斷裝 置62,對于可訪問服務器,捕獲超文本傳輸協議HTTP請求的出現及其時刻;根據與可訪問 服務器相關聯的數據的更新和HTTP請求的相關性,W第二預定頻率,判斷當前時刻數據是 否已更新。
[0094] 在一個實施例中,估計設備600還包括第一訓練裝置,被配置為;W所述第一預定 頻率訪問API, W確定數據是否已更新,從而得到表征數據是否已更新的第一觀測序列;W 及利用所得到的第一觀測序列,訓練隱馬爾可夫模型。
[0095] 在一個實施例中,估計設備600還包括第一更新裝置,被配置為;在所述第一判斷 裝置61判斷為當前時刻與API相關聯的數據已更新的情況下,從API獲取相應的數據用W 更新。
[0096] 在一個實施例中,第一更新裝置還被配置為;觀測從API獲取的數據是否確實相 對于之前獲取的數據存在更新,并將觀測結果傳遞給所述第一訓練裝置用作所述隱馬爾可 夫模型的新的訓練數據。
[0097] 在一個實施例中,估計設備600還包括相關性計算裝置,被配置為;監測可訪問服 務器的HTTP流,W獲得HTTP請求及其出現時刻;W所述第二預定頻率,訪問所述可訪問服 務器,W獲得表征數據是否已更新的第二觀測序列;W及利用已獲得的HTTP請求及其出現 時刻、W及所述第二觀測序列,計算所述相關性。
[009引在一個實施例中,相關性由HTTP請求和數據已更新的狀態的共現概率、HTTP請求 和數據未更新的狀態的共現概率來表征。
[0099] 在一個實施例中,估計設備600還包括第二更新裝置,被配置為;在所述第二判斷 裝置62判斷為當前時刻與可訪問服務器相關的數據已更新的情況下,從可訪問服務器獲 取相應的數據用W更新。
[0100] 在一個實施例中,第二更新裝置還被配置為;觀測從可訪問服務器獲取的數據是 否確實相對于之前獲取的數據存在更新,并將觀測結果傳送給所述相關性計算裝置用于所 述相關性的計算。
[0101] 在一個實施例中,HTTP請求包括HTTP POST請求和HTTP GET請求。
[0102] 由于在根據本發明的估計設備600中所包括的各個裝置和單元中的處理分別與 上面描述的估計方法中所包括的各個步驟中的處理類似,因此為了簡潔起見,在此省略送 些裝置和單元的詳細描述。
[0103] 圖7示出了根據本發明實施例的數據集成設備的結構方框圖。如圖7所示,根據 本發明的數據集成設備700包括;如上所述的估計數據更新時刻的估計設備600,用于估計 僅公開應用程序接口的黑盒子型服務器或可訪問服務器的數據是否已更新;W及獲取裝置 70,在估計設備600判斷為數據已更新的情況下從服務器獲取相應的數據并存儲到數據中 屯、。
[0104] 在一個實施例中,數據中必包括數據倉庫,其存儲用于數據呈現和數據挖掘的數 據。
[0105] 此外,送里尚需指出的是,上述設備中各個組成裝置、單元可W通過軟件、固件、硬 件或其組合的方式進行配置。配置可使用的具體手段或方式為本領域技術人員所熟知,在 此不再賞述。在通過軟件或固件實現的情況下,從存儲介質或網絡向具有專用硬件結構的 計算機(例如圖8所示的通用計算機800)安裝構成該軟件的程序,該計算機在安裝有各種 程序時,能夠執行各種功能等。
[0106] 圖8示出了可用于實施根據本發明實施例的方法和設備的計算機的示意性框圖。
[0107] 在圖8中,中央處理單元(CPU)801根據只讀存儲器(ROM)802中存儲的程序或從 存儲部分808加載到隨機存取存儲器(RAM)803的程序執行各種處理。在RAM803中,還根 據需要存儲當CPU801執行各種處理等等時所需的數據。CPU80UR0M802和RAM803經由總 線804彼此連接。輸入/輸出接口 805也連接到總線804。
[0108] 下述部件連接到輸入/輸出接口 805 ;輸入部分806 (包括鍵盤、鼠標等等)、輸出 部分807 (包括顯示器,比如陰極射線管(CRT)、液晶顯示器化CD)等,和揚聲器等)、存儲部 分808 (包括硬盤等)、通信部分809 (包括網絡接口卡比如LAN卡、調制解調器等)。通信 部分809經由網絡比如因特網執行通信處理。根據需要,驅動器810也可連接到輸入/輸 出接口 805。可拆卸介質811比如磁盤、光盤、磁光盤、半導體存儲器等等可W根據需要被安 裝在驅動器810上,使得從中讀出的計算機程序根據需要被安裝到存儲部分808中。
[0109] 在通過軟件實現上述系列處理的情況下,從網絡比如因特網或存儲介質比如可拆 卸介質811安裝構成軟件的程序。
[0110] 本領域的技術人員應當理解,送種存儲介質不局限于圖8所示的其中存儲有程 序、與設備相分離地分發W向用戶提供程序的可拆卸介質811。可拆卸介質811的例子 包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(CD-ROM)和數字通用盤 值VD))、磁光盤(包含迷你盤(MD)(注冊商標))和半導體存儲器。或者,存儲介質可W是 R0M802、存儲部分808中包含的硬盤等等,其中存有程序,并且與包含它們的設備一起被分 發給用戶。
[0111] 本發明還提出一種存儲有機器可讀取的指令代碼的程序產品。所述指令代碼由機 器讀取并執行時,可執行上述根據本發明實施例的方法。
[0112] 相應地,用于承載上述存儲有機器可讀取的指令代碼的程序產品的存儲介質也包 括在本發明的公開中。所述存儲介質包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等 等。
[0113] 在上面對本發明具體實施例的描述中,針對一種實施方式描述和/或示出的特征 可相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特征 相組合,或替代其它實施方式中的特征。
[0114] 應該強調,術語"包括/包含"在本文使用時指特征、要素、步驟或組件的存在,但 并不排除一個或更多個其它特征、要素、步驟或組件的存在或附加。
[0115] 此外,本發明的方法不限于按照說明書中描述的時間順序來執行,也可W按照其 他的時間順序地、并行地或獨立地執行。因此,本說明書中描述的方法的執行順序不對本發 明的技術范圍構成限制。
[0116] 盡管上面已經通過對本發明的具體實施例的描述對本發明進行了披露,但是,應 該理解,上述的所有實施例和示例均是示例性的,而非限制性的。本領域的技術人員可在所 附權利要求的精神和范圍內設計對本發明的各種修改、改進或者等同物。送些修改、改進或 者等同物也應當被認為包括在本發明的保護范圍內。
[0117] 班丑
[om] 1. -種估計數據更新時刻的方法,包括:
[0119] 對于僅公開應用程序接口 API的黑盒子型服務器,
[0120] 利用隱馬爾可夫模型,W第一預定頻率,判斷當前時刻與API相關聯的數據是否 已更新,所述隱馬爾可夫模型的顯式狀態是當前時刻數據是否已更新,所述隱馬爾可夫模 型的隱式狀態是距離上一次數據更新的時間;
[0121] 對于可訪問服務器,
[0122] 捕獲超文本傳輸協議HTTP請求的出現及其時刻;
[0123] 根據與可訪問服務器相關聯的數據的更新和HTTP請求的相關性,W第二預定頻 率,判斷當