專利名稱:一種基于預測的快速數據復制方法
技術領域:
本發明涉及基于廣域網絡的分布式系統中的數據復制方法,尤其是對數據訪問效率要求比較高,基于廣域網絡的分布式虛擬環境系統中的數據復制方法。
背景技術:
數據復制是分布式系統要解決的核心問題之一,數據復制方法的好壞直接影響到分布式系統的性能高低。目前,分布式系統中采用的復制方法都是基于數據對象的,即,在復制數據時,根據當前的網絡狀態,從多個可用的數據副本中選擇訪問開銷最小的一個副本進行復制。在基于廣域網絡的分布式虛擬環境系統中,涉及許多大規模的海量數據對象,基于數據對象的復制方法主要是在網絡帶寬和存儲空間之間進行權衡,難以充分利用網絡帶寬提高數據復制效率,從而影響數據訪問效率的提高。因此,如何對海量數據對象進行快速復制是分布式虛擬環境研究人員急需解決的熱點問題。
發明內容
本發明要解決的技術問題是針對現有的基于數據對象的數據復制方法難以有效提高海量數據對象的復制效率而提出的基于預測的快速數據復制方法,它將數據訪問預測和并行復制相結合,利用數據訪問預測來決定副本的增加和刪除,在副本復制過程中采用并行復制策略,從副本放置和副本復制兩個方面提高數據訪問效率,滿足分布式虛擬環境系統對數據訪問效率的要求。
技術方案是本發明分為數據訪問預測和并行數據復制兩步首先,利用數據訪問的歷史記錄預測未來某一時間間隔內的數據訪問;然后,根據當前的網絡狀態選擇訪問開銷最小的N個副本以及每個副本的數據訪問量,從每個副本傳輸數據對象的不同部分,最后合并成完整的數據對象副本。
數據訪問預測的方法是數據訪問預測就是利用數據訪問的歷史記錄來預測未來某一時間間隔內的數據訪問。在分布式系統中,不同類型數據的訪問模式表現出不同的局部性,即●空間局部性,就是被訪問數據周圍一定范圍內的數據有可能在未來一定時間間隔內被訪問;●時間局部性,就是最近被訪問的數據有可能再次被訪問;●無局部性,就是數據訪問隨機性很強。
分布式虛擬環境系統對地形、海圖和地理三維模型等空間數據的訪問請求都具有很大程度的空間局部性,而且這些數據對象體積都比較大,數據格式復雜多樣,目前還沒有統一有效的管理方法。因此,在分布式環境下,訪問這些數據對象會帶來很大的延遲,對分布式虛擬環境系統的性能帶來直接的影響,本發明采用基于空間運動物理模型的預測方法來對空間數據的訪問進行優化。
空間運動物理模型,就是利用物理的運動學原理來建立一個適合分布式虛擬環境中的數據訪問的預測模型。空間運動基本要素就是時間和位置,利用運動學原理可以建立位置關于時間的函數,從而預測未來一定時間間隔內的運動位置。根據此位置可以計算出包含此位置的數據對象。
空間運動物理模型基于物理學中物體的運動方程創建,基本參數有時間t、位移s、速度v。基本方程為sρ=sρ0+∫t0tnvρdt;]]>從空間數據的訪問請求序列中提取出請求數據的空間坐標序列A0,A1,ΛAn,同時記錄請求發生的時間序列t0,t1Λtn;公式中 為請求序列的初始坐標A0,對A與T的序列使用Lagrange插值法得到●空間坐標關于時間的函數A=Σk=0n(Πi=0i≠knt-titk-ti)Ak,]]>●時間關于坐標的函數t=Σk=0n(Πi=0i≠knx-xixk-xi)tk]]>這兩個函數描述了訪問請求的空間運動趨勢,是基本方程的另一種近似表達形式,由于空間坐標有二維、三維坐標,可以對坐標的每個維使用上述插值函數。由此得到以下兩種形式設地理坐標為A,則有1、A=f(t),是地理坐標關于時間的函數;2、t=f′(A),是時間關于地理坐標的函數;假設當前的時間為tn,通過此函數可以得到tn+1時刻的空間坐標,做到了對未來一段時間內請求訪問的預測。
經過多次模擬測試可以發現,當利用4次插值時就能達到很好的預測效果,利用更高次的插值公式能得到一定程度的改善,但是計算量比較大。為了達到計算簡單快速的目的本發明推薦使用4次插值函數進行預測計算。
在實際系統中,創建空間運動物理模型獲得參數和選擇預測時刻的方法是獲得參數。在分布式虛擬環境中,對空間數據的訪問請求中都包含有該數據對象的地理位置信息,通過分析數據訪問請求,可以記錄數據訪問請求的時間、地理位置等信息。基于這些歷史信息,可以利用空間運動物理模型進行數據訪問的預測。
選擇預測時刻就是確定什么時候需要進行預測比較合適。預測時刻由空間運動模型表示的運動速度大小方向、空間數據塊的大小、網絡可用帶寬等決定,這三個因素同時決定預測時刻,綜合三個因素才能在不影響系統正常訪問數據的情況下,利用網絡空閑帶寬在允許的時間內將數據傳輸到本地,隱藏數據訪問延遲。空間運動模型表示的運動速度代表用戶數據訪問請求的趨勢,就是在未來某一時刻用戶可能訪問那一塊空間數據。
假設空間運動模型代表的速度為V,當前運動的位置為A(x,y);一個空間數據塊的大小為M,所代表地理位置范圍為P(x0,y0,x1,y1);網絡的可用帶寬為B;當前時刻為T0;則進行預測的最后時刻T=min(f′(x0),f′(x1),f′(y0),f′(y1))-M/B;當預測訪問進行一段時間后,由于本地存儲空間的限制,新來的數據可能找不到足夠的空間來存儲。這時就必須用新來的數據替換掉本地存儲空間內的某一塊數據,本發明提出了和基于空間運動模型相適應的替換策略,就是基于空間距離的替換策略,同樣是針對具有空間地理位置信息的數據。
假設1)、當前時刻為T0;2)、一個空間數據塊所代表地理位置范圍為P(x0,y0,x1,y1)(一般是地理矩形范圍左下角右上角的坐標),則本地數據集合表示的范圍為{P0,P1,P2Λ};3)、有空間運動模型可以得到當前的運動坐標A=f(T0),用Si代表A和pi中心點的距離,則可以得到集合Ω={S0,S1,S2Λ};
則替換掉數據塊pi=max(Ω)。
并行數據復制的方法是并行復制方法是同時從分布在不同節點的多個副本進行復制,利用底層網絡的冗余通信鏈路來加速數據復制速度。為了使這種加速效果達到最優,本發明采用副本選擇策略來進行副本選擇,采用訪問量分配策略進行數據訪問量的分配。
數據對象在網絡中往往存在大量的副本,如果同時訪問所有的副本,那么,不僅會占用大量的網絡資源,而且未必能夠達到最佳的復制效率。副本選擇策略主要解決兩個問題,一是如何從眾多的副本中選擇多個副本;二是應該選擇幾個副本較為合適。在實際情況下,并不是選擇的副本越多越好,因為當一個數據對象擁有很多副本時,如果從所有的副本同時進行復制,那么可能每個副本分配的數據訪問量很小,甚至與建立網絡連接的時間相比可以忽略不計,這時并行復制的時間就是復制節點和所有副本建立連接的最大延遲時間。在這種情況下,訪問副本數目的增加不僅不能達到改善復制效率的效果,反而可能會增加復制的時間。副本選擇策略從所有副本中選擇訪問效率最好的多個副本,由模擬測試可知,并行復制選擇的最佳副本數目和底層網絡節點的平均度數有著一定的關系,當并行復制選擇的副本數目等于底層網絡節點的平均節點度時,并行復制的效率最佳。
數據訪問量的分配主要解決怎樣從多個副本進行復制的問題,以便在最短的時間內完成復制。基本原則是從訪問開銷小的副本訪問多一點的數據,從訪問開銷大的副本訪問少一點的數據。若所有的副本同時將數據傳輸完畢,則可以達到最佳復制效率。
在傳統的復制方法中,復制節點根據當前的網絡狀態選擇訪問開銷最小的一個副本進行數據復制。假設當時所選副本節點與復制節點之間的網絡帶寬為B,數據大小為M,復制時間為M/B。
并行數據復制是根據當前的網絡狀態選擇訪問開銷最小的N個副本,從每個副本傳輸數據對象的不同部分,然后合并成完整的數據對象。假設當前系統中可用副本數目為N,這些副本所在節點與復制節點之間的網絡可用帶寬為V={v1,v2,ΛvN}。那么,所有選擇的副本的總帶寬為SUM=v1+v2+ΛvN,最大網絡帶寬為MAX=max(V)。
并行數據復制就是要從所選擇的副本同時復制數據,從不同的副本復制數據對象的一部分,本發明將從每個副本進行數據復制的過程稱為復制子過程。理想情況下,所有的復制子過程同時開始并且同時結束,這樣才能使并行復制的效率最高,為達到這個目的,本發明規定對每個副本的數據訪問量和副本節點對應的網絡帶寬成正比,因此,各副本的數據訪問量分配為Ω={Mv1SUM,Mv2SUM,ΛMvNSUM}.]]>由此可見,在傳統復制算法中,數據復制時間為M/MAX;在并行復制算法中,數據復制時間為M/SUM。
在實際情況中,由于網絡的動態性,并行數據復制的各個子復制過程即使同時開始,也可能不是同時結束,那么,數據復制時間D應該滿足M/SUM≤D≤M/MAX。
本發明通過設計一個基于預測的快速數據復制系統實現,該系統由數據訪問預測模塊、并行復制模塊、數據替換模塊、數據訪問記錄模塊、數據訪問歷史記錄模塊、本地數據空間組成。由數據訪問預測模塊根據數據訪問的歷史記錄對下一步的數據訪問進行預測,產生數據復制請求,將請求提交給并行復制模塊;并行復制模塊從數據訪問預測模塊接收到數據復制請求后,從網絡中的多個副本同時進行數據復制,復制完成后,將數據副本提交給數據替換模塊;數據替換模塊根據基于空間運動模型相適應的替換策略,利用接收到的數據副本替換復制空間內需要替換的數據副本;數據訪問記錄模塊記錄數據訪問的歷史信息,包括數據訪問的啟動時間、地理位置信息等,這些歷史信息是數據訪問預測模塊進行數據訪問預測的依據。
基于預測的快速數據復制系統的基本工作過程是1.副本產生,分為兩種情況a)在本地啟動了一次數據訪問請求,并且在本地可以找到需要訪問的數據。根據訪問預測策略推斷下一步的數據訪問,如果預測即將訪問的數據不在本地,則查看本地網絡是否空閑,如果空閑則啟動并行數據傳輸過程,否則,等待本地網絡空閑,且等待時間不超過時間T——根據空間物理運動預測方法中的規定,如果等待超過了時間T,則取消此次復制。
如果本地復制空間有足夠的空間,則直接產生新的副本,否則利用數據替換策略決定需要替換的數據副本。
b)在本地啟動了一次數據訪問請求,并且在本地找不到需要訪問的數據,則進行并行數據傳輸。
如果本地復制空間有足夠的空間,則直接產生新的副本,否則針對即將訪問的數據和復制空間內的數據一起,使用數據替換模塊決定需要替換的數據副本。如果需要替換的數據就是即將訪問的數據,則不產生新的副本,否則利用獲取的數據替換復制空間內需要替換的數據。
2.副本傳輸,就是在訪問遠程數據和進行復制的時候采用并行復制策略將遠程的數據復制到本地。
3.副本替換,就是根據替換策略決定需要將本地復制空間中的某塊數據替換掉。
采用本發明可以達到以下的技術效果與傳統的復制方法相比,一方面,本發明利用預測機制對未來的數據訪問進行預測,利用網絡的空閑帶寬進行數據復制,提高了數據訪問的本地命中率,也提高了應用程序的數據訪問效率;另一方面,本發明通過并行復制,充分利用網絡的冗余路徑,提高了數據復制效率,也提高了應用程序的數據訪問效率。
圖1是實現本發明的基于預測的快速數據復制系統的基本原理圖;圖2是本發明的流程圖;圖3是本發明并行數據復制的示意圖;圖4是本發明多個節點并行復制時相互之間影響的示意圖;圖5是本發明性能測試的網絡環境配置圖;圖6是本發明和基于經濟學模型的復制方法的對比測試結果;圖7是本發明的總任務執行時間和復制空間大小的關系;圖8是本發明的網絡邊緣節點數據傳輸總量和復制空間大小的關系。
具體實施例方式
圖1是實現本發明的基于預測的快速數據復制系統的基本結構圖。基于預測的快速數據復制系統由數據訪問預測模塊、并行復制模塊、數據替換模塊、數據訪問記錄模塊、數據訪問歷史記錄模塊、本地數據空間組成。
●數據訪問預測模塊實現數據訪問預測,是本發明是否高效的關鍵,預測準確則數據訪問的本地命中率就高,數據訪問的效率就高。數據訪問預測模塊根據數據訪問的歷史記錄對下一步的數據訪問進行預測,產生數據復制請求,將請求提交給并行復制模塊。
●并行復制模塊從數據訪問預測模塊接收到數據復制請求后,從網絡中的多個副本同時進行數據復制,復制完成后,將數據副本提交給數據替換模塊。
●數據替換模塊根據基于空間運動模型相適應的替換策略,利用接收到的數據副本替換復制空間內需要替換的數據副本。
●數據訪問記錄模塊記錄數據訪問的歷史信息,包括數據訪問的啟動時間、地理位置信息等。這些歷史信息是數據訪問預測模塊進行數據訪問預測的依據。
基于預測的快速數據復制系統的基本工作包括副本產生、副本傳輸、副本替換三個過程。
●副本產生過程分為兩種情況c)在本地啟動了一次數據訪問請求,并且在本地可以找到需要訪問的數據。根據訪問預測策略推斷下一步的數據訪問,如果預測即將訪問的數據不在本地,則查看本地網絡是否空閑,如果空閑則啟動并行數據傳輸過程,否則,等待本地網絡空閑,且等待時間不超過時間T——根據空間物理運動預測方法中的規定,如果等待超過了時間T,則取消此次復制。
如果本地復制空間有足夠的空間,則直接產生新的副本,否則利用數據替換策略決定需要替換的數據副本。
d)在本地啟動了一次數據訪問請求,并且在本地找不到需要訪問的數據,則進行并行數據傳輸。
如果本地復制空間有足夠的空間,則直接產生新的副本,否則針對即將訪問的數據和復制空間內的數據一起,使用數據替換模塊決定需要替換的數據副本。如果需要替換的數據就是即將訪問的數據,則不產生新的副本,否則利用獲取的數據替換復制空間內需要替換的數據。
●副本傳輸過程就是在訪問遠程數據和進行復制的時候利用并行復制過程將遠程的數據復制到本地。
●副本替換過程就是根據替換策略決定需要將本地復制空間中的某塊數據替換掉。
圖2是本發明并行數據復制的流程圖。節點接收數據訪問請求時,首先在本地查找需要訪問的數據對象;如果本地數據訪問失敗,則利用并行復制機制在本地建立數據對象的副本。另一方面,節點利用預測機制對未來的數據訪問進行預測,在網絡空閑時對未來要訪問的數據對象進行并行復制;如果節點的空閑存儲空間不足,則依據數據訪問頻度進行數據對象的替換。
本發明通過數據訪問預測和并行數據復制,提高本地數據訪問的命中率,減少了遠程數據訪問,提高了數據訪問的效率。
圖3說明的是采用本發明從三個節點同時復制數據的實施例。需要每個節點支持讀取和傳輸數據對象的某個部分,而且從每個節點復制的數據量和當前網絡狀態下復制節點和副本節點之間可用帶寬成正比。
圖中所示是服務器節點3從服務器節點1、2、4進行數據復制。
若節點1,3之間、2,3之間、4,3之間的網絡可用帶寬比例為3∶1∶2,數據對象大小為M,則復制比例劃分為Ω{M/2,M/6,M/3};則節點3分別從節點1、2、4上復制數據對象的0~M/2、M/2~2M/3、2M/3~M部分;同時從3個節點進行復制,利用了網絡的冗余路徑和帶寬,加速了復制過程,比從節點1單獨進行復制速度快1倍,比從節點2單獨進行復制速度快3倍,比從節點3單獨進行復制速度快1.5倍。
圖4舉例說明當兩個節點同時進行多副本并行復制時,網絡上出現相互之間的影響,當網絡上的節點越多,這種影響越大。
圖中所示節點2和3同時進行并行復制,節點2同時從節點3、4、5進行復制數據,節點3同時從節點1、2、4進行復制數據。在網絡上出現了正反兩種不同的因素影響網絡上的并行復制過程
不利因素在網絡上出現了6處沖突,在這些沖突的地方,可能會出現兩個并行復制過程相互影響,相互競爭使用網絡帶寬,這樣就會使復制時間增加。
有利因素網絡上還存在6個網段上沒有受影響的數據傳輸,這些數據傳輸又加速了數據傳輸的過程。
因此,總的復制時間就是以上正反兩方面共同作用的結果,當網絡規模很大時,網絡上存在成千上萬的路由節點和服務器節點時,兩個方面的作用就很難明顯的區分開來,需要使用統計方法來進行分析,并通過模擬測試的方法對復制效果進行驗證。
圖5是對本發明進行性能測試的網絡環境配置圖,包括11個資源節點和7個路由節點,11個資源節點包括10個計算單元和11個存儲單元,設定每個數據文件的大小為200MB,系統中總共有19.4GB的數據,每個處理單元處理一個數據對象的時間為100ms,底層網絡的平均節點度數為3。任務類型配置、任務數據訪問量和產生概率參數如下表所示。
圖6是數據對象為97個,并行復制算法選擇的副本數目為3,任務個數分別為100、300、500、700、1000和5000時,本發明和基于經濟學模型的復制方法的對比測試結果。基于經濟學模型的復制方法的基本思想是利用P2P網絡模擬經濟學中的投標競標過程,使得數據副本在網絡上合理分布,從而提高系統的數據訪問效率。從圖6可以看出,本發明在效果上明顯好于基于經濟學模型的復制算法,主要是因為并行復制算法充分的利用了網絡的空閑帶寬和冗余路徑,大大降低了程序的遠程數據訪問延遲,所以總任務完成時間大大的縮短,提高了數據訪問的效率。
圖7是總任務數為500,總的數據文件大小為19.4GB,當每個處理節點的數據復制空間大小分別為1.94GB、3.88GB、5.82GB、7.76GB、9.7GB、11.64GB、13.58GB、15.52GB和17.46GB的情況下,總任務時間的變化情況。從圖中可以看出總任務時間沒什么明顯的變化,主要是因為本發明通過預測訪問增加了數據訪問的本地命中率,因此采用本發明對每個處理節點的數據復制空間要求不高。
圖8是總任務數為500,總的數據文件大小為19.4GB,當每個處理節點的數據復制空間大小分別為1.94GB、3.88GB、5.82GB、7.76GB、9.7GB、11.64GB、13.58GB、15.52GB和17.46GB的情況下,網絡邊緣節點數據傳輸總量的變化情況。從圖中可以看出隨著本地復制空間的增大,網絡邊緣節點數據傳輸總量有明顯下降的趨勢。因為增加本地復制空間,減少了數據訪問預測利用網絡將數據傳輸到本地的概率,所以降低了網絡的負載。因此適當的設置復制空間的大小,可以很好地改善網絡的負載情況。
權利要求
1.一種基于預測的快速數據復制方法,其特征在于采用數據訪問預測和并行復制相結合的策略,利用數據訪問預測決定副本的增加和刪除,在副本復制過程中采用并行復制策略,從副本放置和副本復制兩個方面提高數據訪問效率,具體方案分為數據訪問預測和并行數據復制兩步首先,利用數據訪問的歷史記錄預測未來某一時間間隔內的數據訪問;然后,根據當前的網絡狀態選擇訪問開銷最小的N個副本以及每個副本的數據訪問量,從每個副本傳輸數據對象的不同部分,最后合并成完整的數據對象副本。
2.如權利要求1所述的基于預測的快速數據復制方法,其特征在于所述數據訪問預測的方法是2.1采用基于空間運動物理模型的預測方法來對空間數據的訪問進行優化空間運動物理模型基于物理學中物體的運動方程創建,基本參數有時間t、位移s、速度v,基本方程為sρ=sρ0+∫t0tnvρdt;]]>從空間數據的訪問請求序列中提取出請求數據的空間坐標序列A0,A1,ΛAn,同時記錄請求發生的時間序列t0,t1Λtn;公式中 為請求序列的初始坐標A0,對A與T的序列使用Lagrange插值法得到●空間坐標關于時間的函數A=Σk=0n(Πi=0i≠knt-titk-ti)Ak,]]>●時間關于坐標的函數t=Σk=0n(Πi=0i≠knx-xixk-xi)tk]]>由于空間坐標有二維、三維坐標,對坐標的每個維使用上述插值函數后得到以下兩種形式設地理坐標為A,則有1)、A=f(t),是地理坐標關于時間的函數;2)、t=f′(A),是時間關于地理坐標的函數;假設當前的時間為tn,通過此函數得到tn+1時刻的空間坐標,以此對未來一段時間內進行請求訪問的預測;經過多次模擬測試可以發現,當利用4次插值時就能達到很好的預測效果,為了達到計算簡單快速的目的本發明推薦使用4次插值函數進行預測計算;2.2創建空間運動物理模型獲得參數和選擇預測時刻的方法是2.2.1獲得參數的方法是在分布式虛擬環境中,對空間數據的訪問請求中都包含有該數據對象的地理位置信息,通過分析數據訪問請求,可以記錄數據訪問請求的時間、地理位置等信息,基于這些歷史信息,可以利用空間運動物理模型進行數據訪問的預測;2.2.2選擇預測時刻就是確定什么時候需要進行預測比較合適,預測時刻由空間運動模型表示的運動速度大小方向、空間數據塊的大小、網絡可用帶寬決定,這三個因素同時決定預測時刻,綜合三個因素才能在不影響系統正常訪問數據的情況下,利用網絡空閑帶寬在允許的時間內將數據傳輸到本地,隱藏數據訪問延遲;空間運動模型表示的運動速度代表用戶數據訪問請求的趨勢,就是在未來某一時刻用戶可能訪問那一塊空間數據;假設空間運動模型代表的速度為V,當前運動的位置為A(x,y);一個空間數據塊的大小為M,所代表地理位置范圍為P(x0,y0,x1,y1);網絡的可用帶寬為B;當前時刻為T0;則進行預測的最后時刻T=min(f′(x0),f′(y0),f′(y1))-M/B;2.3當預測訪問進行一段時間后,由于本地存儲空間的限制,新來的數據可能找不到足夠的空間來存儲,這時就必須用新來的數據替換掉本地存儲空間內的某一塊數據,本發明采用基于空間距離的替換策略進行替換假設1)、當前時刻為T0;2)、一個空間數據塊所代表地理位置范圍為P(x0,y0,x1,y1),則本地數據集合表示的范圍為{P0,P1,P2Λ};3)、有空間運動模型可以得到當前的運動坐標A=f(T0),用Si代表A和pi中心點的距離,則可以得到集合Ω={S0,S1,S2Λ};則替換掉數據塊pi=max(Ω)。
3.如權利要求1所述的基于預測的快速數據復制方法,其特征在于所述并行數據復制的方法是同時從分布在不同節點的多個副本進行復制,利用底層網絡的冗余通信鏈路來加速數據復制速度,為了使這種加速效果達到最優,本發明采用副本選擇策略來進行副本選擇,采用訪問量分配策略進行數據訪問量的分配3.1副本選擇策略主要解決兩個問題,一是如何從眾多的副本中選擇多個副本,方法是從所有副本中選擇訪問效率最好的多個副本;二是應該選擇幾個副本較為合適,并行復制選擇的最佳副本數目和底層網絡節點的平均度數有著一定的關系,當并行復制選擇的副本數目等于底層網絡節點的平均節點度時,并行復制的效率最佳;3.2數據訪問量的分配主要解決怎樣從多個副本進行復制的問題,以便在最短的時間內完成復制,基本原則是從訪問開銷小的副本訪問多一點的數據,從訪問開銷大的副本訪問少一點的數據,若所有的副本同時將數據傳輸完畢,則可以達到最佳復制效率。
4.如權利要求1所述的基于預測的快速數據復制方法,其特征在于本發明通過設計一個基于預測的快速數據復制系統實現,該系統由數據訪問預測模塊、并行復制模塊、數據替換模塊、數據訪問記錄模塊、數據訪問歷史記錄模塊、本地數據空間組成;數據訪問預測模塊根據數據訪問的歷史記錄對下一步的數據訪問進行預測,產生數據復制請求,將請求提交給并行復制模塊;并行復制模塊從數據訪問預測模塊接收到數據復制請求后,從網絡中的多個副本同時進行數據復制,復制完成后,將數據副本提交給數據替換模塊;數據替換模塊根據基于空間運動模型相適應的替換策略,利用接收到的數據副本替換復制空間內需要替換的數據副本;數據訪問記錄模塊記錄數據訪問的歷史信息,包括數據訪問的啟動時間、地理位置信息,這些歷史信息是數據訪問預測模塊進行數據訪問預測的依據。
全文摘要
一種基于預測的快速數據復制方法,目的是解決現有數據復制方法難以有效提高海量數據對象的復制效率的問題。技術方案是采用數據訪問預測和并行復制相結合的策略,利用數據訪問預測決定副本的增加和刪除,在副本復制過程中采用并行復制策略,從副本放置和副本復制兩個方面提高數據訪問效率,具體方案分為兩步首先,利用數據訪問的歷史記錄預測未來某一時間間隔內的數據訪問;然后,根據當前的網絡狀態選擇訪問開銷最小的N個副本以及每個副本的數據訪問量,從每個副本傳輸數據對象的不同部分,最后合并成完整的數據對象副本。與傳統的復制方法相比,本發明提高了數據訪問的本地命中率,提高了數據復制效率,提高了應用程序的數據訪問效率。
文檔編號H04L12/00GK1658560SQ20051003128
公開日2005年8月24日 申請日期2005年2月28日 優先權日2005年2月28日
發明者王意潔, 李思昆, 秦永進, 周婧 申請人:中國人民解放軍國防科學技術大學