現(xiàn)在社會(huì)上云的概念被鋪天蓋地地議論著,究竟什么是云.可以說它是一種現(xiàn)代計(jì)算機(jī)技術(shù)發(fā)展的產(chǎn)物,但與其他技術(shù)有所區(qū)別的是它以網(wǎng)絡(luò)為基礎(chǔ)和依托的.所有在云端的服務(wù)都是客戶端遠(yuǎn)程發(fā)送請(qǐng)求,由網(wǎng)絡(luò)另一端的云朵進(jìn)行操作,在通過網(wǎng)絡(luò)傳回給客戶.公司企業(yè)可以通過租用云服務(wù)的方式,使用提供商的硬件設(shè)備軟件資源等來進(jìn)行大規(guī)模的數(shù)據(jù)存儲(chǔ)和運(yùn)算.因此云可以是廣域網(wǎng)或者某個(gè)局域網(wǎng)內(nèi)硬件、軟件、網(wǎng)絡(luò)等一系列資源統(tǒng)一在一起的一個(gè)綜合稱呼.云服務(wù)的概念包含基礎(chǔ)設(shè)施服務(wù)(IaaS)、平臺(tái)服務(wù)(PaaS)、軟件服務(wù)(SaaS)以及web2.0和其他最新技術(shù).云的應(yīng)用主要分為云計(jì)算和云存儲(chǔ).云計(jì)算瞳3是分布式處理、并行處理和網(wǎng)格計(jì)算的發(fā)展,是透過網(wǎng)絡(luò)將龐大的計(jì)算處理程序自動(dòng)分拆成無數(shù)個(gè)較小的子程序,再交由多部服務(wù)器所組成的龐大系統(tǒng)經(jīng)計(jì)算分析之后將處理結(jié)果回傳給用戶.通過云計(jì)算技術(shù),網(wǎng)絡(luò)服務(wù)提供者可以在數(shù)秒之內(nèi)處理數(shù)以千萬計(jì)甚至億計(jì)的信息,達(dá)到和“超級(jí)計(jì)算機(jī)”同樣強(qiáng)大的網(wǎng)絡(luò)服務(wù).而且云端利用虛擬化技術(shù)等有效利用小型機(jī)服務(wù)器資源,不僅降低企業(yè)客戶端用戶機(jī)器運(yùn)算能耗,也可提高企業(yè)本身資源的利用率.
云存儲(chǔ)是在云計(jì)算概念上延伸和發(fā)展出來的一個(gè)新的概念.云計(jì)算時(shí)代可以拋棄U盤等移動(dòng)設(shè)備,比如利用Google云存儲(chǔ)技術(shù)要新建一個(gè)文檔,只需要進(jìn)入Google Docs頁面,新建文檔,編輯內(nèi)容,保存起來,然后,直接將文檔的URL分享給其他人,他們可以直接打開瀏覽器訪問URL.此時(shí)我們?cè)僖膊挥脫?dān)心因PC硬盤的損壞而發(fā)生資料丟失事件,云存儲(chǔ)的系統(tǒng)已經(jīng)為我們進(jìn)行了容災(zāi)備份,只需要我們有網(wǎng)絡(luò)可以訪問就可以進(jìn)行如在自己電腦上一樣的用戶體驗(yàn).
隨著電子設(shè)備廣泛應(yīng)用,互聯(lián)網(wǎng)技術(shù)快速發(fā)展,市場(chǎng)商業(yè)運(yùn)營(yíng)模式擴(kuò)大,企業(yè)的數(shù)據(jù)量正在急劇膨脹.海量數(shù)據(jù)的出現(xiàn)使企業(yè)不得不思考海量數(shù)據(jù)的存儲(chǔ)和計(jì)算等.為了解決這種海量數(shù)據(jù)處理問題,包括海量數(shù)據(jù)存儲(chǔ)容量、計(jì)算速度、傳送帶寬及處理成本等等,根據(jù)用戶需求,Amazon等公司提供了云端服務(wù)系統(tǒng).
多副本的產(chǎn)生主要是為了保障不發(fā)生由于硬件故障而引起的數(shù)據(jù)丟失.而現(xiàn)在,面對(duì)復(fù)雜的網(wǎng)絡(luò)環(huán)境下的多副本,不僅僅是為了保證數(shù)據(jù)不丟失,還包括對(duì)數(shù)據(jù)讀寫的訪問速度,數(shù)據(jù)容災(zāi)性及可靠性等方面的考慮.多副本技術(shù)的產(chǎn)生也引起對(duì)一系列針對(duì)多副本管理策略的討論,何時(shí)何地創(chuàng)建副本,怎樣選擇最佳副本并快速定位進(jìn)行訪問,哪些副本可以被刪除廢棄和如何保證副本之問的一致性等技術(shù)問題都在考慮范圍.在傳統(tǒng)的分布式系統(tǒng)中已經(jīng)有很多成熟的多副本管理技術(shù)來應(yīng)對(duì)上述問題.
1、多副本管理
本節(jié)將從多副本傳統(tǒng)的創(chuàng)建技術(shù)、多副本選擇技術(shù)、多副本定位技術(shù)、多副本刪除技術(shù)及多副本一致性保障技術(shù)這5個(gè)方面簡(jiǎn)述現(xiàn)有技術(shù),并將現(xiàn)有的P2P環(huán)境和網(wǎng)格環(huán)境下的多副本管理方法與云環(huán)境下的多副本管理方法比較進(jìn)行簡(jiǎn)要闡述.
1.1多副本創(chuàng)建技術(shù)
副本創(chuàng)建技術(shù)分為靜態(tài)的副本創(chuàng)建和動(dòng)態(tài)副本創(chuàng)建,對(duì)于現(xiàn)在討論及應(yīng)用的最多的動(dòng)態(tài)副本創(chuàng)建的策略.而且無論何種的文件系統(tǒng),策略代價(jià)評(píng)估規(guī)則都必須考慮到運(yùn)行系統(tǒng)負(fù)載、存儲(chǔ)終端效率、網(wǎng)絡(luò)狀況和數(shù)據(jù)副本尺寸大小等物理特性因素,并結(jié)合用戶訪問特征,最終確定此時(shí)是否適合副本的創(chuàng)建并按照放置策略選擇最佳的放置位置.本文也主要討論如何動(dòng)態(tài)的確定創(chuàng)建副本的最佳時(shí)機(jī)、創(chuàng)建副本數(shù)量和副本的放置策略.目前,針對(duì)不同網(wǎng)絡(luò)拓?fù)湟延械母北緞?chuàng)建策略,如表1中所列各種創(chuàng)建策略,其優(yōu)缺點(diǎn)進(jìn)行了對(duì)比.
1)無副本策略:又稱之為緩存策略,就是不產(chǎn)生任何副本.將所有的數(shù)據(jù)都儲(chǔ)存在系統(tǒng)中的某個(gè)節(jié)點(diǎn)上,該節(jié)點(diǎn)可看作是該網(wǎng)格系統(tǒng)層次結(jié)構(gòu)的根節(jié)點(diǎn).在一定的訪問模式下,測(cè)出各種副本策略相應(yīng)的響應(yīng)時(shí)間和帶寬消耗,以無副本策略的參數(shù)值作為參照,比較其他策略的優(yōu)劣.若其他策略產(chǎn)生的參數(shù)值都比該策略的參數(shù)值差,則不予考慮.
2)最佳客戶策略:該策略主要基于對(duì)歷史訪問記錄的統(tǒng)計(jì),在每個(gè)網(wǎng)格節(jié)點(diǎn)詳細(xì)記錄每個(gè)文件訪問歷史詞組,這個(gè)記錄列表詳細(xì)描述節(jié)點(diǎn)對(duì)文件的請(qǐng)求次數(shù)和請(qǐng)求該文件的節(jié)點(diǎn)編號(hào).在該策略中,某節(jié)點(diǎn)在給定的時(shí)間間隔內(nèi)檢查其上是否有文件的訪問次數(shù)超過事先給出的閾值,并找出訪問次數(shù)超過這個(gè)閾值的節(jié)點(diǎn),然后標(biāo)識(shí)該節(jié)點(diǎn)為該文件的最佳客戶,并在該節(jié)點(diǎn)上拷貝一個(gè)副本.生成副本之后,清除該文件在所有節(jié)點(diǎn)上的訪問記錄,然后重復(fù)上述過程,產(chǎn)生下一個(gè)周期的最佳客戶,這必然會(huì)在一定程度上提高數(shù)據(jù)的訪問效率和減少帶寬的消耗.這種復(fù)制策略的副本創(chuàng)建請(qǐng)求由服務(wù)端發(fā)出,在一定時(shí)候不能及時(shí)地反映客戶端的需求,可能會(huì)造成客戶端存儲(chǔ)資源的浪費(fèi)或者存儲(chǔ)資源的不足兩種極端.
3)瀑布式策略:主要針對(duì)具有層次結(jié)構(gòu)的分級(jí)存儲(chǔ)系統(tǒng),利用三級(jí)瀑布思想,系統(tǒng)中根節(jié)點(diǎn)的訪問次數(shù)超過了一定的限額,就在下一層中尋找最佳節(jié)點(diǎn)創(chuàng)建該文件的副本,當(dāng)下一層中對(duì)這個(gè)文件副本的訪問次數(shù)又超過限額,最終在客戶端創(chuàng)建了該文件的副本.這種復(fù)制策略能夠比較合理地將數(shù)據(jù)分布在層次網(wǎng)格結(jié)構(gòu)的各層節(jié)點(diǎn)中,最終實(shí)現(xiàn)系統(tǒng)負(fù)載的均衡性.應(yīng)用到其他的類型的網(wǎng)格拓?fù)浣Y(jié)構(gòu)就有比較大的局限性.
4)普通緩存策略:當(dāng)有文件讀寫請(qǐng)求時(shí),該用戶節(jié)點(diǎn)就在本地拷貝一個(gè)副本.但是針對(duì)于容量很大的大文件請(qǐng)求,就需要客戶節(jié)點(diǎn)有足夠的存儲(chǔ)空間,并且緩存數(shù)據(jù)的更新速度應(yīng)該很快.這樣就對(duì)客戶節(jié)點(diǎn)的存儲(chǔ)空間提出了很高的要求,它是以犧牲客戶節(jié)點(diǎn)的存儲(chǔ)開銷以求系統(tǒng)的高效運(yùn)作.
5)緩存瀑布式策略:這是綜合瀑布式策略和普通緩存策略的優(yōu)點(diǎn)的一種策略,副本文件仍然在客戶節(jié)點(diǎn)本地生成,Master將周期性地標(biāo)識(shí)出熱點(diǎn)文件,即請(qǐng)求次數(shù)超過閾值的文件,并按照級(jí)噴泉策略在最佳客戶路徑上生成各級(jí)節(jié)點(diǎn)副本.這樣可以發(fā)現(xiàn),用戶通常就是網(wǎng)格中的葉子節(jié)點(diǎn).網(wǎng)格中的任一節(jié)點(diǎn)均可以充當(dāng)Master.特殊的情況下,用戶節(jié)點(diǎn)可以充當(dāng)它的相鄰節(jié)點(diǎn)的服務(wù)器.該策略合理地在各個(gè)網(wǎng)格節(jié)點(diǎn)中分布數(shù)據(jù)的同時(shí),實(shí)現(xiàn)了客戶端的快速訪問,以開銷大量的存儲(chǔ)資源為代價(jià).因此,采用該策略時(shí)應(yīng)該權(quán)衡訪問的速度和存儲(chǔ)資源的開銷.
6)快速擴(kuò)展策略:該策略將在從根節(jié)點(diǎn)到客戶節(jié)點(diǎn)路徑上的所有節(jié)點(diǎn)上拷貝副本.就是說當(dāng)一個(gè)客戶需要某個(gè)文件時(shí),根節(jié)點(diǎn)服務(wù)器會(huì)將該文件的副本存儲(chǔ)在到達(dá)客戶節(jié)點(diǎn)所走過路徑上的每一個(gè)節(jié)點(diǎn)上,從而達(dá)到數(shù)據(jù)快速擴(kuò)展的效果.該存儲(chǔ)網(wǎng)格數(shù)據(jù)管理種策略在能夠加快訪問速度和減少帶寬消耗的同時(shí)存儲(chǔ)資源,對(duì)存儲(chǔ)資源提出了更為苛刻的要求,在數(shù)據(jù)網(wǎng)格中每一個(gè)節(jié)點(diǎn)都應(yīng)該有足夠在數(shù)據(jù)訪問速度和存儲(chǔ)資源富余的情況下可以采用該種策略.
7)基于市場(chǎng)應(yīng)用的副本創(chuàng)建策略:應(yīng)不同的需求產(chǎn)生不同的策略,揚(yáng)長(zhǎng)避短.如基于螞蟻算法的文件創(chuàng)建.在考慮絡(luò)帶寬和磁盤讀寫速度等物理因素和存儲(chǔ)代價(jià)和傳輸通信代價(jià)的同時(shí),如何確定最優(yōu)的副本創(chuàng)建路徑.這里的最優(yōu)策略可以是時(shí)間代價(jià)最優(yōu),花費(fèi)代價(jià)最優(yōu)和性價(jià)比指數(shù)最優(yōu).在對(duì)等網(wǎng)絡(luò)中,副本放置算法就是一個(gè)完全意義的NP.再如基于經(jīng)濟(jì)學(xué)模型的復(fù)制策略,按照反向拍賣協(xié)議確定副本創(chuàng)建位置及進(jìn)行副本選擇,它將數(shù)據(jù)傳輸時(shí)間作為拍賣的價(jià)格指標(biāo).該模型在評(píng)估數(shù)據(jù)復(fù)制價(jià)值時(shí)存在這樣的問題:節(jié)點(diǎn)往往根據(jù)自身利益進(jìn)行決策,因而不一定得到全局最佳效益.
1.2多副本定位技術(shù)
多副本定位技術(shù)要求Master通過用戶遞交的特定信息,如數(shù)據(jù)對(duì)象的名字、ID或關(guān)鍵字等,能夠快速準(zhǔn)確地在整個(gè)廣域分布的系統(tǒng)內(nèi)高效找到并返回?cái)?shù)據(jù)對(duì)象的物理位置信息.不同網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)也有不同的副本定位技術(shù).
現(xiàn)在已經(jīng)存在十分成熟的兩種定位策略集中式資源定位和分布式資源定位.集中式資源定位是指系統(tǒng)利用一個(gè)唯一確定的目錄結(jié)構(gòu)作為索引服務(wù)器,目錄中包含當(dāng)前系統(tǒng)中所有共享資源的元數(shù)據(jù)信息,需要定位時(shí)只需到索引服務(wù)器進(jìn)行查詢.這種定位方法理解容易、實(shí)現(xiàn)簡(jiǎn)單、使用方便,但是其擴(kuò)展性和可靠性較差,不適合大型系統(tǒng),特別是大型的網(wǎng)格環(huán)境.而分布式資源定位在系統(tǒng)中建立分布式的索引服務(wù)器,而非集中式管理數(shù)據(jù)信息,其定位方法也可分為多種,如基于分布哈希表的資源定位方法,通過對(duì)節(jié)點(diǎn)間拓?fù)潢P(guān)系以及資源位置的精確控制,可以保證系統(tǒng)中的資源一定能夠通過某種特定的查找方法被找到,并具有較高的查詢效率,其典型的應(yīng)用系統(tǒng)包括OceanStore,CFS和Pastry等.基于無結(jié)構(gòu)的資源定位方法[73的查詢多采用廣播查詢、隨機(jī)轉(zhuǎn)發(fā)和有選擇性轉(zhuǎn)發(fā)等查找算法.該定位方法無需花費(fèi)很大的代價(jià)維護(hù)分布哈希表,但是其查詢效率較低,且并不保證系統(tǒng)中的資源一定能夠被找到,采用無結(jié)構(gòu)資源定位的典型系統(tǒng)包括Gnutella,F(xiàn)reenet和Free Haven等.
在數(shù)據(jù)網(wǎng)格環(huán)境下,討論最多的便是Globus提出的目錄副本服務(wù)的副本定位技術(shù)和基于這種技術(shù)提出的各種改進(jìn)算法,如Globus和歐洲數(shù)據(jù)網(wǎng)格項(xiàng)目聯(lián)合提出的Giggle架構(gòu).Globus的副本定位采用類似于P2P中的集中式目錄結(jié)構(gòu)管理,實(shí)現(xiàn)簡(jiǎn)單,但擴(kuò)展性、可靠性不強(qiáng).另外,歐洲數(shù)據(jù)網(wǎng)格項(xiàng)目組也曾提出的層次式副本定位策略,該策略中所有邏輯文件都在副本目錄的根節(jié)點(diǎn)中出現(xiàn),因此根節(jié)點(diǎn)將非常龐大,可擴(kuò)展性、可靠性和查詢性能都比較差.后來Globus和歐洲數(shù)據(jù)網(wǎng)格項(xiàng)目聯(lián)合提出的Giggle架構(gòu)采用了一個(gè)通用的層次式副本目錄結(jié)構(gòu),在具體應(yīng)用時(shí)需要結(jié)合應(yīng)用的具體特征設(shè)置參數(shù)的取值.通過改變參數(shù)的取值可以改變副本目錄的結(jié)構(gòu)和性能,這項(xiàng)技術(shù)得到了廣泛應(yīng)用.
可見分布式的副本定位方法SRB(Storage resource broker)、Globus這些著名的數(shù)據(jù)網(wǎng)格管理技術(shù)由于它們的副本定位都是采用集中式的目錄,限制了系統(tǒng)的可擴(kuò)展性和可靠性.而很多研究者也在這些的基礎(chǔ)上提出了可擴(kuò)展的分布式副本定位方法凹].力求將副本定位信息平均地分布在多個(gè)索引節(jié)點(diǎn)上,簡(jiǎn)單易實(shí)現(xiàn)且具備動(dòng)態(tài)遷移和可擴(kuò)展的特性.
1.3多副本選擇技術(shù)
副本選擇策略負(fù)責(zé)根據(jù)用戶的要求選擇最佳副本,不同應(yīng)用所對(duì)應(yīng)的副本選擇標(biāo)準(zhǔn)不盡不同,可以是副本的響應(yīng)時(shí)間、副本的可靠性以及訪問代價(jià)等.由于實(shí)際應(yīng)用中網(wǎng)格環(huán)境的動(dòng)態(tài)復(fù)雜性,加之副本較多的情況下,影響副本選擇的因素較多,往往是綜合多種因素進(jìn)行預(yù)測(cè)尋找最優(yōu)解.
1)基于性能模型的預(yù)測(cè):系統(tǒng)對(duì)性能要求十分高時(shí),要通過為數(shù)據(jù)網(wǎng)格系統(tǒng)建立性能模型來對(duì)系統(tǒng)中副本的響應(yīng)時(shí)間進(jìn)行預(yù)測(cè).實(shí)現(xiàn)預(yù)測(cè)的關(guān)鍵在于建立網(wǎng)格系統(tǒng)的性能模型并獲取模型所需的物理參數(shù).但它的缺點(diǎn)是需要訪問大量底層物理設(shè)備的詳細(xì)信息.
2)基于訪問歷史信息的預(yù)測(cè):Master或者Slaves中保存副本訪問的詳細(xì)歷史信息,以此來預(yù)測(cè)副本的響應(yīng)時(shí)間.基于訪問歷史信息的性能預(yù)測(cè)的實(shí)現(xiàn)包括兩個(gè)關(guān)鍵問題:性能度量信息的獲取和基于度量信息的性能預(yù)測(cè).在實(shí)際應(yīng)用中,需要在度量信息量和預(yù)測(cè)的精度之間進(jìn)行有效折中.
1.4多副本刪除技術(shù)
由于副本數(shù)目可能由于訪問量的減少而變得相對(duì)較多,或者副本過多引起網(wǎng)絡(luò)訪問不夠通暢等原因,提出副本刪除策略可以保證存儲(chǔ)空間的優(yōu)化,實(shí)現(xiàn)網(wǎng)絡(luò)性能的提高.無論是通過用戶通知的刪除或者系統(tǒng)根據(jù)副本訪問量的動(dòng)態(tài)刪除,都要在保證數(shù)據(jù)安全一致的情況下執(zhí)行,這樣可以提高存儲(chǔ)資源的利用率.對(duì)于多副本的刪除也有以下幾種策略.
1)延遲刪除:當(dāng)刪除一條被引用的數(shù)據(jù)時(shí),可以利用該技術(shù)實(shí)現(xiàn).原始數(shù)據(jù)被刪除后,并不急于刪除引用它所生成的副本文件,而是當(dāng)再有數(shù)據(jù)要訪問所引用文件時(shí),再進(jìn)行刪除.但一旦副本數(shù)較多,或者有些資源不再被訪問,此方法會(huì)造成存儲(chǔ)資源的嚴(yán)重浪費(fèi).
2)線下刪除:當(dāng)數(shù)據(jù)涉及關(guān)聯(lián)的入口數(shù)據(jù)較多,一旦執(zhí)行起來會(huì)產(chǎn)生很大的系統(tǒng)消耗,就可以采用線下刪除的方法,選擇在系統(tǒng)負(fù)載比較低的時(shí)候觸發(fā)任務(wù).
3)不刪除:如果對(duì)副本生命期限進(jìn)行設(shè)定,在有效期內(nèi),我們并不消耗額外的系統(tǒng)資源去刪除它們.但是隨其使用頻率或者動(dòng)態(tài)策略的調(diào)整,可以對(duì)其有效期時(shí)限進(jìn)行重新設(shè)定.
1.5多副本一致性技術(shù)
數(shù)據(jù)建立副本或者在多用戶同時(shí)讀寫數(shù)據(jù)時(shí),往往會(huì)造成副本狀態(tài)不一致的問題.而為保證副本一致性的CAP性能,我們要求副本具有物理上的一致,即表示同一個(gè)事實(shí)的數(shù)據(jù)應(yīng)相同,也稱數(shù)據(jù)的相容性和邏輯上的一致,即不同數(shù)據(jù)之間業(yè)務(wù)邏輯的一致性.但無論哪種一致,我們都通過數(shù)據(jù)強(qiáng)一致性和數(shù)據(jù)弱一致性兩類來研究數(shù)據(jù)一致性維護(hù)技術(shù).
數(shù)據(jù)強(qiáng)一致性數(shù)據(jù)副本之間保持實(shí)時(shí)的一致性,通過事務(wù)控制和同步復(fù)制執(zhí)行保持各副本在任何時(shí)刻數(shù)據(jù)的絕對(duì)一致.強(qiáng)一致性確保并發(fā)的修改操作不會(huì)發(fā)生沖突,但是過多的副本數(shù)量會(huì)造成副本管理瓶頸,因?yàn)檫^多的副本數(shù)一般是基于過多用戶的訪問,當(dāng)過多用戶并發(fā)請(qǐng)求讀寫數(shù)據(jù)時(shí),系統(tǒng)的可用性、連通性就將受到限制.而且強(qiáng)一致性對(duì)硬件的要求非常高,大量節(jié)點(diǎn)同步幾乎是不可能的.另外,對(duì)分布系統(tǒng)的穩(wěn)定性和連通性要求也比較高,一旦某個(gè)副本不可用則可能導(dǎo)致整個(gè)系統(tǒng)的癱瘓.數(shù)據(jù)弱一致性又被稱作最終一致性,只要在到達(dá)一定條件下保證了各副本數(shù)據(jù)一致即可.可通過現(xiàn)有的異步復(fù)制和數(shù)據(jù)復(fù)制兩種基本復(fù)制技術(shù)來實(shí)現(xiàn)副本進(jìn)行一致性校驗(yàn).與強(qiáng)一致性相比,弱一致性提高了系統(tǒng)包容通信失效和節(jié)點(diǎn)失效的能力.弱一致性是對(duì)復(fù)制算法的最低要求,如果滿足不了最終一致,副本內(nèi)容可能總是保持在“被破壞”的狀態(tài),從而導(dǎo)致放棄該副本甚至整個(gè)系統(tǒng)不可用;其次,弱一致性提供的最終一致性服務(wù)總是盡最大努力在副本之間快速地傳播更新,實(shí)際上對(duì)許多應(yīng)用來講這已經(jīng)足夠了.Amazon云系統(tǒng)S3所使用的就是這種數(shù)據(jù)弱一致性技術(shù).針對(duì)海量數(shù)據(jù)一致性,有人提出了更新一致性維護(hù)策略,用戶更新所訪問的數(shù)據(jù)對(duì)象,并提交到系統(tǒng)中;系統(tǒng)根據(jù)設(shè)計(jì)的一致性維護(hù)方法在多個(gè)副本間進(jìn)行更新傳播;副本按照不同的順序接收更新,然后根據(jù)一定的規(guī)則應(yīng)用更新,最終達(dá)到一致狀態(tài).
2、云環(huán)境下的多副本管理技術(shù)探討
多副本是通過利用物理存儲(chǔ)資源對(duì)數(shù)據(jù)進(jìn)行備份.云環(huán)境下的多副本管理主要是依托于現(xiàn)在新型的云存儲(chǔ)技術(shù),云存儲(chǔ)又是依托于云計(jì)算而發(fā)展出來的.云存儲(chǔ)是將互聯(lián)網(wǎng)上不同結(jié)構(gòu)不同類型的存儲(chǔ)設(shè)備通過應(yīng)用軟件集合起來,利用集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,提供對(duì)外數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問等服務(wù).云存儲(chǔ)可以是指云計(jì)算的存儲(chǔ)部分,即虛擬化的、易于擴(kuò)展的存儲(chǔ)資源池.云存儲(chǔ)也意味著存儲(chǔ)可以作為一種服務(wù),通過網(wǎng)絡(luò)提供給用戶.換句話說,云存儲(chǔ)并非傳統(tǒng)意義上的硬件設(shè)備,而是一種基于硬件存儲(chǔ)資源、網(wǎng)絡(luò)設(shè)備、應(yīng)用軟件和接人口等一系列的復(fù)雜網(wǎng)絡(luò)服務(wù)系統(tǒng).
目前要在云環(huán)境下考慮多副本管理技術(shù)就要綜合云平臺(tái)特性及客戶需求,有不同的策略,如表2中所述,云環(huán)境下要考慮一些額外影響因素.在云環(huán)境下存在多數(shù)據(jù)中心,這種復(fù)雜情況下的數(shù)據(jù)副本管理不僅要依賴于傳統(tǒng)多副本管理方法,還要針對(duì)云環(huán)境下不同應(yīng)用優(yōu)化服務(wù)策略.優(yōu)秀的副本管理策略直接影響用戶體驗(yàn).在海量數(shù)據(jù)云存儲(chǔ)的環(huán)境下的多副本創(chuàng)建問題、選擇策略、動(dòng)態(tài)遷移技術(shù)和多副本一致性的方法討論則成為重點(diǎn)方向.云環(huán)境下的副本選擇則比較復(fù)雜,而且是其他副本管理的基礎(chǔ).它的選擇預(yù)測(cè)直接影響到副本創(chuàng)建時(shí)的放置策略,動(dòng)態(tài)遷移時(shí)遷移哪個(gè)副本,副本一致性檢測(cè)時(shí)使用哪些副本進(jìn)行校驗(yàn).和傳統(tǒng)選擇技術(shù)一樣要考慮地域分布、網(wǎng)絡(luò)負(fù)載均衡等綜合因素對(duì)訪問性能的限制,還要對(duì)訪問歷史記錄的分析決策.
云環(huán)境下的多副本創(chuàng)建主要考慮創(chuàng)建粒度和放置位置.對(duì)于使用云端服務(wù)的用戶,其數(shù)據(jù)量必然是大量的,甚至海量數(shù)據(jù).最初創(chuàng)建副本時(shí),結(jié)合副本選擇預(yù)測(cè)算法預(yù)測(cè)出熱點(diǎn)位置,并創(chuàng)建合理的副本數(shù)量.這可以保證大量的數(shù)據(jù)在多個(gè)數(shù)據(jù)中心的數(shù)據(jù)之間暢通傳輸.
對(duì)于在云環(huán)境下的副本一致性的管理,文獻(xiàn)提出了按照4個(gè)類別的應(yīng)用程序的一致性,根據(jù)他們的閱讀頻率和更新頻率,然后設(shè)計(jì)相應(yīng)的一致性策略.應(yīng)用程序在運(yùn)行時(shí)自動(dòng)選擇最合適的戰(zhàn)略,以實(shí)現(xiàn)一致性,可用性和高性能之間的動(dòng)態(tài)平衡.評(píng)價(jià)結(jié)果表明,該機(jī)制在保證數(shù)據(jù)一致性的同時(shí)還降低了操作帶來的負(fù)載消耗.文獻(xiàn)則提出了一種基于樹的一致性的方法,減小副本服務(wù)器對(duì)于引入云數(shù)據(jù)庫(kù)的部分一致和完全一致的狀態(tài)的依賴關(guān)系.保證從主服務(wù)器到所有副本服務(wù)器都在最可靠路徑上.因此,事務(wù)失敗的概率大大減少,這有助于提高不可靠的網(wǎng)絡(luò)性能和使吞吐量均勻.
云環(huán)境下的動(dòng)態(tài)遷移技術(shù)則更多的是結(jié)合虛擬化技術(shù)應(yīng)用.動(dòng)態(tài)遷移和多副本技術(shù)可以簡(jiǎn)單理解成計(jì)算機(jī)中的剪切與復(fù)制技術(shù).如何選擇合適的節(jié)點(diǎn)做數(shù)據(jù)的容災(zāi)備份或者熱點(diǎn)遷移地址,并且在保證服務(wù)不中斷的情況下迅速進(jìn)行數(shù)據(jù)轉(zhuǎn)移.尤其在云環(huán)境下,用戶會(huì)產(chǎn)生不同的用戶需求,比如實(shí)時(shí)動(dòng)態(tài)遷移過程等,延遲刪除與線下刪除等技術(shù)的結(jié)合使用可以.而且在云環(huán)境下的副本數(shù)據(jù)是海量存儲(chǔ),分布式的文件系統(tǒng)將海量數(shù)據(jù)分割成較為小的數(shù)據(jù),但需要處理的數(shù)據(jù)量依然很大.如果立即刪除會(huì)給系統(tǒng)突發(fā)地帶來相當(dāng)大的負(fù)載,甚至可能會(huì)引起用戶訪問的響應(yīng)率降低的任務(wù).將刪除任務(wù)分割成很多很小的任務(wù),分批地提交給系統(tǒng)定時(shí)線下處理.Aaron等人提出一種彈性云平臺(tái)下的動(dòng)態(tài)遷移技術(shù),有效進(jìn)行非共享事務(wù)實(shí)時(shí)數(shù)據(jù)庫(kù)遷移.文獻(xiàn)提出的一種懶惰更新算法是分隔云的數(shù)據(jù)復(fù)制和數(shù)據(jù)訪問的過程,從而提高數(shù)據(jù)訪問的吞吐量和縮短響應(yīng)時(shí)間.多副本技術(shù)在云環(huán)境下應(yīng)用也更多討論的是副本動(dòng)態(tài)遷移問題,充分利用了上述提到過的幾種技術(shù)策略,綜合性較強(qiáng).
3、云環(huán)境下的多副本管理技術(shù)展望
在云環(huán)境下未來的研究中,多副本管理仍將是討論的重點(diǎn),隨著海量數(shù)據(jù)的出現(xiàn),相信云存儲(chǔ)及云端海量數(shù)據(jù)分析都將遇到挑戰(zhàn).筆者認(rèn)為,在云環(huán)境下,多副本管理可以從以下幾方面進(jìn)行研究:
1)基于云平臺(tái)的數(shù)據(jù)遷移問題.云環(huán)境下對(duì)于數(shù)據(jù)遷移工作的部署,必將是大量數(shù)據(jù)由傳統(tǒng)的數(shù)據(jù)存儲(chǔ)中轉(zhuǎn)移到云存儲(chǔ)中.另外,在云存儲(chǔ)的海量數(shù)據(jù)中,如何備份容災(zāi)和進(jìn)行海量數(shù)據(jù)轉(zhuǎn)移也是很關(guān)鍵的問題.云平臺(tái)下的數(shù)據(jù)庫(kù)管理系統(tǒng)要具有可伸縮、容錯(cuò)和彈性,這樣才能夠保證副本之間可以在不宕機(jī)的情況下進(jìn)行無縫遷移復(fù)制,并且使用戶完全感覺不到.而這項(xiàng)技術(shù)是傳統(tǒng)多副本定位、刪除、一致性保證等技術(shù)融合,對(duì)于云存儲(chǔ)這種海量數(shù)據(jù)的處理以及面對(duì)超級(jí)多的用戶訪問,策略的完善更是刻不容緩.而在云環(huán)境下,無論是云計(jì)算或是云存儲(chǔ)都是基于虛擬化技術(shù)的實(shí)現(xiàn),多副本存儲(chǔ)與虛擬化存儲(chǔ)的配合使用也是云平臺(tái)下多副本管理的研究值得思考的問題.虛擬機(jī)宕機(jī)之后的多副本存放與硬盤存儲(chǔ)設(shè)備的接管,都是遷移技術(shù)的難點(diǎn)所在.單是針對(duì)存儲(chǔ)資源的動(dòng)態(tài)遷移已經(jīng)是現(xiàn)在技術(shù)的難點(diǎn),更值得提出的是對(duì)于云環(huán)境下多副本的處理,動(dòng)態(tài)遷移哪個(gè)副本文件,副本選擇策略放置策略等技術(shù)在遷移過程中的應(yīng)用,更將把這個(gè)云環(huán)境下的副本遷移技術(shù)難度推向一個(gè)新高度.
2)在云環(huán)境下,由于海量級(jí)的數(shù)據(jù)存在多個(gè)副本,對(duì)于像Google的GFS系統(tǒng)和Yahoo!的Hadoop這樣的系統(tǒng),還要將其龐大的數(shù)據(jù)分割存放,其副本的選擇和放置策略則要經(jīng)過精密計(jì)算.如何有效對(duì)碎片式的多副本數(shù)據(jù)進(jìn)行整合調(diào)用將成為未來研究重點(diǎn)之一.海量數(shù)據(jù)的處理已經(jīng)讓技術(shù)人員煞費(fèi)苦心,對(duì)于分布式文件管理系統(tǒng)開發(fā)人員,數(shù)據(jù)的分割策略也是技術(shù)難點(diǎn),而對(duì)于應(yīng)用分布式存儲(chǔ)的云環(huán)境下的海量數(shù)據(jù)多副本管理這個(gè)課題,更將是難上加難.云環(huán)境下的多副本意味著海量數(shù)據(jù)的數(shù)量級(jí)更上一層樓,而數(shù)據(jù)分割分配策略也會(huì)因?qū)嶋H情況底層存儲(chǔ)系統(tǒng)不同而不同.因此,云環(huán)境下的海量分片式多副本管理仍面臨很多技術(shù)挑戰(zhàn).
3)在云環(huán)境下對(duì)多用戶多應(yīng)用的即時(shí)響應(yīng)也是需要深度探討的問題.要求副本粒度隨著用戶數(shù)的變化而動(dòng)態(tài)調(diào)整,使副本數(shù)不至于太多而浪費(fèi)存儲(chǔ)空間,也不會(huì)太少而影響多用戶訪問速度.該刪除副本時(shí)是用哪種刪除策略才不會(huì)影響系統(tǒng)性能.
4)數(shù)據(jù)基于地理位置的感知也十分關(guān)鍵.隨著數(shù)據(jù)量增大,存放數(shù)據(jù)的云朵規(guī)模也越來越大,越來越多的應(yīng)用被部署在不同地理空間上.如何改進(jìn)傳統(tǒng)的放置和選擇多副本策略使之適應(yīng)于云環(huán)境的大規(guī)模數(shù)據(jù)調(diào)用,使副本合理分布在不同的地理空間,以節(jié)省數(shù)據(jù)在傳輸過程的消耗并保證數(shù)據(jù)副本數(shù)容災(zāi)性及可靠性必將是多副本在云存儲(chǔ)平臺(tái)的一個(gè)討論熱點(diǎn).
5)當(dāng)年伴隨云計(jì)算的提出,很多質(zhì)疑聲音也出現(xiàn)了,那就是云安全的問題.對(duì)于云計(jì)算安全的處理一直是云技術(shù)發(fā)展的一個(gè)難點(diǎn).用戶將大量私密數(shù)據(jù)存在云端,而在云環(huán)境下數(shù)據(jù)的多副本策略,既要保證數(shù)據(jù)不被外界截獲盜取,又要保證數(shù)據(jù)一致性無誤保存,又將是云存儲(chǔ)環(huán)境下的技術(shù)難點(diǎn).副本數(shù)目越多,分布范圍越廣,其管理難度就會(huì)越大.,安全性也會(huì)越低.如何在云端對(duì)數(shù)據(jù)的多副本進(jìn)行加密處理等措施是未來云端副本秘密安全性的重點(diǎn).
4、結(jié)束語
云環(huán)境的應(yīng)用已經(jīng)越來越火熱,圍繞云存儲(chǔ)和云計(jì)算的多副本高可靠性、高性能的技術(shù)正在被慢慢挖掘.而云環(huán)境下多副本管理如何繼承傳統(tǒng)分布式存儲(chǔ)系統(tǒng)中的技術(shù)優(yōu)點(diǎn),如何對(duì)于傳統(tǒng)的多副本創(chuàng)建方法、放置技術(shù)、選擇刪除策略及一致性管理等方面進(jìn)行優(yōu)化改進(jìn),針對(duì)不同應(yīng)用,又如何運(yùn)用不同的技術(shù)管理方法實(shí)現(xiàn)云環(huán)境下的多副本管理.目前在云環(huán)境下的多副本管理研究較少.本文全面分析了傳統(tǒng)的多副本管理技術(shù),并針對(duì)在云環(huán)境中所涉及到的多副本管理問題進(jìn)行闡述,分析了不同的網(wǎng)絡(luò)環(huán)境、不同文件系統(tǒng)要求及不同的應(yīng)用需求、多副本管理采用的不同側(cè)重的管理方法.
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.hanmeixuan.com/
本文標(biāo)題:云環(huán)境下多副本管理綜述
本文網(wǎng)址:http://www.hanmeixuan.com/html/consultation/1083972201.html