“大數(shù)據(jù)不是炒作,也不是泡沫。Hadoop在未來將繼續(xù)追隨谷歌的腳步。”Hadoop的創(chuàng)造者兼Apache Hadoop項目創(chuàng)始人Doug Cutting近日表示。
作為一個批處理計算引擎,Apache Hadoop是大數(shù)據(jù)核心的開源軟件框架。有一種說法是,Hadoop并不適用于真正實時數(shù)據(jù)可見性所需要的在線互動數(shù)據(jù)處理。事實是這樣的嗎?Hadoop的創(chuàng)造者兼Apache Hadoop項目創(chuàng)始人(現(xiàn)任Cloudera公司首席架構(gòu)師)Doug Cutting說:“相信Hadoop擁有一個超越批處理的未來。”
“批處理有其用武之地。例如,你需要移動大量數(shù)據(jù)并分析所有數(shù)據(jù)的時候。但我仍認(rèn)為,人們真正想要的是批處理和在線計算的結(jié)合體。Hadoop將會成為企業(yè)未來主流數(shù)據(jù)處理系統(tǒng)的內(nèi)核。” Cutting說。
Hadoop行至何處?
在剛剛結(jié)束的Strata Conference+Hadoop World會議上,Cutting解釋了Hadoop堆棧的核心思想,以及其未來的發(fā)展方向。“Hadoop被看作是一個批處理計算引擎,事實上,這是我們開始的地方(結(jié)合MapReduce)。MapReduce是一個很棒的工具,目前市場上有很多關(guān)于如何在MapReduce上部署各種算法的書籍。”Cutting說。
MapReduce是一個編程模型,由谷歌公司設(shè)計,用于使用分布式計算批量并行處理海量數(shù)據(jù)。MapReduce得到一個輸入,然后將其分成很多更小的子問題,這些問題被分配到不同節(jié)點來并行處理。然后,它們重新組合子問題的答案以形成輸出。
“這是非常有效的,”Cutting表示,“它允許你把計算移向數(shù)據(jù)。這樣一來,當(dāng)你處理數(shù)據(jù)時就不需要到處復(fù)制數(shù)據(jù),并且它還形成了一個共享平臺。構(gòu)建分布式系統(tǒng)是一個復(fù)雜的過程,所以我們不希望反反復(fù)復(fù)重新部署它。MapReduce被證明是一個堅實的基礎(chǔ),依托MapReduce開發(fā)出了很多工具,例如 Pig和Hive。”
Hadoop關(guān)鍵特性
為了證明Hadoop大數(shù)據(jù)平臺的通用性,Cutting描述了他所認(rèn)為的Hadoop的兩個核心主題。首先,Hadoop平臺具有很好的可擴(kuò)展性,不僅適用于存儲在內(nèi)存中的小數(shù)據(jù)集,還能夠擴(kuò)展到處理龐大的數(shù)據(jù)集。
“評估可擴(kuò)展性的一個關(guān)鍵因素是經(jīng)濟(jì)承受能力。我們在通用硬件平臺上運(yùn)行是因為它允許你進(jìn)一步地擴(kuò)展。如果你可以購買10倍的存儲量,那么就可以存儲10倍的數(shù)據(jù)量。所以,經(jīng)濟(jì)承受能力是關(guān)鍵,這也是我們使用通用硬件的原因,因為它是最經(jīng)濟(jì)實惠的平臺。”Cutting說。
Hadoop另一個關(guān)鍵特性在于開源。Cutting指出,開源軟件是非常實惠的。開發(fā)者可以向供應(yīng)商付費,但是為了他們所提供的價值而付費。開發(fā)者不需要年復(fù)一年地付費,隨著時間的推移,供應(yīng)商需要通過向你提供價值來贏得開發(fā)者的信任和信心。此外,對于Hadoop而言,用戶可以以原始的形態(tài)保存數(shù)據(jù),然后,當(dāng)你使用數(shù)據(jù)時,再使用不同的模式。
大數(shù)據(jù)領(lǐng)域另一種流行的做法是,在通常情況下,與更聰明的算法相比,分析更多的數(shù)據(jù)能夠幫助你更好地了解你的問題。也就是說,你應(yīng)該花更多的時間來收集數(shù)據(jù),而不是調(diào)整較小數(shù)據(jù)集所采用的算法。直觀地說,這很像是具有更高分辨率的圖像,如果你試圖分析圖片,你應(yīng)該選擇放大高分辨率圖片,而不是低分辨率圖像。
Cutting還指出,批處理并不算是Hadoop的典型特性。例如,仿效谷歌BigTable的HBase是Hadoop堆棧的一部分,它已經(jīng)成為非常成功的開源非關(guān)系型分布式數(shù)據(jù)庫。HBase是一個在線計算系統(tǒng),而不是批處理計算系統(tǒng)。
“HBase 也支持批處理,它與HDFS以及Hadoop堆棧的其他組件共享存儲。我認(rèn)為這也是HBase如此受歡迎的原因之一。HBase被整合到系統(tǒng)的其他部分中,而不是成為一個獨立的系統(tǒng)。它可以與堆棧的其他組件進(jìn)行共享,可以對可用性、安全性和災(zāi)難恢復(fù)等特性進(jìn)行共享。”Cutting解釋說。
技術(shù)未來展望
如果Hadoop不僅僅是批處理計算平臺,而是成為一個更為通用的數(shù)據(jù)處理平臺,它將會變成什么樣,它到底將走向何方?Cutting表示,我們當(dāng)然希望擁有開源的大數(shù)據(jù)平臺,并且能夠在通用硬件上運(yùn)行。同時,我們還希望它具有線性擴(kuò)展能力,也就是說,如果你需要存儲10倍數(shù)據(jù),只需要購買10倍的硬件就可以了。無論你的數(shù)據(jù)集變得有多大,都可以采用這樣的方式進(jìn)行擴(kuò)展。
性能方面同樣是如此。對于批處理性能,如果你需要更大的批處理吞吐量或更小的延遲,你只需要增加硬件數(shù)量即可。而對于交互式查詢,也是同樣。增加硬件就能為你帶來性能和數(shù)據(jù)處理量級方面的線性擴(kuò)展。Cutting還表示:“人們通常會認(rèn)為,采用大數(shù)據(jù)平臺后,需要放棄某些東西。我不這樣認(rèn)為的。從長期來看,我們不需要放棄任何的功能。”
對于Hadoop未來的技術(shù)發(fā)展方向,Cutting表示谷歌已經(jīng)給出了相關(guān)路線圖。“谷歌發(fā)布GFS和MapReduce的論文后,我們很快地將其復(fù)制到Hadoop項目中。這些年以來,谷歌在很多方面激勵著Hadoop開源堆棧。谷歌的Sawzall系統(tǒng)催生了Pig和Hive,而BigTable則直接啟發(fā)了HBase。我很激動地看到,今年谷歌發(fā)表了名為Spanner的論文,其中介紹了在分布式數(shù)據(jù)庫系統(tǒng)實現(xiàn)傳輸?shù)臋C(jī)制。可能很多人都會認(rèn)為這不會很快成為現(xiàn)實,但卻為我們指明了前進(jìn)的方向。”Cutting說。
Cutting指出,作為一項復(fù)雜技術(shù),Spanner并不會很快成為Hadoop的一部分,但它確實明確了技術(shù)發(fā)展的方向。他同時還提到了Impala(Cloudera最新發(fā)布的數(shù)據(jù)庫引擎),它可以使用SQL查詢存儲在HBase中的數(shù)據(jù)集。 Impala將為用戶帶來交互式在線查詢的新體驗,它同樣追隨了谷歌的一些研究成果,已經(jīng)發(fā)布了一段時間。Cutting認(rèn)為,Impala將發(fā)展成為一個通用的技術(shù)平臺。
“我們已經(jīng)知曉前進(jìn)方向,并且知道如何去實現(xiàn)目標(biāo)。所以,我鼓勵大家現(xiàn)在就開始使用Hadoop,因為在未來你將收獲更多。”Cutting說。
“大數(shù)據(jù)不是炒作,也不是泡沫。Hadoop在未來將繼續(xù)追隨谷歌的腳步。”Hadoop的創(chuàng)造者兼Apache Hadoop項目創(chuàng)始人Doug Cutting近日表示。
作為一個批處理計算引擎,Apache Hadoop是大數(shù)據(jù)核心的開源軟件框架。有一種說法是,Hadoop并不適用于真正實時數(shù)據(jù)可見性所需要的在線互動數(shù)據(jù)處理。事實是這樣的嗎?Hadoop的創(chuàng)造者兼Apache Hadoop項目創(chuàng)始人(現(xiàn)任Cloudera公司首席架構(gòu)師)Doug Cutting說:“相信Hadoop擁有一個超越批處理的未來。”
“批處理有其用武之地。例如,你需要移動大量數(shù)據(jù)并分析所有數(shù)據(jù)的時候。但我仍認(rèn)為,人們真正想要的是批處理和在線計算的結(jié)合體。Hadoop將會成為企業(yè)未來主流數(shù)據(jù)處理系統(tǒng)的內(nèi)核。” Cutting說。
Hadoop行至何處?
在剛剛結(jié)束的Strata Conference+Hadoop World會議上,Cutting解釋了Hadoop堆棧的核心思想,以及其未來的發(fā)展方向。“Hadoop被看作是一個批處理計算引擎,事實上,這是我們開始的地方(結(jié)合MapReduce)。MapReduce是一個很棒的工具,目前市場上有很多關(guān)于如何在MapReduce上部署各種算法的書籍。”Cutting說。
MapReduce是一個編程模型,由谷歌公司設(shè)計,用于使用分布式計算批量并行處理海量數(shù)據(jù)。MapReduce得到一個輸入,然后將其分成很多更小的子問題,這些問題被分配到不同節(jié)點來并行處理。然后,它們重新組合子問題的答案以形成輸出。
“這是非常有效的,”Cutting表示,“它允許你把計算移向數(shù)據(jù)。這樣一來,當(dāng)你處理數(shù)據(jù)時就不需要到處復(fù)制數(shù)據(jù),并且它還形成了一個共享平臺。構(gòu)建分布式系統(tǒng)是一個復(fù)雜的過程,所以我們不希望反反復(fù)復(fù)重新部署它。MapReduce被證明是一個堅實的基礎(chǔ),依托MapReduce開發(fā)出了很多工具,例如 Pig和Hive。”
Hadoop關(guān)鍵特性
為了證明Hadoop大數(shù)據(jù)平臺的通用性,Cutting描述了他所認(rèn)為的Hadoop的兩個核心主題。首先,Hadoop平臺具有很好的可擴(kuò)展性,不僅適用于存儲在內(nèi)存中的小數(shù)據(jù)集,還能夠擴(kuò)展到處理龐大的數(shù)據(jù)集。
“評估可擴(kuò)展性的一個關(guān)鍵因素是經(jīng)濟(jì)承受能力。我們在通用硬件平臺上運(yùn)行是因為它允許你進(jìn)一步地擴(kuò)展。如果你可以購買10倍的存儲量,那么就可以存儲10倍的數(shù)據(jù)量。所以,經(jīng)濟(jì)承受能力是關(guān)鍵,這也是我們使用通用硬件的原因,因為它是最經(jīng)濟(jì)實惠的平臺。”Cutting說。
Hadoop另一個關(guān)鍵特性在于開源。Cutting指出,開源軟件是非常實惠的。開發(fā)者可以向供應(yīng)商付費,但是為了他們所提供的價值而付費。開發(fā)者不需要年復(fù)一年地付費,隨著時間的推移,供應(yīng)商需要通過向你提供價值來贏得開發(fā)者的信任和信心。此外,對于Hadoop而言,用戶可以以原始的形態(tài)保存數(shù)據(jù),然后,當(dāng)你使用數(shù)據(jù)時,再使用不同的模式。
大數(shù)據(jù)領(lǐng)域另一種流行的做法是,在通常情況下,與更聰明的算法相比,分析更多的數(shù)據(jù)能夠幫助你更好地了解你的問題。也就是說,你應(yīng)該花更多的時間來收集數(shù)據(jù),而不是調(diào)整較小數(shù)據(jù)集所采用的算法。直觀地說,這很像是具有更高分辨率的圖像,如果你試圖分析圖片,你應(yīng)該選擇放大高分辨率圖片,而不是低分辨率圖像。
Cutting還指出,批處理并不算是Hadoop的典型特性。例如,仿效谷歌BigTable的HBase是Hadoop堆棧的一部分,它已經(jīng)成為非常成功的開源非關(guān)系型分布式數(shù)據(jù)庫。HBase是一個在線計算系統(tǒng),而不是批處理計算系統(tǒng)。
“HBase 也支持批處理,它與HDFS以及Hadoop堆棧的其他組件共享存儲。我認(rèn)為這也是HBase如此受歡迎的原因之一。HBase被整合到系統(tǒng)的其他部分中,而不是成為一個獨立的系統(tǒng)。它可以與堆棧的其他組件進(jìn)行共享,可以對可用性、安全性和災(zāi)難恢復(fù)等特性進(jìn)行共享。”Cutting解釋說。
技術(shù)未來展望
如果Hadoop不僅僅是批處理計算平臺,而是成為一個更為通用的數(shù)據(jù)處理平臺,它將會變成什么樣,它到底將走向何方?Cutting表示,我們當(dāng)然希望擁有開源的大數(shù)據(jù)平臺,并且能夠在通用硬件上運(yùn)行。同時,我們還希望它具有線性擴(kuò)展能力,也就是說,如果你需要存儲10倍數(shù)據(jù),只需要購買10倍的硬件就可以了。無論你的數(shù)據(jù)集變得有多大,都可以采用這樣的方式進(jìn)行擴(kuò)展。
性能方面同樣是如此。對于批處理性能,如果你需要更大的批處理吞吐量或更小的延遲,你只需要增加硬件數(shù)量即可。而對于交互式查詢,也是同樣。增加硬件就能為你帶來性能和數(shù)據(jù)處理量級方面的線性擴(kuò)展。Cutting還表示:“人們通常會認(rèn)為,采用大數(shù)據(jù)平臺后,需要放棄某些東西。我不這樣認(rèn)為的。從長期來看,我們不需要放棄任何的功能。”
對于Hadoop未來的技術(shù)發(fā)展方向,Cutting表示谷歌已經(jīng)給出了相關(guān)路線圖。“谷歌發(fā)布GFS和MapReduce的論文后,我們很快地將其復(fù)制到Hadoop項目中。這些年以來,谷歌在很多方面激勵著Hadoop開源堆棧。谷歌的Sawzall系統(tǒng)催生了Pig和Hive,而BigTable則直接啟發(fā)了HBase。我很激動地看到,今年谷歌發(fā)表了名為Spanner的論文,其中介紹了在分布式數(shù)據(jù)庫系統(tǒng)實現(xiàn)傳輸?shù)臋C(jī)制。可能很多人都會認(rèn)為這不會很快成為現(xiàn)實,但卻為我們指明了前進(jìn)的方向。”Cutting說。
Cutting指出,作為一項復(fù)雜技術(shù),Spanner并不會很快成為Hadoop的一部分,但它確實明確了技術(shù)發(fā)展的方向。他同時還提到了Impala(Cloudera最新發(fā)布的數(shù)據(jù)庫引擎),它可以使用SQL查詢存儲在HBase中的數(shù)據(jù)集。 Impala將為用戶帶來交互式在線查詢的新體驗,它同樣追隨了谷歌的一些研究成果,已經(jīng)發(fā)布了一段時間。Cutting認(rèn)為,Impala將發(fā)展成為一個通用的技術(shù)平臺。
“我們已經(jīng)知曉前進(jìn)方向,并且知道如何去實現(xiàn)目標(biāo)。所以,我鼓勵大家現(xiàn)在就開始使用Hadoop,因為在未來你將收獲更多。”Cutting說。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.hanmeixuan.com/
本文標(biāo)題:Hadoop之父勾勒大數(shù)據(jù)平臺未來
本文網(wǎng)址:http://www.hanmeixuan.com/html/consultation/1083975573.html