一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

站長之家,中國草根站長新聞、建站經驗、素材資源交流平臺!
分類導航

站長新聞|網站運營|建站經驗|網站優化|站長資源|站長源碼|

服務器之家 - 站長之家 - 建站經驗 - 簡要了解Hadoop集群技術與Spark集群技術的對比

簡要了解Hadoop集群技術與Spark集群技術的對比

2020-06-17 18:02InfoQ謝麗 建站經驗

這篇文章主要介紹了Hadoop集群技術與Spark集群技術的對比,Hadoop與Spark都是當前云計算與大數據管理中的高人氣產品,Spark的性能表現更為出眾,需要的朋友可以參考下

Hadoop:分布式批處理計算,強調批處理,常用于數據挖掘、分析。

Spark:是一個基于內存計算的開源的集群計算系統,目的是讓數據分析更加快速, Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。

Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。

盡管創建 Spark 是為了支持分布式數據集上的迭代作業,但是實際上它是對 Hadoop 的補充,可以在 Hadoop 文件系統中并行運行。通過名為Mesos的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms,Machines,and People Lab) 開發,可用來構建大型的、低延遲的數據分析應用程序。

雖然 Spark 與 Hadoop 有相似之處,但它提供了具有有用差異的一個新的集群計算框架。首先,Spark 是為集群計算中的特定類型的工作負載而設計,即那些在并行操作之間重用工作數據集(比如機器學習算法)的工作負載。為了優化這些類型的工作負載,Spark 引進了內存集群計算的概念,可在內存集群計算中將數據集緩存在內存中,以縮短訪問延遲.

在大數據處理方面相信大家對hadoop已經耳熟能詳,基于GoogleMap/Reduce來實現的Hadoop為開發者提供了map、reduce原語,使并行批處理程序變得非常地簡單和優美。Spark提供的數據集操作類型有很多種,不像Hadoop只提供了Map和Reduce兩種操作。比如map,filter, flatMap,sample, groupByKey, reduceByKey, union,join, cogroup,mapValues, sort,partionBy等多種操作類型,他們把這些操作稱為Transformations。同時還提供Count,collect, reduce, lookup, save等多種actions。這些多種多樣的數據集操作類型,給上層應用者提供了方便。各個處理節點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名,物化,控制中間結果的分區等。可以說編程模型比Hadoop更靈活.

Hadoop和Spark均是大數據框架,都提供了一些執行常見大數據任務的工具。但確切地說,它們所執行的任務并不相同,彼此也并不排斥。雖然在特定的情況下,Spark據稱要比Hadoop快100倍,但它本身沒有一個分布式存儲系統。而分布式存儲是如今許多大數據項目的基礎。它可以將PB級的數據集存儲在幾乎無限數量的普通計算機的硬盤上,并提供了良好的可擴展性,只需要隨著數據集的增大增加硬盤。因此,Spark需要一個第三方的分布式存儲。也正是因為這個原因,許多大數據項目都將Spark安裝在Hadoop之上。這樣,Spark的高級分析應用程序就可以使用存儲在HDFS中的數據了。

與Hadoop相比,Spark真正的優勢在于速度。Spark的大部分操作都是在內存中,而Hadoop的MapReduce系統會在每次操作之后將所有數據寫回到物理存儲介質上。這是為了確保在出現問題時能夠完全恢復,但Spark的彈性分布式數據存儲也能實現這一點。

另外,在高級數據處理(如實時流處理和機器學習)方面,Spark的功能要勝過Hadoop。在Bernard看來,這一點連同其速度優勢是Spark越來越受歡迎的真正原因。實時處理意味著可以在數據捕獲的瞬間將其提交給分析型應用程序,并立即獲得反饋。在各種各樣的大數據應用程序中,這種處理的用途越來越多,比如,零售商使用的推薦引擎、制造業中的工業機械性能監控。Spark平臺的速度和流數據處理能力也非常適合機器學習算法。這類算法可以自我學習和改進,直到找到問題的理想解決方案。這種技術是最先進制造系統(如預測零件何時損壞)和無人駕駛汽車的核心。Spark有自己的機器學習庫MLib,而Hadoop系統則需要借助第三方機器學習庫,如Apache Mahout。

實際上,雖然Spark和Hadoop存在一些功能上的重疊,但它們都不是商業產品,并不存在真正的競爭關系,而通過為這類免費系統提供技術支持贏利的公司往往同時提供兩種服務。例如,Cloudera就既提供Spark服務也提供Hadoop服務,并會根據客戶的需要提供最合適的建議。

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 国产好深好硬好爽我还要视频 | 大陆男男gayxxxxvideo | 日韩福利网站 | 男人操女人免费视频 | 久久视频在线视频观看精品15 | 含羞草传媒网站免费进入欢迎 | 猛操美女| 日韩精品一区二区三区免费视频 | aaa在线| 精品日本一区二区 | uoco福利姬网站 | 欧美3d怪物交videos网站 | 欧美国产高清 | 午夜在线观看免费完整直播网页 | 日韩伦理在线看 | a男人的天堂久久a毛片 | 韩国理论三级在线观看视频 | 亚洲日本中文字幕天堂网 | 娇妻在床上迎合男人 | 国产日本久久久久久久久婷婷 | 91亚洲精品丁香在线观看 | 亚洲 欧美 制服 校园 动漫 | 睡男神的这件小事小说在线阅读 | 精品日韩一区 | 非洲黑人bbwbbwbbw | 色人阁小说 | 国产亚洲综合成人91精品 | 偷偷狠狠的日日高清完整视频 | 小柔的性放荡羞辱日记 | 小SAO货叫大声点妓女 | yellow高清免费观看日本 | 日韩亚洲人成网站在线播放 | 美女尿口照片 | 国产精品一区二区三区免费视频 | 色老板在线免费视频 | 虎四免费入口 | 欧美伊香蕉久久综合类网站 | 国产真实乱子伦xxxxchina | 9久re热视频这里只有精品 | 日韩丝袜在线观看 | 日韩在线免费看 |