發布時間:2022-01-19 16:23:25來源:轉載
大數據發展至今,提起大數據計算引擎,Spark一定是不能忽視的一個。經過近年來的發展,Spark在大數據領域的市場占有率也在不斷提升,可以自己獨立支撐集群運行,也可以與Hadoop生態集成運行,因此廣受歡迎。下面和大家講講,Spark在大數據生態當中的定位如何?
早期的大數據,Hadoop框架受到的重用是顯而易見的,而隨著大數據處理新的數據處理需求產生,Hadoop在實時數據流計算上的劣勢開始顯現出來。而Spark正是在這樣的背景下誕生,可以看做是對于Hadoop MapReduce計算框架的替代和改進。
Spark同樣基于分布式集群進行并行計算,完成計算任務,相對于MapReduce,很大的一個改變在于,將原本在磁盤上運行的任務轉移到內存當中來進行,而基于內存計算的效率,相比基于磁盤計算,確實要快得多。
另外,相比于MapReduce固定只支持map和reduce兩種任務類型,Spark繼承了MapReduce的模式,但是支持更多的任務類型,也能適應更多的計算場合。Spark對分布式大數據處理的抽象處理,讓用戶不必像寫MapReduce一樣,太關注底層的實現邏輯,而是在處理層次上投入更多精力。Spark解決的核心問題,是數據計算任務的解決,對于數據存儲以及任務調度,還需要依靠其他工具來執行。
Spark的工作需要配合存儲層,例如Hadoop中的HDFS分布式文件存儲或者MongoDB、Cassandra這類數據庫來完成。同時,它還需要一個集群的管理器,比如YARN、Mesos等用來管理相應的數據處理任務。當然Spark自己也提供集群管理功能,這樣集群的每個節點都需要安裝Spark,用于進行任務的編排。
發展至今,Spark已經形成了相對完備的大數據處理生態,包括Spark ML用來處理基于大量數據的機器學習任務,Spark Streaming用于處理小批量的流式數據等。
Spark在大數據生態當中的定位如何?需要知道的是,Spark作為大數據處理引擎,雖然并不能解決所有環節的問題,但是對于絕大部分問題,都能給出合適的方案,不管是獨立運行還是集成運行,Spark系統的可用性都很高。
更多培訓課程: 深圳大數據 更多學校信息: 深圳龍華達內IT教育培訓 咨詢電話:
雅思 托福 GRE SSAT SAT GMAT ACT 個人提升英語 英語四六級 多鄰國英語測試 詞庫 IB 英語口語 商務英語 公共英語 考研英語 青少兒英語 成人英語 A-Level 學生英語 初高中英語 OSSD AP課程 AEAS個性化定制課程 一級建造師 二級建造師 消防工程師 消防設施操作員 BIM 造價工程師 環評師 監理工程師 咨詢工程師 安全工程師 建筑八大員 公路水運檢測 通信工程 裝配式工程師 注冊電氣工程師 二級注冊建筑師 一級注冊建筑師 智慧消防工程師 智慧建造工程師 全過程工程咨詢師 EPC 碳排放管理師 ACCA CFA 注冊會計師 會計證 初中級經濟師 初級會計師 中級會計師 基金從業 證券從業 稅務師 薪稅師 企業合規師 會計就業實操 期貨從業 FRM CMA CQF 教師資格 人力資源管理 導游考試 心理咨詢師 健康管理師 社會工作師 普通話 育嬰員 物流師 家庭教育指導師 專利代理師 教師招聘 兒童專注力 兒童情緒管理 法律職業資格 少兒編程 書法培訓 國畫 茶藝 樂器音樂 舞蹈 棋類 機器人編程 戲曲培訓 信奧賽C++ 少兒小主播 口才培訓 籃球培訓 商務辦公 影視后期 剪輯包裝 游戲設計 游戲程序 UI設計 室內設計 photoshop CAD制圖 視覺設計 商業空間設計 平面設計