第八周 10-20 大數(shù)據(jù)繼續(xù)學習 運用在 模具展覽中
今天 10-20 ,還是 1小時 車程, 最終停車過來, 已經(jīng) 9點 了 。
上午 zookeepper , 下午 spark ,
10:30 開始, 之前一直在討論
HDFS 高可用 是使用 ZOOKEEPER
這個還是對應的 KAFKA里面也能用 Zookeeper
下面的是盧老師講的
-------- 下午開始 ,復習 zookeeper 的內容, 僅僅是一種服務包, 并不是語言, spark 也是一個運用包。
主要是為了, 等待出問題的時候, 才進行重新選領導,以及重新廣播的應急辦法就是 zookeeper 。
大數(shù)據(jù)組件原理總結-Hadoop、Hbase、Kafka、Zookeeper、Spark
Hadoop原理
分為HDFS與Yarn兩個部分。HDFS有Namenode和Datanode兩個部分。
HBase原理
Hbase是列存儲數(shù)據(jù)庫。其存儲的組織結構就是將相同的列族存儲在一起,因此得名的。
Zookeeper原理
Zookeeper是一個資源管理庫,對節(jié)點進行協(xié)調、通信、失敗處理、節(jié)點損壞的處理等,是一個無中心設計,主節(jié)點通過選舉產生。
Kafka原理
Kafka是分布式發(fā)布-訂閱消息系統(tǒng)。
Spark原理
spark 可以很容易和yarn結合,直接調用HDFS、Hbase上面的數(shù)據(jù),和hadoop結合。
應用場景:集群管理
Hbase Master選舉則是zookeeper經(jīng)典的使用場景;
Storm集群管理
Zookeeper通過維護一個分布式目錄數(shù)據(jù)結構,實現(xiàn)分布式協(xié)調服務
利用Zookeeper有序目錄的創(chuàng)建和刪除,實現(xiàn)分布式共享鎖。
------------下午 4:20 開始學習 Spark 2009年誕生于apache 一站式的批處理,實時流處理
Spark生態(tài)系統(tǒng)已經(jīng)發(fā)展成為一個包含多個子項目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子項目,Spark是基于內存計算的大數(shù)據(jù)并行計算框架,提高了在大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的實時性,同時保證了高容錯性和高可伸縮性,允許用戶將Spark部署在大量廉價硬件之上,形成集群。
使用的語言是Scala,項目的core部分的代碼只有63個Scala文件,非常短小精悍。
Spark 是在 Scala 語言中實現(xiàn)的,它將 Scala 用作其應用程序框架。
與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。
Spark 4大特性