西安大數據基礎培訓 2023-03-24 17:27:10

為學員設置大數據基礎培訓班,了解大數據業內最新發展趨勢,深入掌握Hadoop的原理,學習掌握Hive工具,分布式協調系統Zookeeper的基本原理,應用場景,掌握基本的編程技能,深入掌握Spark。
本課程以Java語言為基礎,從大數據的概念開始,講解大數據中常用的組件,HDFS數據存儲,MapReduce離線計算框架,yarn,Hbase、ZooKeeper,Hive,Spark大數據實時處理,Flume和sqooq、Kafka,Flink流批一體分布式實時處理引擎,ElasticSearch分布式全文檢索,Redis內存數據庫。
1.有Java編程語言基礎
2.有數據庫基礎
3.了解計算機基本操作,掌握一般文字輸入和處理的基礎知識;
天:大數據技術基礎
內容一:大數據基礎
1.什么是大數據
2.大數據技術的產生背景
3.大數據應用場景
4.大數據思維
5.大數據產業鏈
6.大數據是如何變革各行業的技術架構、商業模式
7.國內外主流的大數據解決方案介紹
8.當前大數據解決方案與傳統數據庫方案的剖析比較
9.開源的大數據生態系統平臺剖析
內容二:Linux集群
1.Linux操作系統知識
2.Linux網絡配置管理
3.Linux的x86服務器集群管理
內容三:Hadoop大數據平臺
1.Hadoop的發展歷程以及產業界的實際應用介紹
2.Hadoop大數據平臺架構
3.基于Hadoop平臺的PB級大數據存儲管理
4.分析處理的工作原理與機制
5.Hadoop的核心組件剖析
第二天:HDFS
內容一:HDFS
1.分布式文件系統HDFS的簡介
2.HDFS系統的主從式平臺架構和工作原理
3.HDFS核心組件技術講解
4.HDFS NameNode的工作機制和元數據管理設計
5.HDFS DataNode的數據存儲機制設計
6.HDFS的副本機制設計
7.HDFS的可靠性機制設計
8.HDFS的I/O存取技術應用
9.基于HDFS的大型存儲系統應用開發實戰
10.HDFS集群的安裝、部署、配置與性能優化實踐
11.分布式鍵值存儲系統的平臺架構、核心技術以及應用開發
12.PB及大數據存儲系統的項目案例分析
第三天:MapReduce與Yarn、ZooKeeper
內容一:MapReduce與Yarn技術實踐
1.MapReduce并行計算模型
2.MapReduce作業執行與調度技術
3.第二代大數據處理框架Yarn的并行處理實戰
4.MapReduce應用開發環境的部署,以及大數據并行處理應用程序開發
5.MapReduceLevel 5編程技巧與性能優化實踐
6.MapReduce與Yarn大數據分析處理案例分析
內容二:ZooKeeper分布式協調服務
1.ZooKeeper分布式協調服務系統的工作原理、平臺架構、集群部署應用實戰
2.ZooKeeper集群的原理架構,以及應用配置
3.部署與配置ZooKeeper分布式集群
第四天:Hbase
內容:Hbase
4.NoSQL數據庫與NewSQL數據庫技術概述
5.HBase分布式數據庫簡介
6.HBase分布式數據庫集群的主從式平臺架構和關鍵技術剖析
7.HBase偽分布式和物理集群分布式的控制與運行配置
8.HBase的邏輯數據模型,HBase的表、行、列族、列、單元格、版本、row key排序
9.HBase的物理模型,命名空間(表空間)、表模式(Schema)的設計法則
10.HBase主節點HMaster的工作原理,HMaster的高可用配置,以及性能調優
11.HBase從節點RegionServer(分區服務節點)的工作原理,表分區及存儲I/O高并發配置,以及性能調優
12.HBase的存儲引擎工作原理,以及HBase表數據的鍵值存儲結構,以及HFile存儲結構
13.HBase表設計與數據操作以及數據管理操作
14.HBase集群安裝部署、參數配置和性能優化
15.HBase的元數據管理,以及與ZooKeeper的交互機制
16.HBase集群的運維與監控管理,以及常見故障的解決之道
第五天:大型數據倉庫Hive集群平臺
內容:Hive
1.數據倉庫概述
2.Hive大數據倉庫簡介以及應用介紹
3.Hive Server的工作原理、機制與應用
4.Hive數據倉庫集群的安裝部署與配置優化
5.Hive應用開發技巧
6.Hive SQL剖析與應用實踐
7.Hive數據倉庫表與表分區、表操作、數據導入導出、客戶端操作技巧
8.Hive數據倉庫報表設計
第六天:Scala
內容:Scala應用基礎
1.Scala基礎語法
2.數據類型
3.變量
4.循環
5.函數
6.數組
7.類和對象
8.模式匹配
文件讀寫
第七天:Spark大數據實時處理
內容一:Spark大數據實時處理平臺剖析
1.Spark的發展歷程以及業界的實際應用介紹
2.Spark實時大數據處理平臺架構
3.Spark RDD內存彈性分布式數據集的工作原理與機制
4.Spark的核心組件剖析
5.基于Spark的應用實踐案例
內容二:Spark應用基礎
1.Spark的實時處理基礎知識
2.Spark生態系統概述以及發展歷程
3.Spark在處理實時數據場景下的優勢和處理模式
4.Spark內存計算編程框架
5.Spark Core的基礎原理
6.Spark SQL的基礎原理
7.Spark Streaming的基礎原理
8.Spark在業界的實際應用場景與相關案例簡介
第八天:Flume和sqooq
內容一:Flume海量日志聚合
1.Flume簡介及架構
2.Flume關鍵特性介紹
3.Flume應用
內容二:sqooq數據轉換
1.sqooq簡介
2.sqooq作業管理
3.sqooq應用
內容三:Oozie
4.Oozie簡介及架構
5.Oozie工作流
6.Oozie應用
第九天:Kafka
內容:Kafka分布式消息訂閱系統
1.Kafka簡介
2.Kafka架構與功能
3.Kafka關鍵流程
4.Kafka應用
第十天:Flink流處理引擎
內容:Flink實時處理
1.Flink原理架構
2.Flink的Time和Window機制
3.Flink的Watermark機制
4.Flink的容錯與狀態管理
第十一天:ElasticSearch和Redis
內容一:ElasticSearch分布式全文檢索
1.ElasticSearch簡介
2.ElasticSearch系統架構
3.ElasticSearch關鍵特性
內容二:Redis內存數據庫
1.Redis應用場景
2.Redis業務流程
3.Redis特性及數據類型
4.Redis的優化
5.Redis案例應用
了解大數據業內最新發展趨勢,深入掌握Hadoop的原理,Hadoop生態系統
深入學習yarn框架下的MapReduce,掌握MapReduce研發
掌握HDFS開發
了解Hadoop集群規劃,應用案例解析
列式數據庫HBase的基本原理,應用場景,掌握基本的編程技巧
掌握主流的實時處理引擎F ink
學習掌握Hive工具,分布式協調系統Zookeeper的基本原理,應用場景,掌握基本的編程技能
深入掌握Spark