大數據開發工程師需要學習哪些知識點
發布時間:2020-09-04 14:37:40 已幫助:212人 來源:鄭州達內教育
大數據開發工程師是近年來的熱門行業,很多人都想要從事大數據行業,但是新手學員都對于大數據應該學習哪些知識不太了解,那么大數據開發工程師需要學習哪些知識點呢?本文為大家做詳細的內容介紹。
大數據的起源和分類來深度解析大數據的起源和發展形態;云計算、人工智能。區塊鏈等相關產業入手分析大數據與各大相關領域的關系;大數據管理系統架構、存儲技術、書屋處理技術風方面詳盡的講解了大數據管理技術;電子商務、金融、行為等方面舉例分析大數據的應用。從理論到實際案例幫助學員形成大數據初期思維。
二、數據平臺
從大數據平臺架構的演變、大數據平臺的典型流程入手解析什么是大數據平臺;從CAP原理、C10K問題,ACID vs BASE等方面分析大數據平臺的設計考量;再從數據采集、數據存儲、數據計算等方面以理論加實際案例的課程形式幫助學員深刻的理解大數據平臺的應用。
三、數據存儲HDFS
大數據的核心技術:數據存儲,主要內容涵蓋:分布式文件系統、常用日志文件系統結構、Hadoop安裝與運行環境測試、HDFS讀寫操作、海量數據存儲常見解決方案等,旨在幫助學員建立數據存儲知識體系結構,掌握常用數據存儲方式,能夠編寫常用讀寫操作代碼,并具備海量數據處理框架設計能力。
四、日志解析及計算MR
從實戰化的日志解析切入,MapReduce是基于Hadoop大數據技術的入門技能詳細解刨MapReduce的各個環節,帶領學員靈活定制高性能的MapReduce程序。旨在幫助學員能舉一反三,對MapReduce的認識不僅僅停留在Map和Reduce兩個函數上。
五、數據獲取和預處理Flume
解決海量數據的問題,眾多大數據計算和分析技術應運而生。本課程首先從實際操作出發,就如何對分布式服務器的日志文件進行實時收集,并將其分流到不同存儲介質進行詳細說明;其次通過對Flume的設計原理、安裝部署等方面系統的幫助學員了解Flume的理論、實際操作及應用;最后通過實際幫助學員幫助學員更深刻理解Flume。
六、結構化查詢Hive
解當前大數據領域主流數據倉庫Hive的原理及使用,課程通過MapReduce的抽象化技術、Hive系統架構、Hive安裝及調試、HiveSQL基礎語法等基礎理論,讓學員能夠全面了解Hive是如何使用的,然后通過一個實戰案例“UV查詢”,帶領大家在掌握理論的基礎上,學會具體使用Hive。
六、數據獲取和預處理Sqoop
基于實際案例與理論數據深度解析靜態系統的數據,其次全面系統的講解了sqoop的安裝及配置、架構分析以及sqoop的語法介紹,旨在幫助學員建立數據傳送知識體系結構,掌握常用數據傳送方式,并具備海量數據處理框架設計能力。最后列舉網易云課堂sqoop案例幫助學員更精準的了解sqoop的應用。
七、大數據調度框架:Azkaban
深度解析開源調度系統azkaban,從系統介紹、安裝配置、再到工作流調度實戰、以及改進思路,全面的介紹任務調度系統的整體架構,一線案例的講解加以實際演練幫助大家全方位掌握大數據調度系統。
八、Scala編程基礎
Scala是一門多范式(multi-paradigm)的編程語言,集成了面向對象編程和函數式編程的各種特性。Scala運行在Java虛擬機上,并兼容現有的Java程序。目前很多項目比如Spark,Kafka都使用Scala編寫。Scala語言表述邏輯簡單清晰,但是入門門檻比較高,學習難度大。這門課將帶大家學習這門語言,為今后的編程和閱讀源碼打下基礎。
九、Spark框架教學
Spark是一種與Hadoop相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使Spark在某些工作負載方面表現得更加優越,換句話說,Spark啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。
Spark是在Scala語言中實現的,它將Scala用作其應用程序框架。與Hadoop不同,Spark和Scala能夠緊密集成,其中的Scala可以像操作本地集合對象一樣輕松地操作分布式數據集。盡管創建Spark是為了支持分布式數據集上的迭代作業,但是實際上它是對Hadoop的補充,可以在Hadoop文件系統中并行運行。
大數據開發工程師要熟悉Linux開發環境,熟悉Shell命令,至少Java、python、scala中的一種編程語言;具備豐富的基于Hadoop、Map Reduce、Yarn、Storm、Spark、Hive、Hbase、kafka、Flume、HDFS、Spark Streaming等的大數據處理項目經驗。每家公司對大數據崗位的要求不盡相同,結合自己擅長的領域找到與自己匹配的崗位。