大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
1、深入學(xué)習(xí)數(shù)據(jù)處理,熟悉CDH開發(fā)環(huán)境(hive/impala/trino等);
2、學(xué)習(xí)主流的關(guān)系型數(shù)據(jù)庫(DB2/Oracle/Mysql等);
3、熟悉大數(shù)據(jù)平臺的調(diào)度組件(airflow/dolphin等);
4、深入學(xué)習(xí)java技術(shù)知識熟悉Springboot、Mybatis等知識;
5、掌握mysq,了解hive、hadoop、clickhouse等;
6、熟悉Nginx、Redis、Dubbo、Elasticsearch、ZooKeeper、MQ、Linux、Shell等。
1.Volume(大量)
截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,而歷史上全人類總共說過的話的數(shù)據(jù)量大約是5EB。當(dāng)前,典型個人計算機(jī)硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。
2.Velocity(高速)
這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報告。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的就是企業(yè)生命。
3.Variety(多樣)
這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲的以數(shù)據(jù)庫/文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。
4.Value(低價值密度)
價值密度的高低與數(shù)據(jù)總量的大小成反比。也就是數(shù)據(jù)量越大,價值密度就越低,如何快速對有價值數(shù)據(jù)“提純”成為目前大數(shù)據(jù)背景下待解決的難題。