大數(shù)據(jù)(big data),指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
1、深入學(xué)習(xí)數(shù)據(jù)處理,熟悉CDH開發(fā)環(huán)境(hive/impala/trino等);
2、學(xué)習(xí)主流的關(guān)系型數(shù)據(jù)庫(kù)(DB2/Oracle/Mysql等);
3、熟悉大數(shù)據(jù)平臺(tái)的調(diào)度組件(airflow/dolphin等);
4、深入學(xué)習(xí)java技術(shù)知識(shí)熟悉Springboot、Mybatis等知識(shí);
5、掌握mysq,了解hive、hadoop、clickhouse等;
6、熟悉Nginx、Redis、Dubbo、Elasticsearch、ZooKeeper、MQ、Linux、Shell等。
1.Volume(大量)
截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,而歷史上全人類總共說(shuō)過(guò)的話的數(shù)據(jù)量大約是5EB。當(dāng)前,典型個(gè)人計(jì)算機(jī)硬盤的容量為TB量級(jí),而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級(jí)。
2.Velocity(高速)
這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報(bào)告。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的就是企業(yè)生命。
3.Variety(多樣)
這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對(duì)于以往便于存儲(chǔ)的以數(shù)據(jù)庫(kù)/文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高要求。
4.Value(低價(jià)值密度)
價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。也就是數(shù)據(jù)量越大,價(jià)值密度就越低,如何快速對(duì)有價(jià)值數(shù)據(jù)“提純”成為目前大數(shù)據(jù)背景下待解決的難題。