任何想要調(diào)配應(yīng)用程序的工程師必須知道的基本概念之一是Bash 腳本編程。你必須對(duì)linux和bash 腳本編程感到舒適,這是處理大數(shù)據(jù)的基本要求。 核心是,大部分大數(shù)據(jù)技術(shù)都是用Java或Scala編寫(xiě)的。但是別擔(dān)心,如果你不想用這些語(yǔ)言編寫(xiě)代碼,那么你可以選擇Python或者R,因?yàn)榇蟛糠值拇髷?shù)據(jù)技術(shù)現(xiàn)在都支持Python和R。因此,你可以從上述任何一種語(yǔ)言開(kāi)始。 我建議選擇Python或Java。 接下來(lái),你需要熟悉云端工作。 這是因?yàn)槿绻銢](méi)有在云端處理大數(shù)據(jù),沒(méi)有人會(huì)認(rèn)真對(duì)待。 請(qǐng)嘗試在AWS,softlayer或任何其他云端供應(yīng)商上練習(xí)小型數(shù)據(jù)集。 他們大多數(shù)都有一個(gè)免費(fèi)的層次,讓學(xué)生練習(xí)。如果你想的話,你可以暫時(shí)跳過(guò)此步驟,但請(qǐng)務(wù)必在進(jìn)行任何面試之前在云端工作。 接下來(lái),你需要了解一個(gè)分布式文件系統(tǒng)。比較流行的分布式文件系統(tǒng)就是Hadoop分布式文件系統(tǒng)。在這個(gè)階段你還可以學(xué)習(xí)一些你發(fā)現(xiàn)與你所在領(lǐng)域相關(guān)的NoSQL數(shù)據(jù)庫(kù)。下圖可以幫助你選擇一個(gè)NoSQL數(shù)據(jù)庫(kù),以便根據(jù)你感興趣的領(lǐng)域進(jìn)行學(xué)習(xí)。 現(xiàn)在,你決定是否要處理數(shù)據(jù)流或靜止的大量數(shù)據(jù)。 這是用于定義大數(shù)據(jù)(Volume,Velocity,Variety和Veracity)的四個(gè)V中的兩個(gè)之間的選擇。