任何想要調(diào)配應(yīng)用程序的工程師必須知道的基本概念之一是Bash 腳本編程。你必須對linux和bash 腳本編程感到舒適,這是處理大數(shù)據(jù)的基本要求。 核心是,大部分大數(shù)據(jù)技術(shù)都是用Java或Scala編寫的。但是別擔(dān)心,如果你不想用這些語言編寫代碼,那么你可以選擇Python或者R,因?yàn)榇蟛糠值拇髷?shù)據(jù)技術(shù)現(xiàn)在都支持Python和R。因此,你可以從上述任何一種語言開始。 我建議選擇Python或Java。 接下來,你需要熟悉云端工作。 這是因?yàn)槿绻銢]有在云端處理大數(shù)據(jù),沒有人會認(rèn)真對待。 請嘗試在AWS,softlayer或任何其他云端供應(yīng)商上練習(xí)小型數(shù)據(jù)集。 他們大多數(shù)都有一個免費(fèi)的層次,讓學(xué)生練習(xí)。如果你想的話,你可以暫時跳過此步驟,但請務(wù)必在進(jìn)行任何面試之前在云端工作。 接下來,你需要了解一個分布式文件系統(tǒng)。比較流行的分布式文件系統(tǒng)就是Hadoop分布式文件系統(tǒng)。在這個階段你還可以學(xué)習(xí)一些你發(fā)現(xiàn)與你所在領(lǐng)域相關(guān)的NoSQL數(shù)據(jù)庫。下圖可以幫助你選擇一個NoSQL數(shù)據(jù)庫,以便根據(jù)你感興趣的領(lǐng)域進(jìn)行學(xué)習(xí)。 現(xiàn)在,你決定是否要處理數(shù)據(jù)流或靜止的大量數(shù)據(jù)。 這是用于定義大數(shù)據(jù)(Volume,Velocity,Variety和Veracity)的四個V中的兩個之間的選擇。