接著前兩篇對大數(shù)據(jù)的介紹之后,本篇從實(shí)際操作的角度分享大數(shù)據(jù)內(nèi)部關(guān)鍵的運(yùn)作機(jī)制,這是在真正開始學(xué)習(xí)大數(shù)據(jù)之前對大數(shù)據(jù)的一個概覽。為的是讓我們成為大數(shù)據(jù)的主人。以下是小編為你整理的怎么樣學(xué)大數(shù)據(jù)分析 ?
大數(shù)據(jù)運(yùn)行機(jī)制 ?
這是對大數(shù)據(jù)運(yùn)行機(jī)制的概覽,如果你閱讀過上一篇(OODA),就會感覺非常熟悉。不錯,他們在概念上是如出一撤的!不過實(shí)際操作卻又有巨大的不同。
?
收集數(shù)據(jù): ?
大數(shù)據(jù)的*站就是收集和存儲海量數(shù)據(jù)(公開/隱私)?,F(xiàn)在每個人都是一個巨大的數(shù)據(jù)源,通過智能手機(jī)和個人筆記本釋放出大量的個人行為信息。獲取數(shù)據(jù)似乎已經(jīng)變得越來越容易,數(shù)據(jù)收集這一模塊*的挑戰(zhàn)在于獲取海量數(shù)據(jù)的高速要求以及數(shù)據(jù)的全面性考慮。 ?
清洗數(shù)據(jù): ?
傳統(tǒng)商業(yè)智能在數(shù)據(jù)清洗處理的做法(ETL)是,把準(zhǔn)確的數(shù)據(jù)放入定義好的格式中,通過基礎(chǔ)的抽取統(tǒng)計(jì)生成高維度的數(shù)據(jù),方便直接使用。然而大數(shù)據(jù)有個最突出的特征——數(shù)據(jù)非結(jié)構(gòu)化或者半結(jié)構(gòu)化。因?yàn)閿?shù)據(jù)有可能是圖片,二進(jìn)制等等。數(shù)據(jù)清洗的*挑戰(zhàn)來了——如何轉(zhuǎn)化處理大量非結(jié)構(gòu)數(shù)據(jù),便于分布式地計(jì)算分析。 ?
硬件: ?
這是大家都很熟悉的概念,和大數(shù)據(jù)相關(guān)的是虛擬化。主要包括存儲虛擬化,計(jì)算虛擬化。因此又說虛擬化存儲和云計(jì)算是大數(shù)據(jù)的“左膀右臂”!!大數(shù)據(jù)還需要支持多種類型的數(shù)據(jù)庫,因此一個支持?jǐn)U展的數(shù)據(jù)倉庫是大數(shù)據(jù)中的基礎(chǔ)。 ?
HBase/Sqoop/Flume(數(shù)據(jù)導(dǎo)入與導(dǎo)出): ?
HBase是運(yùn)行在HDFS架構(gòu)上的列存儲數(shù)據(jù)庫,并且已經(jīng)與Pig/Hive很好地集成。通過Java API可以近無縫地使用HBase。 ?
Sqoop設(shè)計(jì)的目的是方便從傳統(tǒng)數(shù)據(jù)庫導(dǎo)入數(shù)據(jù)到Hadoop數(shù)據(jù)集合(HDFS/Hive)。 ?
Flume設(shè)計(jì)的目的是便捷地從日志文件系統(tǒng)直接把數(shù)據(jù)導(dǎo)到Hadoop數(shù)據(jù)集合(HDFS)中。 ?
以上這些數(shù)據(jù)轉(zhuǎn)移工具都極大的方便了使用的人,提高了工作效率,把經(jīng)歷專注在業(yè)務(wù)分析上! ?
ZooKeeper/Oozie(系統(tǒng)管理架構(gòu)): ?
ZooKeeper是一個系統(tǒng)管理協(xié)調(diào)架構(gòu),用于管理分布式架構(gòu)的基本配置。它提供了很多接口,使得配置管理任務(wù)簡單化! ?
Oozie服務(wù)是用于管理工作流。用于調(diào)度不同工作流,使得每個工作都有始有終。 ?
這些架構(gòu)幫助我們輕量化地管理大數(shù)據(jù)分布式計(jì)算架構(gòu)。 ?
7 ?
Ambari/Whirr(系統(tǒng)部署管理): ?
Ambari幫助相關(guān)人員快捷地部署搭建整個大數(shù)據(jù)分析架構(gòu),并且實(shí)時監(jiān)控系統(tǒng)的運(yùn)行狀況。 ?
Whirr的主要作用是幫助快速的進(jìn)行云計(jì)算開發(fā)。
?
Mahout(機(jī)器學(xué)習(xí)): ?
Mahout旨在幫助我們快速地完成高智商的系統(tǒng)。其中已經(jīng)實(shí)現(xiàn)了部分機(jī)器學(xué)習(xí)的邏輯。這個架構(gòu)可以讓我們快速地集成更多機(jī)器學(xué)習(xí)的智能!! ?
大數(shù)據(jù)服務(wù)對比 ?
不同大數(shù)據(jù)服務(wù)提供商有不同的產(chǎn)品線,因此不同提供商的產(chǎn)品適用場景也會有所不同。我們重點(diǎn)分析三大服務(wù)提供商的大數(shù)據(jù)服務(wù)架構(gòu)。 ?
亞馬遜 ?
擁有大量關(guān)于大數(shù)據(jù)處理的經(jīng)驗(yàn)。初期大數(shù)據(jù)使用者大部分都使用亞馬遜打造的Hadoop架構(gòu)服務(wù)(EC2)。 ?
經(jīng)過厚重沉淀之后,Amazon在2009年提供開發(fā)EMR大數(shù)據(jù)服務(wù)。EMR服務(wù)提供了多種大數(shù)據(jù)處理分析方案,比如簡單查詢服務(wù),關(guān)聯(lián)數(shù)據(jù)分析服務(wù)。EMR服務(wù)可以使用Hadoop語言繼續(xù)開發(fā),并且訪問EMR服務(wù)的步驟也相當(dāng)簡單并且安全。 ?
亞馬遜使用托管DynamoDB代替HBase,作為易于擴(kuò)展的NoSQL數(shù)據(jù)庫。
?
谷歌 ?
谷歌云服務(wù)平臺出類拔萃,它所提供的并非虛擬化解決方案,而是提供由API定義的服務(wù)和應(yīng)用程序。程序員無需顧慮硬件,甚至不需要關(guān)心后臺的運(yùn)作行為。 ?
當(dāng)然這從某種程度也限制了程序員的工作,不過如果谷歌的服務(wù)適合業(yè)務(wù),那么使用起來將是全世界*效快捷的大數(shù)據(jù)架構(gòu)服務(wù)。 ?
谷歌的AppEngine作為云平臺管理服務(wù),提供了基于MapReduce的大數(shù)據(jù)并行計(jì)算服務(wù)。所有的這些服務(wù)都可以通過REST風(fēng)格的API訪問。 ?
BigQuery作為分析的數(shù)據(jù)庫,提供了類SQL的查詢語法。它的性能要比Apache Hive來得快! ?
微軟 ?
微軟在大數(shù)據(jù)中屬于后來居上者。通過Microsoft Azure大數(shù)據(jù)服務(wù)平臺,微軟融合自身海量成熟的軟件,例如SQL Server,提供了多種IaaS服務(wù)。 ?
微軟的服務(wù)面向更多的程序員,使得可以使用不同語言來對接大數(shù)據(jù)平臺Azure。Azure旨在提供一個生態(tài)的大數(shù)據(jù)分析開發(fā)環(huán)境,使得普通研究員也可以施展自己對大數(shù)據(jù)的理解! ?
Hadoop大比較 ?
為什么選擇Hadoop,而不是其他數(shù)據(jù)處理架構(gòu),比如傳統(tǒng)關(guān)系型數(shù)據(jù)庫或者其他。Hadoop在我的眼里,更像是在“暴力解鎖”,它可以處理每一條數(shù)據(jù),乃至每一種可能的設(shè)想。Hadoop的巨大貢獻(xiàn)在于快速分析大數(shù)據(jù)所隱藏的事實(shí),這在過去也許需要幾天甚至幾個月的時間才能完成,而Hadoop很可能只需要幾分鐘甚至幾秒鐘的時間就可以很完整地做好! ?
關(guān)系型數(shù)據(jù)庫的幾個特點(diǎn)使得它無緣大數(shù)據(jù)分析,當(dāng)然它也有自己擅長的領(lǐng)域。 ?
(1)磁盤可以存儲大量內(nèi)容,卻無法快速存取!并且存儲空間的擴(kuò)展是有限度的。 ?
(2)在更新一小部分?jǐn)?shù)據(jù)的同時,會對整張表乃至整個數(shù)據(jù)庫都會產(chǎn)生影響。 ?
(3)要求存儲的數(shù)據(jù)都是結(jié)構(gòu)化的,能處理的數(shù)據(jù)也都是結(jié)構(gòu)化。 ?
網(wǎng)格計(jì)算嘗試通過多臺機(jī)器(不同的任務(wù))處理和管理共享文件系統(tǒng),最終達(dá)到大數(shù)據(jù)計(jì)算的目的。這樣的嘗試以網(wǎng)絡(luò)帶寬的約束而失敗告終。因?yàn)閿?shù)據(jù)量達(dá)到GB級別以上時,網(wǎng)格計(jì)算的方法顯得力不從心。不過網(wǎng)格計(jì)算用在中小型科研實(shí)驗(yàn)確實(shí)是說一不二的選擇! ?