哪些項目是可以在真正的產(chǎn)品階段使用的作為可靠的候選?哪些應(yīng)該受到特別關(guān)注呢?我們做了詳細(xì)的研究和測試,讓我們一起看下5種新的撼動大數(shù)據(jù)的技術(shù)。這些是整理的幾組新的工具,讓我們一起來看看吧。以下是小編為你整理的大數(shù)據(jù)應(yīng)該怎樣學(xué)習(xí) ?
Storm 和 Kafka 是未來數(shù)據(jù)流處理的主要方式,它們已經(jīng)在一些大公司中使用率餓,包括 Groupon,阿里巴巴和The Weather Channel等。Storm,誕生于Twitter,是一個分布式實時計算系統(tǒng)。Storm 設(shè)計用于處理實時計算,hadoop主要用于處理批處理運算。
?
kafka是由LinkedIn研發(fā)的一款消息系統(tǒng)作為一個數(shù)據(jù)處理的管道基礎(chǔ)部分存在于系統(tǒng)中。當(dāng)你一起使用它們,你就能實時地和線性遞增的獲取數(shù)據(jù)。 ?
你為什么需要關(guān)心? ?
使用Storm和Kafka,使得數(shù)據(jù)流處理線性的,確保每條消息獲取都是實時的,可靠的。前后布置的Storm和Kafka能每秒流暢的處理10000條數(shù)據(jù)。 ?
像Storm和Kafka這樣的數(shù)據(jù)流處理方案使得很多企業(yè)引起關(guān)注并想達(dá)到優(yōu)秀的ETL(抽取轉(zhuǎn)換裝載)的數(shù)據(jù)集成方案。Storm 和 Kafka 也很擅長內(nèi)存分析和實時決策支持。企業(yè)使用批量處理的Hadoop方案無法也難怪對實時的業(yè)務(wù)需求。在企業(yè)的大數(shù)據(jù)解決方案中實時數(shù)據(jù)流處理是一個必要的模塊,因為它很優(yōu)美的處理了“3v”–volume,velocity 和 variety (容量,速率和多樣性)。Storm和Kafka這2種技術(shù)是我們(infochimps)最推薦的技術(shù),它們也將作為一個正式組成部分存在于我們的平臺中。Drill和Dremel 實現(xiàn)了快速低負(fù)載的大規(guī)模,即席查詢數(shù)據(jù)搜索。它們提供了秒級搜索P級別數(shù)據(jù)的可能,來應(yīng)對即席查詢和預(yù)測,及提供強大的虛擬化支持。 ?
Drill和Dremel提供強大的業(yè)務(wù)處理能力,不僅僅只是為數(shù)據(jù)工程師提供。業(yè)務(wù)端的大家都將喜歡Drill和Dremel.Drill 是Google的Dremel的開源版本。Dremel是Google提供的支持大數(shù)據(jù)查詢的技術(shù)。公司將用它來開發(fā)自己的工具,這些是導(dǎo)致大家都密切的關(guān)注Drill的原因。雖然這些不是起步,但是開源社區(qū)強烈的興趣使得它變得更成熟。 ?
先進的報表創(chuàng)建工具 ?
報表創(chuàng)建工具能從用戶的數(shù)據(jù)源轉(zhuǎn)換數(shù)據(jù)成一個精美、雅致的報表。使用其交互式設(shè)計界面和高效的工作流程,可在幾分鐘內(nèi)創(chuàng)建專業(yè)和高質(zhì)量的報表。 豐富的圖表和可視化的選項能提高用戶的報表水準(zhǔn)。一套全面的報表組件,如區(qū)域、子報表和交叉制表,讓用戶有個快速的開端來創(chuàng)建報表。 ?
智能模型設(shè)計 ?
運用我們精密的數(shù)據(jù)庫設(shè)計和模型工具,你可以用圖形表達(dá)你的數(shù)據(jù)庫。使用實體關(guān)系圖表來顯現(xiàn)數(shù)據(jù)庫結(jié)構(gòu)及關(guān)系,這樣你就可以更容易塑造,建立和理解復(fù)雜的數(shù)據(jù)庫。 ?
強大的用戶管理 ?
用戶管理功能提升和管理每個用戶的管理權(quán)限,不需輸入任何命令,在數(shù)分鐘內(nèi)就能創(chuàng)建和編輯用戶角色,借助這個精確控制的層面,可以在不影響數(shù)據(jù)庫的安全性下,創(chuàng)建規(guī)則并讓用戶訪問數(shù)據(jù)庫。 ?
確保數(shù)據(jù)安全 ?
Navicat提供本機備份解決方案,當(dāng)發(fā)生災(zāi)難時確保復(fù)原數(shù)據(jù)庫,使用Navicat計劃功能自動運行備份,并保存到本機硬盤或網(wǎng)絡(luò)硬盤。 ?
隨時隨地運行 ?
Navicat創(chuàng)建一個批處理作業(yè)來運行幾個任務(wù)。例如:打印報表、備份數(shù)據(jù)庫、傳輸數(shù)據(jù)。用戶可以設(shè)置電子郵件通知,安排在一個特定的時間,或在每天某些時間執(zhí)行該批處理作業(yè),并確保任務(wù)成功完成。無論身在何處,總能完成工作。 ?
如何選擇框架 ?
Bokeh ?
這套可視化框架的主要目標(biāo)在于提供精致且簡潔的圖形處理結(jié)果,用以強化大規(guī)模數(shù)據(jù)流的交互能力。其專門供Python語言使用。 ?
?
Wolfram Alpha ?
這是一套搜索引擎,旨在幫助用戶搜索其需要的計算素材或者其它內(nèi)容。舉例來說,如果大家輸入“Facebook”,即可獲得與Facebook相關(guān)的HTML元素結(jié)構(gòu)、輸入解釋、Web托管信息、網(wǎng)絡(luò)統(tǒng)計、子域、Alexa預(yù)估以及網(wǎng)頁信息等大量內(nèi)容。 ?
Neo4j ?
其官方網(wǎng)站將這款工具稱為圖形數(shù)據(jù)庫技術(shù)的下一場革命。這種說法在一定程度上并不夸張,因為此套數(shù)據(jù)庫使用數(shù)據(jù)間的關(guān)系以操作并強化性能表現(xiàn)。Neo4j目前已經(jīng)由眾多企業(yè)用于利用數(shù)據(jù)關(guān)系實現(xiàn)智能應(yīng)用,從而幫助自身保持市場競爭優(yōu)勢。 ?
云端的大數(shù)據(jù)
“云”其實指的是多臺虛擬服務(wù)器的組合,云為不同的使用者提供一個計算的平臺。這就是IaaS(基礎(chǔ)設(shè)置即服務(wù)),亞馬遜的Amazon EC2和Amazon S3就是這樣一個服務(wù)。 ?
IaaS帶給你的是大數(shù)據(jù)計算的資源,而PaaS將為您提供更為高級的大數(shù)據(jù)服務(wù)。所謂平臺即服務(wù)(PaaS)指的是提供各種開發(fā)解決方案和系統(tǒng)環(huán)境。按需使用的PaaS又稱為中間件,極大的節(jié)省了部署環(huán)境的時間和成本。 ?
目前主要的大數(shù)據(jù)服務(wù)提供商是Amazon/Microsoft/Google,這些大型的服務(wù)商提供IaaS和PaaS的混合服務(wù),以滿足不同業(yè)務(wù)要求。其中Google專注于大數(shù)據(jù)應(yīng)用的研究上,Amazon發(fā)力提供更多規(guī)模的大數(shù)據(jù)服務(wù)平臺。