大數(shù)據(jù)技術(shù)發(fā)展到目前已經(jīng)經(jīng)歷了幾個(gè)階段,在很多企業(yè)都已經(jīng)形成了相對(duì)成熟穩(wěn)定的架構(gòu),如何了解其發(fā)展中的概況。以下是小編為你整理的大數(shù)據(jù)是學(xué)什么的 ?
大數(shù)據(jù)系統(tǒng)的演化歷程包括:解決數(shù)據(jù)規(guī)模問(wèn)題,解決使用門(mén)檻問(wèn)題,解決計(jì)算延遲問(wèn)題,解決復(fù)雜場(chǎng)景問(wèn)題。 ?
大數(shù)據(jù)的整體架構(gòu)可以按以下分層:數(shù)據(jù)源、數(shù)據(jù)采集Agent、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算和數(shù)據(jù)應(yīng)用。 ?
數(shù)據(jù)源從內(nèi)部來(lái)講一般來(lái)自于企業(yè)的各個(gè)數(shù)據(jù)中心,外部一般從互聯(lián)網(wǎng)獲取,也可能與其他企業(yè)或機(jī)構(gòu)通過(guò)交換傳輸。
?
數(shù)據(jù)的采集通常有批處理的傳送,或者基于kafka等組件的實(shí)時(shí)接口,采集要確保準(zhǔn)確高效。 ?
數(shù)據(jù)的存儲(chǔ)方式也包含多種,可以基于hadoop的分布式文件系統(tǒng),或者基于hbase分布式數(shù)據(jù)庫(kù),也可以基于Kafka。 ?
數(shù)據(jù)的計(jì)算包括離線分析(Hive、Spark、MR),即席查詢(xún)/多維分析(Presto、SparkSQL、Kylin)和實(shí)時(shí)計(jì)算引擎(Flink、Spark Streaming)。 ?
大數(shù)據(jù)運(yùn)營(yíng)和傳統(tǒng)運(yùn)營(yíng)有什么區(qū)別 ?
大數(shù)據(jù)基于網(wǎng)絡(luò)有自己優(yōu)勢(shì),可以短時(shí)間收集全世界數(shù)據(jù),作為后盾分析,利用,預(yù)測(cè)但是確定,過(guò)于依賴(lài)軟件,有時(shí)候不一定精準(zhǔn),比如我有一次到京東商城看一個(gè)產(chǎn)品圖片,本來(lái)意圖不是為了買(mǎi) ?
這個(gè)這個(gè)產(chǎn)品,可是京東后來(lái)一直給我發(fā)這個(gè)產(chǎn)品廣告?zhèn)鹘y(tǒng)運(yùn)營(yíng)基于周?chē)后w,公司員工個(gè)人經(jīng)驗(yàn),范圍狹隘但是比較精準(zhǔn), 因?yàn)橐磺羞\(yùn)營(yíng)最終圍繞人來(lái)進(jìn)行,了解人,才算精準(zhǔn),只有人更能實(shí)際 ?
觀察對(duì)方的內(nèi)在,外在,機(jī)器目前無(wú)法做到一個(gè)做生意的人,可以觀察客戶(hù)的一舉一動(dòng),任何表情,知道客戶(hù)需要什么可是機(jī)器目前還無(wú)法做到這么細(xì)微 ?
如果把大數(shù)據(jù)和個(gè)人分析綜合起來(lái),這樣大數(shù)據(jù)運(yùn)營(yíng)更加完美,事實(shí)上,現(xiàn)在很多大公司,也是這么做的,分析師很重要,依靠大數(shù)據(jù),但是不局限于大數(shù)據(jù),自己觀察和經(jīng)驗(yàn)也是重要參考之一 ?
大數(shù)據(jù)概念的結(jié)構(gòu) ?
大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒(méi)有必要神話(huà)它或?qū)λ3志次分?,在以云?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開(kāi)始容易被利用起來(lái)了,通過(guò)各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會(huì)逐步為人類(lèi)創(chuàng)造更多的價(jià)值。 ?
其次,想要系統(tǒng)的認(rèn)知大數(shù)據(jù),必須要全面而細(xì)致的分解它,我著手從三個(gè)層面來(lái)展開(kāi): ?
*層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。在這里從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù)據(jù)的整體描繪和定性;從對(duì)大數(shù)據(jù)價(jià)值的探討來(lái)深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢(shì);從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長(zhǎng)久博弈。
?
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。在這里分別從云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來(lái)說(shuō)明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過(guò)程。 ?
第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。在這里分別從互聯(lián)網(wǎng)的大數(shù)據(jù),*的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個(gè)人的大數(shù)據(jù)四個(gè)方面來(lái)描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。 ?
數(shù)據(jù)安全以及對(duì)于性能的影響 ?
像任何IT系統(tǒng)一樣安全性要求也對(duì)大數(shù)據(jù)系統(tǒng)的性能有很大的影響。在本節(jié)中,我們討論一下安全對(duì)大數(shù)據(jù)平臺(tái)性能的影響。 ?
- 首先確保所有的數(shù)據(jù)源都是經(jīng)過(guò)認(rèn)證的。即使所有的數(shù)據(jù)源都是安全的,并且沒(méi)有針對(duì)安全方面的需求,那么你可以靈活設(shè)計(jì)一個(gè)安全模塊來(lái)配置實(shí)現(xiàn)。 ?
- 數(shù)據(jù)進(jìn)過(guò)一次認(rèn)證,那么就不要進(jìn)行二次認(rèn)證。如果實(shí)在需要進(jìn)行二次認(rèn)證,那么使用一些類(lèi)似于token的技術(shù)保存下來(lái)以便后續(xù)繼續(xù)使用。這將節(jié)省數(shù)據(jù)一遍遍認(rèn)證的開(kāi)銷(xiāo)。 ?
- 您可能需要支持其他的認(rèn)證方式,例如基于PKI解決方案或Kerberos。每一個(gè)都有不同的性能指標(biāo),在最終方案確定前需要將其考慮進(jìn)去。 ?
- 通常情況下數(shù)據(jù)壓縮后進(jìn)入大數(shù)據(jù)處理系統(tǒng)。這么做好處非常明顯不細(xì)說(shuō)。 ?
- 針對(duì)不同算法的效率、對(duì)cpu的使用量你需要進(jìn)行比較來(lái)選出一個(gè)傳輸量、cpu使用量等方面均衡的壓縮算法。 ?
- 同樣,評(píng)估加密邏輯和算法,然后再選擇。 ?
- 明智的做法是敏感信息始終進(jìn)行限制。 ?
- 在審計(jì)跟蹤表或登錄時(shí)您可能需要維護(hù)記錄或類(lèi)似的訪問(wèn),更新等不同的活動(dòng)記錄。這可能需要根據(jù)不同的監(jiān)管策略和用戶(hù)需求個(gè)性化的進(jìn)行設(shè)計(jì)和修改。 ?
- 注意,這種需求不僅增加了數(shù)據(jù)處理的復(fù)雜度,但會(huì)增加存儲(chǔ)成本。 ?
- 盡量使用下層提供的安全技術(shù),例如操作系統(tǒng)、數(shù)據(jù)庫(kù)等。這些安全解決方案會(huì)比你自己設(shè)計(jì)開(kāi)發(fā)性能要好很多。