國(guó)內(nèi)人才缺口
31.7%每年行業(yè)需求增長(zhǎng)
10000+每天獵聘網(wǎng)大數(shù)據(jù)招聘
17210月薪北京大數(shù)據(jù)工程師
?大數(shù)據(jù)就業(yè)前景分析?近兩年來,互聯(lián)網(wǎng)的發(fā)展迅速,相對(duì)應(yīng)的帶動(dòng)了很多行業(yè)的發(fā)展,大數(shù)據(jù)作為新興行業(yè)之一,半年來的人才需求在也是居高不下,薪資情況歷來也是求職者所關(guān)注的重點(diǎn)。工作經(jīng)驗(yàn)與薪資范圍密不可分,大數(shù)據(jù)行業(yè)也是如此,但相對(duì)于傳統(tǒng)行業(yè)的應(yīng)屆生,大數(shù)據(jù)行業(yè)的應(yīng)屆生工資要高很多,并且隨著工作年份的增長(zhǎng),其工資范圍也在不斷的增長(zhǎng),并且其幅度遠(yuǎn)大于傳統(tǒng)崗位,一般只要有一些工作經(jīng)驗(yàn),起薪范圍就能夠迅速從6,777增長(zhǎng)到12,807 ,實(shí)現(xiàn)翻倍,因此人們常說的 “成就高薪”,只要你有夢(mèng)想,在大數(shù)據(jù)的世界里就會(huì)變得有無數(shù)種可能。[圖片7] 潮流技能 顛覆性課程 拒絕用老掉牙的淘汰項(xiàng)目練手 要做就做前沿覆蓋大數(shù)據(jù)行業(yè)主流技術(shù)崗位,課程半年升級(jí)一次,緊跟市場(chǎng)與企業(yè)步伐 01 大數(shù)據(jù)入門基礎(chǔ)課程 1.JavaSE;2.MySQL;3.JDBC;4.Linux;5.shell;6.HTML;7.CSS;8.JavaScript;9.JSP;10.Servlet 02 大數(shù)據(jù)Hadoop基礎(chǔ) 1.大數(shù)據(jù)概論;2.Hadoop框架;3.HDFS分布式文件系統(tǒng);4.MapReduce計(jì)算模型;5.全真實(shí)訓(xùn)項(xiàng)目 03 大數(shù)據(jù)離線分析 1.Hive數(shù)據(jù)倉庫;2.Sqoop ETL工具;3.Azkaban工作流引擎;4.Ooize;5.Impala;6.全真實(shí)訓(xùn)項(xiàng)目 04 大數(shù)據(jù)實(shí)時(shí)計(jì)算 1.Zookeeper分布式協(xié)調(diào)系統(tǒng);2.HBase分布式數(shù)據(jù)庫;3.Redis數(shù)據(jù)庫;4.mogDB數(shù)據(jù)庫;5.Kudu列式存儲(chǔ)系統(tǒng);6.Storm實(shí)時(shí)數(shù)據(jù)處理平臺(tái);7.Kafka分布式發(fā)布訂閱消息系統(tǒng);8.Flume海量日志采集系統(tǒng);9.全真實(shí)訓(xùn)綜合項(xiàng)目 05 Spark數(shù)據(jù)計(jì)算 1.Scala;2.Spark;3RDD;4.Spark SQL;5. Streaming;6. Mahout;7.MLlib;8.GraphX;9.Spark R;10.Python;11.Alluxio;12.Python爬蟲;13.ElasticSearch;14.Lucene Hadoop基礎(chǔ)實(shí)戰(zhàn) 項(xiàng)目名稱:搜狗搜索日志分析系統(tǒng) 數(shù)據(jù)體量:5000W+/日 硬件環(huán)境:Hadoop集群 12臺(tái) 軟件環(huán)境:Hadoop2.5.2+Hive1.2.1+MR+Oracle10g 項(xiàng)目描述:搜狗每天產(chǎn)生大量的日志數(shù)據(jù),從日志數(shù)據(jù)里面能提取到有用的數(shù)據(jù)包括每個(gè)用戶的ID、瀏覽次數(shù)、月/日瀏覽頻率、訪問源、瀏覽內(nèi)容等等,提取這些內(nèi)容、統(tǒng)計(jì)數(shù)據(jù)分析每個(gè)用戶行為,從而做出有利的決定。 大數(shù)據(jù)離線實(shí)戰(zhàn) 項(xiàng)目名稱:新浪微博數(shù)據(jù)分析系統(tǒng) 日均數(shù)據(jù)體量:3GB+ 硬件環(huán)境:Hadoop集群 50臺(tái) 軟件環(huán)境:MapReduce+HBase0.98.9+Storm0.9.6+Hadoop2.5.2+Kafka2.10+Zooke eper3.4.5+CentOS-6.5-X86 項(xiàng)目描述:此次項(xiàng)目我們需要處理微博產(chǎn)生的數(shù)據(jù),通過對(duì)數(shù)據(jù)的處理得到所需的數(shù)據(jù),微博擁有大量的用戶,大量的用戶潛在的價(jià)值是巨大,怎么挖掘這些潛在的寶藏就是我們項(xiàng)目最直接的目的,為了能夠?qū)崟r(shí)的進(jìn)行數(shù)據(jù)處理使用Storm流式計(jì)算系統(tǒng),和HBase、Zookeeper、Kafka組成框架,對(duì)數(shù)據(jù)進(jìn)行處理,當(dāng)然這些都是建立在hadoop集群上實(shí)現(xiàn)的,底層的存儲(chǔ)還是HDFS。 大數(shù)據(jù)實(shí)時(shí)計(jì)算 項(xiàng)目名稱:網(wǎng)絡(luò)流量流向異常賬號(hào)統(tǒng)計(jì)項(xiàng)目 數(shù)據(jù)體量:每天1000億,每秒峰值100 000 硬件環(huán)境:Hadoop集群 600臺(tái) 軟件環(huán)境:Hadoop2.5.2+Hive1.2.1+MR+Oracle10g 項(xiàng)目描述:運(yùn)營(yíng)商骨干網(wǎng)上采集現(xiàn)網(wǎng)流量流向信息,根據(jù)這些原始信息檢測(cè)賬號(hào)是否存在異常,如果多個(gè)終端使用同一個(gè)寬帶賬號(hào),超過一定閾值則觸發(fā)報(bào)警機(jī)制,例如閾值為5時(shí),同一個(gè)賬號(hào)同時(shí)連接的終端數(shù)量不能超過該值,如果超過則報(bào)警。 Spark階段項(xiàng)目 項(xiàng)目名稱:京東網(wǎng)上商城數(shù)據(jù)統(tǒng)計(jì)分析平臺(tái) 數(shù)據(jù)體量:5000W+/日 硬件環(huán)境:centos-6.5-x86 集群:spark standalone(Master-1,Worker-3) 軟件環(huán)境:hadoop,spark,hive,mysql,idea,navicat,kafka,flume 每日處理的數(shù)據(jù)量:3GB 項(xiàng)目描述:基于京東網(wǎng)上商城數(shù)據(jù)統(tǒng)計(jì)分析平臺(tái)--該項(xiàng)目采用了目前大數(shù)據(jù)領(lǐng)域非常流行的技術(shù)——Spark。本項(xiàng)目使用了Spark技術(shù)生態(tài)棧中最常用的三個(gè)技術(shù)框架,Spark Core、Spark SQL和Spark Streaming,進(jìn)行離線計(jì)算和實(shí)時(shí)計(jì)算業(yè)務(wù)模塊的開發(fā)。實(shí)現(xiàn)了包括:統(tǒng)計(jì)和分析UV、PV、登錄、留存、熱門商品離線統(tǒng)計(jì)、廣告流量實(shí)時(shí)統(tǒng)計(jì)3個(gè)業(yè)務(wù)模塊。 ★課程價(jià)格根據(jù)所報(bào)讀的班級(jí)不同,價(jià)格從幾百到數(shù)萬不等,詳情請(qǐng)咨詢客服。 來自主流高校和企業(yè)的骨灰級(jí)大咖授課他們將十余年實(shí)戰(zhàn)經(jīng)驗(yàn)傾囊相授,他們?cè)卩嵵菪值苓B為你的職業(yè)發(fā)展保駕護(hù)航 [圖片8]梁建全 兄弟連教育java總監(jiān) icon畢業(yè)于北京*,12年以上JAVA企業(yè)項(xiàng)目架構(gòu)和開發(fā)經(jīng)驗(yàn)。曾在二炮科技處、UPS科技、日本UCI科技等多家*企業(yè)擔(dān)任過項(xiàng)目經(jīng)理和研發(fā)總監(jiān)。
[圖片9]趙強(qiáng) 兄弟連總監(jiān)級(jí)講師 icon畢業(yè)于清華*,13年以上開發(fā)經(jīng)驗(yàn)。先后就職于IBM、摩托羅拉、甲骨文,現(xiàn)任Oracle公司高級(jí)技術(shù)顧問,精通Oracle數(shù)據(jù)庫和大數(shù)據(jù)Hadoop的管理和開發(fā)。
良心教育行業(yè)翹楚 憑啥這么牛?鄭州兄弟連11年專注于大數(shù)據(jù)培訓(xùn),告別平庸,成就非凡技能, 拼教學(xué)、論嚴(yán)管、談素養(yǎng)、比就業(yè),怕死就別來鄭州兄弟連! 教學(xué)靠譜 icon講師、項(xiàng)目經(jīng)理均為專職,培養(yǎng)體系嚴(yán)謹(jǐn)、實(shí) 用;講師,學(xué)員打分體系,講師好不好你 說了算!
變態(tài)嚴(yán)管 icon變態(tài)嚴(yán)管,讓你破繭成蝶?!白儜B(tài)”的學(xué)習(xí)訓(xùn) 練,因?yàn)閻勰?,所以?yán)厲,我們要培養(yǎng)的是IT 特種兵。
職業(yè)素養(yǎng)課 icon授之以魚更授之以漁。兄弟連創(chuàng)始人李超老師, 也會(huì)親自授課,分享自己三十幾年的人生經(jīng)歷 和經(jīng)驗(yàn)。
全程指導(dǎo) icon課上采用案例式教學(xué),通俗易懂,課下項(xiàng)目經(jīng)理 一對(duì)一輔導(dǎo)強(qiáng)化訓(xùn)練,學(xué)與練交叉進(jìn)行強(qiáng)化記憶, 你要做的就是認(rèn)真聽,勤于問,樂于練。
24小時(shí)開放機(jī)房 icon鄭州兄弟連一直堅(jiān)持人手一機(jī),學(xué)員可以隨時(shí)在教 室學(xué)習(xí),無論晚上11點(diǎn)還是凌晨4點(diǎn),你都將 看到為自己的理想而埋頭苦學(xué)的兄弟姐妹。
就業(yè)保障?icon學(xué)不會(huì),免費(fèi)重修;找工作,免費(fèi) 力薦。畢業(yè)后,你會(huì)發(fā)現(xiàn)python開發(fā)工程師的圈 子里到處是你的人脈,讓你在職場(chǎng)更加如虎添翼。
學(xué)習(xí)氛圍濃厚 人性化服務(wù)助你一站成才集衣食住學(xué)為一體,舒適生活區(qū)域,先進(jìn)教學(xué)設(shè)備 鄭州兄弟連注重細(xì)節(jié),傾力為學(xué)員打造貼心學(xué)習(xí)環(huán)境 [圖片10] ? [圖片11] ? [圖片12] ? [圖片13] ? [圖片14] [圖片15] [圖片16] [圖片17] 業(yè)內(nèi)獨(dú)有四大班型 為你而生 為你所需 [圖片18] 零基礎(chǔ)周末班課程設(shè)置與脫產(chǎn)班相同 學(xué)習(xí)工作兩不誤 適合需要周末上課的人群
[圖片19] 全日制脫產(chǎn)就業(yè)班面向零基礎(chǔ)小白 5個(gè)月完成Python 開發(fā)課程
[圖片20] 精英提高班面向掌握一定Python技術(shù) 但需提升職場(chǎng)競(jìng)爭(zhēng)力的 在職人群
[圖片21] 在線精品課程同步線下面授課程 純干貨技術(shù)課堂 隨到隨學(xué)
? ? ? 相關(guān)資訊: 摘 要:數(shù)據(jù)挖掘作為一項(xiàng)從海量數(shù)據(jù)中提取知識(shí)的信息技術(shù)引起了國(guó)內(nèi)外學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,它在商業(yè)方面的成功應(yīng)用使得軟件開發(fā)商不斷開發(fā)新的數(shù)據(jù)挖掘工具,改進(jìn)現(xiàn)有的數(shù)據(jù)挖掘工具,一時(shí)之間數(shù)據(jù)挖掘工具可謂琳瑯滿目,于是出現(xiàn)了如何合理選擇挖掘工具的問題。鑒于此,本文提出并討論了五點(diǎn)關(guān)于合理選擇數(shù)據(jù)挖掘工具的技巧。 ? 關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)挖掘工具;數(shù)據(jù)倉庫 ? 隨著數(shù)據(jù)庫和計(jì)算機(jī)網(wǎng)絡(luò)的廣泛應(yīng)用,加上先進(jìn)的數(shù)據(jù)自動(dòng)生成和采集工具的使用,人們擁有的數(shù)據(jù)量急劇增大。然而數(shù)據(jù)的極速增長(zhǎng)與數(shù)據(jù)分析方法的改進(jìn)并不成正比,一方面人們希望在已有的大量數(shù)據(jù)的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策、企業(yè)管理,另一方面?zhèn)鹘y(tǒng)的數(shù)據(jù)分析工具很難令人滿意的對(duì)數(shù)據(jù)進(jìn)行深層次的處理,這樣二者之間的矛盾日益突出,正是在這種狀況下,數(shù)據(jù)挖掘應(yīng)運(yùn)而生。 數(shù)據(jù)挖掘作為一項(xiàng)從海量數(shù)據(jù)中提取知識(shí)的信息技術(shù)是一個(gè)"以發(fā)現(xiàn)為驅(qū)動(dòng)"的過程,已經(jīng)引起了學(xué)術(shù)界和產(chǎn)業(yè)界的極大重視。特別是從1989年8月在美國(guó)底特律召開的第11屆國(guó)際人工智能聯(lián)合會(huì)議上首次出現(xiàn)數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)概念以來,數(shù)據(jù)挖掘在國(guó)際國(guó)內(nèi)都受到了前所未有的重視,目前數(shù)據(jù)挖掘廣泛應(yīng)用于各個(gè)領(lǐng)域,如地理學(xué)、地質(zhì)學(xué)、生物醫(yī)學(xué)等等,總之?dāng)?shù)據(jù)挖掘的出現(xiàn)使數(shù)據(jù)庫技術(shù)進(jìn)入了一個(gè)更高級(jí)的階段,不僅能對(duì)過去的數(shù)據(jù)進(jìn)行查詢和遍歷,還能夠找出以往數(shù)據(jù)間潛在的聯(lián)系,促進(jìn)信息的傳播。 ? 數(shù)據(jù)挖掘技術(shù)概述 ? 1、數(shù)據(jù)挖掘的定義 ? 數(shù)據(jù)挖掘是一個(gè)從數(shù)據(jù)中提取模式的過程,是一個(gè)受多個(gè)*影響的交叉領(lǐng)域,包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)等;數(shù)據(jù)挖掘反復(fù)使用多種數(shù)據(jù)挖掘算法從觀測(cè)數(shù)據(jù)中確定模式或合理模型,是一種決策支持過程。通過預(yù)測(cè)客戶的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。 由于傳統(tǒng)的事物型工具(如查詢工具、報(bào)表工具)無法回答事先未定義的綜合性問題或跨*/機(jī)構(gòu)的問題,因此其用戶必須清楚地了解問題的目的。數(shù)據(jù)挖掘就可以回答事先未加定義的綜合性問題或跨*/機(jī)構(gòu)的問題,挖掘潛在的模式并預(yù)測(cè)未來的趨勢(shì),用戶不必提出確切的問題,而且模糊問題更有利于發(fā)現(xiàn)未知的事實(shí)。 ? 2、數(shù)據(jù)挖掘的主要方法和途徑 ? 數(shù)據(jù)挖掘有很多種分類方法,如按發(fā)現(xiàn)的知識(shí)種類,挖掘的數(shù)據(jù)庫類型,挖掘方法,挖掘途徑,所采用的技術(shù)等等。下面只討論四個(gè)應(yīng)用比較廣泛的方法: ? ·關(guān)聯(lián)規(guī)則(Association Rule) ? 在數(shù)據(jù)挖掘領(lǐng)域中,關(guān)聯(lián)規(guī)則應(yīng)用最為廣泛,是重要的研究方向。表示數(shù)據(jù)庫中一組對(duì)象之間某種關(guān)聯(lián)關(guān)系的規(guī)則,一般來講,可以用多個(gè)參數(shù)來描述一個(gè)關(guān)聯(lián)規(guī)則的屬性,常用的有:可信度,支持度,興趣度,期望可信度,作用度。 ? ·離群數(shù)據(jù)(Outlier) ? 離群數(shù)據(jù)就是明顯偏離其他數(shù)據(jù)、不滿足數(shù)據(jù)的一般模式或行為、與存在的其他數(shù)據(jù)不一致的數(shù)據(jù)。數(shù)據(jù)挖掘的大部分研究忽視了離群數(shù)據(jù)的存在和意義,現(xiàn)有的方法往往研究如何減少離群數(shù)據(jù)對(duì)正常數(shù)據(jù)的影響,或僅僅把其當(dāng)作噪音來對(duì)待。這些離群數(shù)據(jù)可能來源于計(jì)算機(jī)錄入錯(cuò)誤、人為錯(cuò)誤等,也可能就是數(shù)據(jù)的真實(shí)反映。 ? ·基于案例的推理(case-based reasoning, CBR) ? 基于案例的推理來源于人類的認(rèn)知心理活動(dòng),它屬于類比推理方法。其基本思想是基于人們?cè)趩栴}求解中習(xí)慣于過去處理類似問題的經(jīng)驗(yàn)和獲取的知識(shí),在針對(duì)新舊情況的差異作相應(yīng)的調(diào)整,從而得到新問題的解并形成新的案例。CBR方法的應(yīng)用越來越受到人們的重視,在許多領(lǐng)域都有較好的推廣前景,例如,在氣象、環(huán)保、地震、農(nóng)業(yè)、醫(yī)療、商業(yè)、CAD等領(lǐng)域;CBR也可用在計(jì)算機(jī)軟硬件的生產(chǎn)中,如軟件及硬件的故障檢測(cè);CBR方法尤其在不易總結(jié)出專家知識(shí)的領(lǐng)域中,應(yīng)用越來越普遍,也越來越深入。 ? ·支持向量機(jī)(Support Vector Machine,SVM) ? 支持向量機(jī)是近幾年發(fā)展起來的新型通用的知識(shí)發(fā)現(xiàn)方法,在分類方面具有良好的性能。SVM是建立在計(jì)算學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則之上,主要思想是針對(duì)兩類分類問題在高位空間中尋找一個(gè)超平面作為兩類的分割,以保證最小的分類錯(cuò)誤率。 ? 數(shù)據(jù)挖掘工具 ? 伴隨越來越多的軟件供應(yīng)商加入數(shù)據(jù)挖掘這一行列,使得現(xiàn)有的挖掘工具的性能得到進(jìn)一步的增強(qiáng),使用更加便捷,也使得其價(jià)格門檻迅速降低,為應(yīng)用的普及帶來了可能。當(dāng)然數(shù)據(jù)倉庫技術(shù)的發(fā)展同樣功不可沒。數(shù)據(jù)倉庫是將海量復(fù)雜的客戶行為數(shù)據(jù)集中起來建立的一個(gè)整合的、結(jié)構(gòu)化的數(shù)據(jù)模型,是實(shí)施數(shù)據(jù)挖掘的基礎(chǔ),這里不作為討論的重點(diǎn)。 ? 1、數(shù)據(jù)挖掘工具分類 ? 一般來講,數(shù)據(jù)挖掘工具根據(jù)其適用的范圍分為兩類:專用數(shù)據(jù)挖掘工具和通用數(shù)據(jù)挖掘工具。專用數(shù)據(jù)挖掘工具是針對(duì)某個(gè)特定領(lǐng)域的問題提供解決方案,在涉及算法的時(shí)候充分考慮了數(shù)據(jù)、需求的特殊性,并作了優(yōu)化;而通用數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。 ? 2、數(shù)據(jù)挖掘工具的選擇 ? 數(shù)據(jù)挖掘是一個(gè)過程,只有將數(shù)據(jù)挖掘工具提供的技術(shù)和實(shí)施經(jīng)驗(yàn)與企業(yè)的業(yè)務(wù)邏輯和需求緊密結(jié)合,并在實(shí)施的過程中不斷的磨合,才能取得成功,因此我們?cè)谶x擇數(shù)據(jù)挖掘工具的時(shí)候,要全面考慮多方面的因素,主要包括以下幾點(diǎn): ? 數(shù)據(jù)挖掘的功能和方法 ? 即是否可以完成各種數(shù)據(jù)挖掘的任務(wù),如:關(guān)聯(lián)分析、分類分析、序列分析、回歸分析、聚類分析、自動(dòng)預(yù)測(cè)等。我們知道數(shù)據(jù)挖掘的過程一般包括數(shù)據(jù)抽樣、數(shù)據(jù)描述和預(yù)處理、數(shù)據(jù)變換、模型的建立、模型評(píng)估和發(fā)布等,因此一個(gè)好的數(shù)據(jù)挖掘工具應(yīng)該能夠?yàn)槊總€(gè)步驟提供相應(yīng)的功能集。數(shù)據(jù)挖掘工具還應(yīng)該能夠方便的導(dǎo)出挖掘的模型,從而在以后的應(yīng)用中使用該模型。 ? ·數(shù)據(jù)挖掘工具的可伸縮性 ? 也就是說解決復(fù)雜問題的能力,一個(gè)好的數(shù)據(jù)挖掘工具應(yīng)該可以處理盡可能大的數(shù)據(jù)量,可以處理盡可能多的數(shù)據(jù)類型,可以盡可能高的提高處理的效率,盡可能使處理的結(jié)果有效。如果在數(shù)據(jù)量和挖掘維數(shù)增加的情況下,挖掘的時(shí)間呈線性增長(zhǎng),那么可以認(rèn)為該挖掘工具的伸縮性較好。 ? ·操作的簡(jiǎn)易性 ? 一個(gè)好的數(shù)據(jù)挖掘工具應(yīng)該為用戶提供友好的可視化操作界面和圖形化報(bào)表工具,在進(jìn)行數(shù)據(jù)挖掘的過程中應(yīng)該盡可能提高自動(dòng)化運(yùn)行程度??傊敲嫦驈V大用戶的而不是熟練的專業(yè)人員。 ? ·數(shù)據(jù)挖掘工具的可視化 ? 這包括源數(shù)據(jù)的可視化、挖掘模型的可視化、挖掘過程的可視化、挖掘結(jié)果的可視化,可視化的程度、質(zhì)量和交互的靈活性都將嚴(yán)重影響到數(shù)據(jù)挖掘系統(tǒng)的使用和解釋能力。畢竟人們接受外界信息的80%是通過視覺獲得的,自然數(shù)據(jù)挖掘工具的可視化能力就相當(dāng)重要。 ? ·數(shù)據(jù)挖掘工具的開放性 ? 即數(shù)據(jù)挖掘工具與數(shù)據(jù)庫的結(jié)合能力。好的數(shù)據(jù)挖掘工具應(yīng)該可以連接盡可能多的數(shù)據(jù)庫管理系統(tǒng)和其他的數(shù)據(jù)資源,應(yīng)盡可能的與其他工具進(jìn)行集成;盡管數(shù)據(jù)挖掘并不要求一定要在數(shù)據(jù)庫或數(shù)據(jù)倉庫之上進(jìn)行,但數(shù)據(jù)挖掘的數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)變換等等將耗費(fèi)巨大的時(shí)間和資源,因此數(shù)據(jù)挖掘工具必須要與數(shù)據(jù)庫緊密結(jié)合,減少數(shù)據(jù)轉(zhuǎn)換的時(shí)間,充分利用整個(gè)的數(shù)據(jù)和數(shù)據(jù)倉庫的處理能力,在數(shù)據(jù)倉庫內(nèi)直接進(jìn)行數(shù)據(jù)挖掘,而且開發(fā)模型,測(cè)試模型,部署模型都要充分利用數(shù)據(jù)倉庫的處理能力,另外,多個(gè)數(shù)據(jù)挖掘項(xiàng)目可以同時(shí)進(jìn)行。 ? 當(dāng)然,上述的只是一些通用的參考指標(biāo),具體選擇挖掘工具時(shí)還需要從實(shí)際情況出發(fā)具體分析。 ? 數(shù)據(jù)挖掘工具的現(xiàn)狀 ? 比較著名的有IBM Intelligent Miner、SAS Enterprise Miner、SPSS Clementine等,它們都能夠提供常規(guī)的挖掘過程和挖掘模式。 ? 1、Intelligent Miner ? 由美國(guó)IBM公司開發(fā)的數(shù)據(jù)挖掘軟件Intelligent Miner是一種分別面向數(shù)據(jù)庫和文本信息進(jìn)行數(shù)據(jù)挖掘的軟件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。它已經(jīng)成功應(yīng)用于市場(chǎng)分析、詐騙行為監(jiān)測(cè)及客戶聯(lián)系管理等;Intelligent Miner for Text允許企業(yè)從文本信息進(jìn)行數(shù)據(jù)挖掘,文本數(shù)據(jù)源可以是文本文件、Web頁面、電子郵件、Lotus Notes數(shù)據(jù)庫等等。 ? 2、Enterprise Miner ? 這是一種在我國(guó)的企業(yè)中得到采用的數(shù)據(jù)挖掘工具,比較典型的包括上海寶鋼配礦系統(tǒng)應(yīng)用和鐵路*在春運(yùn)客運(yùn)研究中的應(yīng)用。SAS Enterprise Miner是一種通用的數(shù)據(jù)挖掘工具,按照"抽樣--探索--轉(zhuǎn)換--建模--評(píng)估"的方法進(jìn)行數(shù)據(jù)挖掘。可以與SAS數(shù)據(jù)倉庫和OLAP集成,實(shí)現(xiàn)從提出數(shù)據(jù)、抓住數(shù)據(jù)到得到解答的"端到端"知識(shí)發(fā)現(xiàn)。 ? 3、SPSS Clementine ? SPSS Clementine是一個(gè)開放式數(shù)據(jù)挖掘工具,曾兩次獲得英國(guó)*SMART 創(chuàng)新獎(jiǎng),它不但支持整個(gè)數(shù)據(jù)挖掘流程,從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評(píng)估到最終部署的全部過程,還支持?jǐn)?shù)據(jù)挖掘的行業(yè)標(biāo)準(zhǔn)--CRISP-DM。Clementine的可視化數(shù)據(jù)挖掘使得"思路"分析成為可能,即將集中精力在要解決的問題本身,而不是局限于完成一些技術(shù)性工作(比如編寫代碼)。提供了多種圖形化技術(shù),有助理解數(shù)據(jù)間的關(guān)鍵性聯(lián)系,指導(dǎo)用戶以最便捷的途徑找到問題的最終解決辦法。 ? 其它常用的數(shù)據(jù)挖掘工具還有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的數(shù)據(jù)挖掘軟件Snob、Ashraf Azmy 的SuperQuery 、WINROSA 、XmdvTool 等。