數(shù)據(jù)是大數(shù)據(jù)風控的核心,大數(shù)據(jù)要求的不但是數(shù)據(jù)多,更要求維度豐富;而風控則是對市場、信用以及操作層面的風險控制。以下是小編為你整理的大數(shù)據(jù)處理學習 ?
在大數(shù)據(jù)風控這個行業(yè)里混,需要了解用戶,了解場景,而這些往往都可以通過數(shù)據(jù)間接反映出來。 ?
比如,用戶在某一時期內(nèi)在多家機構(gòu)申請過貸款,那說明該用戶目前借錢意愿強烈,即使歷史征信良好,也要用策略攔住他的申請,因為他很可能出現(xiàn)拆東墻補西墻的可能。
因此,用數(shù)據(jù)說話是一種方法論。不同數(shù)據(jù)對于風險的作用不同,獲取難度也不同,這就決定了并非對每個用戶都能獲取到其各個維度的信息。 ?
同時,有很多特征只有很少的用戶才會有,也因此造就了數(shù)據(jù)的稀疏性。 ?
如何將稀疏數(shù)據(jù)用在各種機器學習模型中,則正是要考察模型人員對于風險及產(chǎn)品理解的時候了。 ?
要做好大數(shù)據(jù)風控,除了數(shù)據(jù),模型就是最重要的了。模型有很多,如一般的線性回歸,Logistic回歸以及深度學習等,在實際的業(yè)務場景中,有的可能單一模型就能達到很好的效果,有的則需要幾個模型的結(jié)合,而具體使用哪個模型用哪些特征,則是要考察模型人員對業(yè)務和算法的理解了。 ?
再說一下大數(shù)據(jù)風控的直觀感受。傳統(tǒng)風控更像是冷兵器時代的戰(zhàn)爭,雖有協(xié)作但更多的是各作戰(zhàn)單位憑借個人能力的大混戰(zhàn);而大數(shù)據(jù)風控則像是現(xiàn)代戰(zhàn)爭中的立體作戰(zhàn),各個作戰(zhàn)單位(數(shù)據(jù))在統(tǒng)一的指揮中樞(算法)里高度協(xié)同作戰(zhàn)。大數(shù)據(jù)風控能將相似的人更精準的分群,會讓你看到形形色色更加的人,會讓你從紛繁的單一的數(shù)據(jù)中看到其背后的萬千世界。 ?
總之,做數(shù)據(jù)做模型前一定要理解人,做完數(shù)據(jù)模型后還要能夠解釋人。 ?
初識數(shù)據(jù)分析 ?
這個階段是你學習數(shù)據(jù)分析的*個月。核心的三本書就是:統(tǒng)計學、R IN ACTION、深入淺出數(shù)據(jù)分析。*星期:好好的閱讀一下統(tǒng)計學這本教材。按照每天3個小時的時間,一個星期你至少能看完8章。踏踏實實的看完,課后習題不需要做,重點放在理解公式推導以及專業(yè)名字定義的理解上。第二星期:有了統(tǒng)計學基礎,R語言學習起來就不會太費勁。《R in action》 是公認的R語言經(jīng)典教材。 ?
跟著書上的代碼仔細的敲一筆遍,你不需要全部看完這本書,只需要學會前8章左右就差不多了。 學完后你會對統(tǒng)計學有一個更深的認識~第三個星期:《深入淺出數(shù)據(jù)分析》這本書很大頭,不是因為它內(nèi)容多,而是因為它廢話和插圖多。 ?
很有意思的一本入門級別的教材,花一個星期好好的讀一下,能學多少是多少。第四個星期:查漏補缺。經(jīng)過前三個星期的學習,你一定有不少的疑惑或者遺忘了某些知識。不要著急,這個星期就是用來好好回顧一下你本月所學的東西,不懂的定義再看看,不會的代碼再敲敲,不懂的知識再google一下~ ?
大數(shù)據(jù)的經(jīng)典案例 ?
梅西百貨的實時定價機制。根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達7300萬種貨品進行實時調(diào)價。 ?
Tipp24 AG針對歐洲博彩業(yè)構(gòu)建的下注和預測平臺。該公司用KXEN軟件來分析數(shù)十億計的交易以及客戶的特性,然后通過預測模型對特定用戶進行動態(tài)的營銷活動。這項舉措減少了90%的預測模型構(gòu)建時間。SAP公司正在試圖收購KXEN。“SAP想通過這次收購來扭轉(zhuǎn)其長久以來在預測分析方面的劣勢。”Laney分析到。
?
沃爾瑪?shù)乃阉?。這家零售業(yè)寡頭為其網(wǎng)站W(wǎng)almart.com自行設計了*的搜索引擎Polaris,利用語義數(shù)據(jù)進行文本分析、機器學習和同義詞挖掘等。根據(jù)沃爾瑪?shù)恼f法,語義搜索技術(shù)的運用使得在線購物的完成率提升了10%到15%?!皩ξ譅柆攣碚f,這就意味著數(shù)十億美元的金額。”Laney說。 ?
快餐業(yè)的視頻分析(Laney沒有說出這家公司的名字)。該公司通過視頻分析等候隊列的長度,然后自動變化電子菜單顯示的內(nèi)容。如果隊列較長,則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但準備時間相對長的食品。 ?
ranger(安全管理工具) ?
Apache ranger是一個hadoop集群權(quán)限框架,提供操作、監(jiān)控、管理復雜的數(shù)據(jù)權(quán)限,它提供一個集中的管理機制,管理基于yarn的hadoop生態(tài)圈的所有數(shù)據(jù)權(quán)限。 ?
knox(hadoop安全網(wǎng)關(guān)) ?
Apache knox是一個訪問hadoop集群的restapi網(wǎng)關(guān),它為所有rest訪問提供了一個簡單的訪問接口點,能完成3A認證(Authentication,Authorization,Auditing)和SSO(單點登錄)等 ?
falcon(數(shù)據(jù)生命周期管理工具) ?
Apache Falcon 是一個面向Hadoop的、新的數(shù)據(jù)處理和管理平臺,設計用于數(shù)據(jù)移動、數(shù)據(jù)管道協(xié)調(diào)、生命周期管理和數(shù)據(jù)發(fā)現(xiàn)。它使終端用戶可以快速地將他們的數(shù)據(jù)及其相關(guān)的處理和管理任務“上載(onboard)”到Hadoop集群。 ?
Ambari(安裝部署配置管理工具) ?
Apache Ambari 的作用來說,就是創(chuàng)建、管理、監(jiān)視 Hadoop 的集群,是為了讓 Hadoop 以及相關(guān)的大數(shù)據(jù)軟件更容易使用的一個web工具。 ?