關鍵是在項目的初期讓具有很強數(shù)據(jù)分析背景的主題專家與數(shù)據(jù)科學家合作來界定問題。
以下是益博睿公司的大數(shù)據(jù)分析方案的一個例子。當制定分析解決方案來打擊身份欺詐時,所面臨的挑戰(zhàn)可能是評估各項個人身份信息(PII)是否合法,例如姓名、地址和社會保險號碼等?;蛘呙媾R的另一個挑戰(zhàn)可能是當一個客戶使用一組身份信息申請貸款,評估該客戶是否是那些身份信息的合法所有者。或者這兩種挑戰(zhàn)可能同時存在。
第一個挑戰(zhàn)是“偽造身份”問題,這需要建立一個分析模型來評估在客戶或個人身份信息級別開發(fā)的偽造身份的風險,Xiong說道。第二個挑戰(zhàn)是申請欺詐問題,欺詐風險評估分數(shù)需要在應用程序層面開發(fā)出來。益博睿公司不得不將這些問題理解為不同的問題,盡管這些問題可能在最初被看作是同一個問題,只是以不同方式陳述,然后創(chuàng)建正確的模型,進行分析來解決這些問題。
當一組個人身份信息提交給兩家金融機構來申請貸款時,通常是返回兩個相同的綜合風險分數(shù),但通常這不是申請欺詐評分的必要特征,Xiong說道。
正確的算法必須應用于正確的數(shù)據(jù),以獲取商業(yè)智能并進行準確的預測。在建模過程中收集和包含相關數(shù)據(jù)集幾乎總是比微調(diào)機器學習算法更重要,因此數(shù)據(jù)工作應該被視為首要任務。
4.建立一個數(shù)據(jù)湖,不要吝嗇帶寬
正如大數(shù)據(jù)的含義,其涉及海量的數(shù)據(jù)。在過去,很少有組織可以存儲這么多的數(shù)據(jù),更不用說來整理和分析數(shù)據(jù)了。但當今,高性能存儲技術和大規(guī)模并行處理在云端和通過組織內(nèi)部系統(tǒng)來部署得到廣泛使用。
但是,存儲本身還是不夠的。您需要一種方法來處理不同類型的數(shù)據(jù),將這些數(shù)據(jù)輸入給大數(shù)據(jù)分析工具。這就是Apache Hadoop的卓越功能,它允許對海量的不同類型的數(shù)據(jù)集進行存儲和映射。這些存儲庫通常被稱為數(shù)據(jù)湖。一個真正的湖泊通常是由多條溪流匯聚形成,它包含許多種植物、魚類和其他動物。而一個數(shù)據(jù)湖通常由多個數(shù)據(jù)源提供數(shù)據(jù),并且包含許多類型的數(shù)據(jù)。
但數(shù)據(jù)湖不應該是數(shù)據(jù)的垃圾場。亞利桑那州立大學研究計算主管Jay Etchings說,您需要考慮如何聚合數(shù)據(jù),以有意義的方式擴展屬性。數(shù)據(jù)可能是不同的,但是如何使用可靠的數(shù)據(jù)架構來利用MapReduce和Apache Spark等工具對數(shù)據(jù)進行轉換用于分析。
創(chuàng)建一個數(shù)據(jù)湖,在數(shù)據(jù)湖中進行數(shù)據(jù)獲取,數(shù)據(jù)索引和數(shù)據(jù)規(guī)范化,這些都是大數(shù)據(jù)策略的精心規(guī)劃的組件。Etchings表示,如果沒有清晰明確的藍圖,大多數(shù)數(shù)據(jù)密集型方案將注定失敗。
同樣,擁有足夠的帶寬至關重要,否則數(shù)據(jù)將不會從各種來源匯聚到數(shù)據(jù)湖中,并且商業(yè)用戶擁有足夠的帶寬是非常有益的。Etchings說,為了實現(xiàn)擁有海量數(shù)據(jù)資源的承諾,不僅需要配備可實現(xiàn)每秒讀取數(shù)百萬次(IOPS)的快速磁盤,而且還需要配備可以在數(shù)據(jù)生成時輕松訪問數(shù)據(jù)的互連節(jié)點和處理引擎。
從社交媒體趨勢到流量路由,速度對于實時分析尤其重要。所以在最快速的互聯(lián)網(wǎng)絡中創(chuàng)建你的數(shù)據(jù)湖。
5.在大數(shù)據(jù)的各個方面規(guī)劃安全措施
計算基礎設施組件的高度異質性大大增加了組織機構從數(shù)據(jù)中獲取洞察力的能力。但是有一個缺點:Etchings說,系統(tǒng)的管理和安全性變得更加復雜。伴隨著海量的數(shù)據(jù)和多數(shù)大數(shù)據(jù)分析系統(tǒng)上運行的任務日益重要,在保護系統(tǒng)和數(shù)據(jù)方面未能采取足夠的預防措施,這在很大程度上是在自找麻煩。
公司收集、存儲、分析和共享的大部分數(shù)據(jù)都是客戶信息,其中一些是個人身份信息和可識別的信息。如果這些數(shù)據(jù)落入不法分子的手中,結果是可預測的:法律訴訟導致金錢損失和可能引發(fā)的監(jiān)管處罰,引起品牌和聲譽受損,以及客戶的不滿。
您的安全措施應包括部署基本的企業(yè)工具:盡可能實行數(shù)據(jù)加密,身份和訪問管理以及網(wǎng)絡安全。但是,您的安全措施還應包括策略執(zhí)行以及有關正確訪問和使用數(shù)據(jù)的培訓。
6.把數(shù)據(jù)管理和質量列為頭等大事
確保良好的數(shù)據(jù)管理和質量應該是所有大數(shù)據(jù)分析項目的特征,否則失敗的可能性就會更大。
您需要對其進行控制,以確保數(shù)據(jù)及時更新、并能準確且及時地傳送。作為GoDaddy公司大數(shù)據(jù)方案的一部分,當數(shù)據(jù)更新失敗或運行遲緩時,該公司預警機制會通知管理員。此外,GoDaddy公司已經(jīng)開始對關鍵指標進行了數(shù)據(jù)質量檢查,當這些指標不符合預期時會發(fā)出警報。