
http://ourjs.com/detail/57e3446f696ab502edd8eac1?utm_source=tuicool&utm_medium=referral
一、 大數(shù)據(jù) 已成為企業(yè)信息供應(yīng)鏈中的重要一環(huán)
我們對(duì)大數(shù)據(jù)的認(rèn)知在前幾年還僅僅停留在概念和理論中,但轉(zhuǎn)眼間,你會(huì)發(fā)現(xiàn)身邊的 大數(shù)據(jù)項(xiàng)目 如雨后春筍般拔地而起,大數(shù)據(jù)儼然成為當(dāng)今熱得不能再熱的話題和焦點(diǎn)。因?yàn)镠adoop及其相關(guān)開源技術(shù)的橫空出世和迅猛發(fā)展,越來越多的企業(yè)發(fā)現(xiàn)那些塵封已久的歷史數(shù)據(jù)或每天正在以指數(shù)級(jí)產(chǎn)生的交易數(shù)據(jù)、日志數(shù)據(jù)和客戶行為數(shù)據(jù)其實(shí)蘊(yùn)藏著巨大的價(jià)值,猶如一座座尚未開發(fā)的金礦,誰能搶占先機(jī),就能挖掘并實(shí)現(xiàn)巨大的商業(yè)價(jià)值?;ヂ?lián)網(wǎng)企業(yè)深諳此道,利用大數(shù)據(jù)分析結(jié)果進(jìn)行產(chǎn)品推廣和定向營銷,大大改善了消費(fèi)者的購物體驗(yàn)和消費(fèi)習(xí)慣,在收獲口碑的同時(shí)也賺得盆滿缽滿!與此同時(shí),傳統(tǒng)企業(yè)也在積極轉(zhuǎn)型,紛紛將Hadoop大數(shù)據(jù)平臺(tái)納入到現(xiàn)有的IT架構(gòu)和解決方案,那么如何將傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)進(jìn)行高效的集成、管理和分析呢?如何保證數(shù)據(jù)的準(zhǔn)確性,一致性和可靠性呢?帶著眾多疑問,我們來看看IBM所提供的DataStage 大數(shù)據(jù)集成方案 ,一切必將豁然開朗。

二、大數(shù)據(jù)集成所面臨的挑戰(zhàn)
1.新型的數(shù)據(jù)存儲(chǔ)
大數(shù)據(jù)引入了新型的數(shù)據(jù)存儲(chǔ),例如,Hadoop及NoSQL,這些新型的數(shù)據(jù)存儲(chǔ)都需要集成。
沒有好的傳統(tǒng)方法能夠有效集成這些新型數(shù)據(jù)存儲(chǔ)。
2.新的數(shù)據(jù)類型及格式
非結(jié)構(gòu)化數(shù)據(jù);半結(jié)構(gòu)化數(shù)據(jù);JSON, Avro ...
視頻、文檔、網(wǎng)絡(luò)日志 ...
如何有效處理復(fù)雜且多樣化的數(shù)據(jù)
3.更大的數(shù)據(jù)量
需要針對(duì)更大的數(shù)據(jù)量進(jìn)行數(shù)據(jù)移動(dòng),轉(zhuǎn)換,清洗等等。
需要更好的可擴(kuò)展性

三、大數(shù)據(jù)信息整合是Hadoop項(xiàng)目成敗的關(guān)鍵
大部分的Hadoop方案包括以下階段:
數(shù)據(jù)收集
數(shù)據(jù)移動(dòng)
數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)清洗
數(shù)據(jù)整合
數(shù)據(jù)探查
數(shù)據(jù)分析
由于面對(duì)的是基于海量的,彼此孤立的異構(gòu)數(shù)據(jù)源和數(shù)據(jù)類型,所以大部分企業(yè)的Hadoop項(xiàng)目將花費(fèi)80%的精力在數(shù)據(jù)整合上,而僅有20%的精力用于數(shù)據(jù)分析??梢?,數(shù)據(jù)集成對(duì)Hadoop項(xiàng)目的成敗有多重要。

四、IBM大數(shù)據(jù)集成解決方案:InfoSphere DataStage
1. 集中、批量式處理:整合和連接、清洗轉(zhuǎn)換大數(shù)據(jù)
Hadoop大數(shù)據(jù)作為源和目標(biāo),同現(xiàn)有企業(yè)信息整合;
與現(xiàn)有整合任務(wù)具備同樣的開發(fā)界面和邏輯架構(gòu);
將處理邏輯下壓至MapReduce,利用Hadoop平臺(tái)最小化網(wǎng)絡(luò)開銷;
通過InfoSphere Streams流處理進(jìn)行實(shí)時(shí)分析流程;
驗(yàn)證和清洗大數(shù)據(jù)源的數(shù)據(jù)質(zhì)量;
貫穿大數(shù)據(jù)和/或傳統(tǒng)數(shù)據(jù)流通過世系跟蹤和血緣分析;

2.面向大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的豐富接口,支持企業(yè)所有的數(shù)據(jù)源和目標(biāo)
對(duì)DBMS(DB2, Netezza, Oracle, Teradata, SQL Server, GreenPlum,…)提供高性能的原生API;
提供特定的ERP連接器;
基于JDBC、ODBC連接器提供靈活支持(MySQL);
支持簡單和復(fù)雜的文件格式 (Flat, Cobol, XML, native Excel);
支持?jǐn)U展數(shù)據(jù)源:Web Services, Cloud, Java
連接Hadoop文件系統(tǒng)(HDFS),提供可擴(kuò)展的并行讀寫
直連InfoSphere Streams,支持實(shí)時(shí)分析處理
提供對(duì)NoSQL數(shù)據(jù)源(Hive,HBase,MongoDB,Cassandra)的支持

3.最廣泛的異構(gòu)平臺(tái)支持
