- 第一個問題就是數(shù)據(jù)捕獲。當(dāng)然,我們知道數(shù)據(jù)來自不同的源頭,有的是來自傳感器,有的是來自網(wǎng)絡(luò)線上交易,有的是來自消費者行為,有的是來自智能手機或者是移動設(shè)備。來自不同源頭的數(shù)據(jù)的格式也不一樣,我們必須用有效的方式捕獲數(shù)據(jù)。
- 第二點是持有這些數(shù)據(jù)或者是存儲這些數(shù)據(jù)。我們之前說過數(shù)據(jù)量非常大,必須得到妥善的存儲和保護,數(shù)據(jù)的可訪問性要非常好,所有數(shù)據(jù)都需要實時進行訪問。
- 第三點,也是最重要的一點,就是數(shù)據(jù)分析。數(shù)據(jù)只有進行了合理分析才能獲得價值,才能實時獲取更多的信息,獲取有價值的信息,把數(shù)據(jù)轉(zhuǎn)變成信息。
我們要考慮三個問題。很多演講嘉賓都談到了這一點,這一點對大數(shù)據(jù)這個行業(yè)非常重要,所以我們要再次強調(diào),工具、開源以及框架設(shè)施非常重要。開源包括軟件和硬件的開源,這三大金剛是非常重要的。
開源對云計算非常重要
大家在這兩天一直談?wù)揌adoop這個話題,Hadoop已經(jīng)成為新的主流范式,而十幾年前用的軟件開發(fā)范式已經(jīng)不適用了。之前幾年的軟件開發(fā)范式只適合處理結(jié)構(gòu)化的數(shù)據(jù),面對非結(jié)構(gòu)化的數(shù)據(jù),Hadoop是主流。Hadoop有一個有效的框架,可以處理非結(jié)構(gòu)的數(shù)據(jù),尤其是處理分布式數(shù)據(jù)。Hadoop有一些支持處理和分析的工具,這些是非常重要的,而且這些工具也在不斷改進。我相信可以通過工具的改進進一步挖掘大數(shù)據(jù)的價值。
還有一點,是