“大數(shù)據(jù)”自誕生之日起,業(yè)界對它的概念、技術(shù)和應用就存在一定爭議。究竟什么是大數(shù)據(jù)?有哪些大數(shù)據(jù)技術(shù)?大數(shù)據(jù)的未來是怎樣的?每個人都有自己的理解。在2013大數(shù)據(jù)產(chǎn)品評選活動舉辦之際,筆者采訪了此次擔任評委的幾位專家學者,看看專家眼中的“大數(shù)據(jù)”是什么樣的?
何春濤,Inetsoft研發(fā)總監(jiān),從事商業(yè)智能產(chǎn)品的研發(fā)和應用工作十幾年,在高性能及大數(shù)據(jù)商業(yè)智能的相關(guān)領(lǐng)域工作了五年。其負責的研發(fā)團隊多次獲得國際獎項,包括JavaOne、JDJ Readers' Choice Awards等。他也參與了一些機構(gòu)的商業(yè)智能系統(tǒng)的建設(shè)工作,包括麥考瑞銀行、世界衛(wèi)生組織、AT&T等,在商業(yè)智能、高性能商業(yè)智能、大數(shù)據(jù)商業(yè)智能等領(lǐng)域具備豐富的實戰(zhàn)經(jīng)驗。
大數(shù)據(jù)將演變成重要的企業(yè)資產(chǎn)
在何春濤看來,大數(shù)據(jù)的概念可以從以下兩個方面解釋:
1. 從技術(shù)的角度看,大數(shù)據(jù)是指數(shù)據(jù)量大且復雜到無法通過傳統(tǒng)數(shù)據(jù)庫技術(shù)進行治理和價值發(fā)掘。在這種需求下,各種NoSQL、NewSQL、開源技術(shù)或者商業(yè)平臺不斷出現(xiàn)并進化。
2. 從商業(yè)的角度來看,大數(shù)據(jù)將衍生出很多新的商業(yè)模式。其一、只要技術(shù)足夠,企業(yè)可以整合內(nèi)部和外部大數(shù)據(jù)(例如社交數(shù)據(jù)、App數(shù)據(jù)),更好地優(yōu)化自身業(yè)務,實現(xiàn)對傳統(tǒng)商業(yè)模式的超越。其二、只要技術(shù)足夠,企業(yè)將收集并治理那些不曾有能力收集并治理的大數(shù)據(jù),再發(fā)掘出巨大的商業(yè)價值。大數(shù)據(jù),將演變成重要的企業(yè)資產(chǎn)。
何春濤:大數(shù)據(jù)將成為重要的企業(yè)資產(chǎn)
最看好實時大數(shù)據(jù)技術(shù)
何春濤認為當前熱門的大數(shù)據(jù)技術(shù)主要包括以下內(nèi)容:
1. 用于大數(shù)據(jù)存儲的Hadoop HDFS,以及衍生的數(shù)據(jù)庫HBase;
2. 批處理大數(shù)據(jù)項目有Hadoop MR,它最新版本是YARN.衍生項目有數(shù)據(jù)倉庫Hive和機器學習Mahout;
3. 實時處理大數(shù)據(jù)的項目有:Spark以及衍生的數(shù)據(jù)倉庫Shark,Cloudera Impala;
4. 用于流計算的項目有Apache Storm.
5. 商業(yè)大數(shù)據(jù)產(chǎn)品有一體機例如PureData、Exadata、Hana;MPP DW例如Vertica、Aster Data、GP;MPP DM例如 Yonghong DM.
他表示,未來比較看好實時大數(shù)據(jù)技術(shù)。因為,實時大數(shù)據(jù)技術(shù)能夠讓企業(yè)對大數(shù)據(jù)進行探索式和交互式分析,相比于之前沒有靈活性和動態(tài)性的批處理大數(shù)據(jù)技術(shù)而言,它將大大提升發(fā)掘大數(shù)據(jù)價值的效率和可能性。
商業(yè)大數(shù)據(jù)應與開源產(chǎn)品平分秋色
談到對大數(shù)據(jù)未來的擔憂,何春濤表示,國內(nèi)大數(shù)據(jù)發(fā)展勢頭不錯,但以下三個方面仍需改進:
1. 商業(yè)大數(shù)據(jù)產(chǎn)品或者技術(shù)至少應該占1/2,而不應該逢大數(shù)據(jù)就聊開源。我們看到在美國很多大數(shù)據(jù)的商業(yè)公司越來越強大,例如Cloudera、Hortonworks、MapR、1010Data.但國內(nèi)企業(yè)要么大數(shù)據(jù)搞不起來,要么技術(shù)比較強的就自己搗騰開源,這不利于資源整合,優(yōu)勢互補。
2. 兩個極端。國內(nèi)大數(shù)據(jù)項目是啞鈴型,要么上超貴的一體機,要么上開源的大數(shù)據(jù)項目。實際上,在上大數(shù)據(jù)項目的時候,可以選取性價比比較好的商業(yè)產(chǎn)品或者商業(yè)服務,而不要走兩個極端。
3. 目前的主流大數(shù)據(jù)產(chǎn)品和技術(shù)都在美國。作為21世紀最重要的國家之一,中國應該有自己的主流大數(shù)據(jù)產(chǎn)品和技術(shù),而不僅僅是搬磚頭或者盲目跟從。希望能與各位同仁一起努力,在實時大數(shù)據(jù)領(lǐng)域做點工作。