當(dāng)然,我們既要抬頭看路,更要腳踏實(shí)地。因此,在大數(shù)據(jù)概念滿天飛的時(shí)候,我們既要抓住時(shí)機(jī),挖掘價(jià)值,還要思考本質(zhì),不在混亂的時(shí)候迷失方向
白碩:智慧變價(jià)值,還有個(gè)從“集”到“散”的環(huán)節(jié)吧?
程學(xué)旗:對(duì),“集”產(chǎn)生智慧,“智慧”分散支撐更廣泛的“價(jià)值”
@大潘:對(duì)數(shù)據(jù)的思路,最終還是要靠系統(tǒng)來實(shí)現(xiàn)
@wuyj:有沒有從量增到質(zhì)變?
程學(xué)旗:@wuyj所以說從量增到質(zhì)變、從“還原論”到“系統(tǒng)論”,類似的道理
程學(xué)旗:從業(yè)界來看,當(dāng)前大數(shù)據(jù)系統(tǒng)有三個(gè)明顯的特點(diǎn)與我們2013年底發(fā)布的十大趨勢相關(guān)
【1】大數(shù)據(jù)的高效深度分析需要專用化的系統(tǒng)
在應(yīng)用數(shù)據(jù)快速增長的背景下,為了降低成本獲得更好的能效,大數(shù)據(jù)系統(tǒng)需要逐漸擺脫傳統(tǒng)的通用技術(shù)體系,趨向?qū)S没募軜?gòu)和處理技術(shù)。這方面,國內(nèi)百度、阿里巴巴和騰訊三大互聯(lián)網(wǎng)巨頭做出了嘗試并取得了很好的效果。眾所周知,百度的大數(shù)據(jù)典型應(yīng)用是中文搜索,阿里巴巴的大數(shù)據(jù)典型應(yīng)用是基于交易日志分析的數(shù)據(jù)服務(wù),騰訊的大數(shù)據(jù)典型應(yīng)用是圖片數(shù)據(jù)存儲(chǔ)和基于用戶行為的廣告實(shí)時(shí)推薦。百度去年底成立專門的大數(shù)據(jù)部門,旨在深度挖掘大數(shù)據(jù)的價(jià)值。阿里巴巴已將不同業(yè)務(wù)部門的大數(shù)據(jù)技術(shù)整合在一起為數(shù)據(jù)產(chǎn)品提供統(tǒng)一的服務(wù)。騰訊的數(shù)據(jù)平臺(tái)部正在將全公司的數(shù)據(jù)納入統(tǒng)一管理平臺(tái)。阿里巴巴在技術(shù)上與開源社區(qū)結(jié)合得最為緊密;騰訊大數(shù)據(jù)目前正在向開源技術(shù)靠攏;百度在技術(shù)層面偏好自行研發(fā),包括軟硬件定制化方案也是最先投入實(shí)用。技術(shù)上,他們的共同之處是,不再依賴傳統(tǒng)的IOE,而基于開源系統(tǒng)(如Hadoop等)開發(fā)面向典型應(yīng)用的大規(guī)模、高通量、低成本、強(qiáng)擴(kuò)展的專用化系統(tǒng)。
【2】大數(shù)據(jù)處理架構(gòu)多樣化模式并存
當(dāng)前,克隆了Google的GFS和MapReduce的ApacheHadoop自2008年以來逐漸被互聯(lián)網(wǎng)企業(yè)所廣泛接納,并成為大數(shù)據(jù)處理領(lǐng)域的事實(shí)標(biāo)準(zhǔn)。但2013年出現(xiàn)的Spark作為一匹黑馬終結(jié)了這一神話,大數(shù)據(jù)技術(shù)不再一家獨(dú)大。由于應(yīng)用不同導(dǎo)致Hadoop一套軟件系統(tǒng)不可能滿足所有需求,在全面兼容Hadoop的基礎(chǔ)上,Spark通過更多的利用內(nèi)存處理大幅提高系統(tǒng)性能。此外,Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Shark等的出現(xiàn)并不是取代Hadoop,而是擴(kuò)大了大數(shù)據(jù)技術(shù)的生態(tài)環(huán)境,促使生態(tài)環(huán)境向良性化和完整化發(fā)展。今后在非易失存儲(chǔ)層面、網(wǎng)絡(luò)通信層面、易失存儲(chǔ)層面和計(jì)算框架層面還會(huì)出現(xiàn)更多、更好和更專用化的軟件系統(tǒng)。
【3】實(shí)時(shí)計(jì)算逐步受到業(yè)界關(guān)注
Google于2010年推出了Dremel,引領(lǐng)業(yè)界向?qū)崟r(shí)計(jì)算邁進(jìn)。實(shí)時(shí)計(jì)算是針對(duì)MapReduce這種批量計(jì)算的性能問題提出的,可分為流式計(jì)算和交互式分析計(jì)算兩種模式。在大數(shù)據(jù)背景下,流式計(jì)算源于服務(wù)器日志的實(shí)時(shí)采集,如Facebook開源的Scribe是分布式日志收集系統(tǒng),ApacheFlume是類似的系統(tǒng)。ApacheKafka是高吞吐率的分布式消息系統(tǒng),特點(diǎn)是高通量和容錯(cuò)。Storm是容錯(cuò)的分布式實(shí)時(shí)計(jì)算系統(tǒng),可以可靠的處理流式數(shù)據(jù)并進(jìn)行實(shí)時(shí)處理,單機(jī)性能可達(dá)到百萬記錄每秒。Storm可集成ApacheKafka作為其隊(duì)列系統(tǒng)。作為批量計(jì)算的補(bǔ)充,交互式分析計(jì)算的目標(biāo)是將PB級(jí)數(shù)據(jù)的處理時(shí)間縮短到秒級(jí)。ApacheDrill是開源的Dremel實(shí)現(xiàn),雖已有應(yīng)用但尚不成熟。由Cloudera主導(dǎo)的Impala也參照Dremel實(shí)現(xiàn),同時(shí)還參考了MPP的設(shè)計(jì)思想,目前已經(jīng)接近實(shí)用階段。Hortonworks主導(dǎo)開發(fā)了TEZ/Stinger,TEZ是運(yùn)行在YARN(Hadoop2.0的資源管理框架)上的DAG計(jì)算框架,而Stinger是下一代的Hive。2013年底,由Facebook開源的Presto分布式SQL查詢引擎可對(duì)250PB以上的數(shù)據(jù)進(jìn)行交互式分析,比Hive的性能高出10倍。類似的Shark是Spark上的SQL執(zhí)行引擎,得益于Shark的列存儲(chǔ)和Spark的內(nèi)存處理等特性,Shark號(hào)稱可以比Hive的性能提高100倍。
白碩:實(shí)時(shí)計(jì)算、流式數(shù)據(jù)、復(fù)雜事件處理
程學(xué)旗:這些過于技術(shù)細(xì)節(jié)了。大數(shù)據(jù)系統(tǒng)的三個(gè)特點(diǎn)就是“引擎專用化”、“平臺(tái)多樣化”、“計(jì)算實(shí)時(shí)化”
@大潘:大數(shù)據(jù)處理技術(shù)還不會(huì)相對(duì)穩(wěn)定,最近幾年一定還會(huì)有多樣化的技術(shù)和系統(tǒng)出現(xiàn)。
白碩:未進(jìn)入穩(wěn)定期的另一個(gè)說法就是處在機(jī)遇期
@有良心和良知的人:算法是問題嗎?