立足揚帆,看2014大數(shù)據(jù)生態(tài)圈發(fā)展
時光荏苒,轉(zhuǎn)眼間第2014中國大數(shù)據(jù)技術(shù)大會將如期舉行。在技術(shù)日新月異的當(dāng)下,2014年的BDTC上又可以洞察些什么?這里我們不妨著眼當(dāng)下技術(shù)發(fā)展趨勢:
1. MapReduce已成頹勢,YARN/Tez是否可以再創(chuàng)輝煌?對于Hadoop來說,2014是歡欣鼓舞的一年——EMC、Microsoft、Intel、Teradata、Cisco等眾多巨頭都加大了Hadoop方面的投入。然而對于眾多機構(gòu)來說,這一年卻并不輕松:基于MapReduce的實時性短板以及機構(gòu)對更通用大數(shù)據(jù)處理平臺的需求,Hadoop 2.0轉(zhuǎn)型已勢在必行。那么,在轉(zhuǎn)型中,機構(gòu)究竟會遭遇什么樣的挑戰(zhàn)?各個機構(gòu)如何才能更好地利用YARN所帶來的新特性?Hadoop未來的發(fā)展又會有什么重大變化?為此,BDTC 2014特邀請了Apache Hadoop committer,Apache Hadoop Project Management Committee(PMC)成員Uma Maheswara Rao G,Apache Hadoop committer Yi Liu,Bikas Saha(PMC member of the Apache Hadoop and Tez)等國際頂尖Hadoop專家,我們不妨當(dāng)面探討。
2. 時過境遷,Storm、Kafka等流計算框架前途未卜。如果說MapReduce的緩慢給眾多流計算框架帶來了可乘之機,那么當(dāng)Hadoop生態(tài)圈組件越發(fā)成熟,Spark更加易用,迎接這些流計算框架的又是什么?這里我們不妨根據(jù)BDTC 2014近百場的實踐分享進行一個側(cè)面的了解,亦或是與專家們當(dāng)面交流。
3. Spark,是顛覆還是補充?與Hadoop生態(tài)圈的兼容,讓Spark的發(fā)展日新月異。然而根據(jù)近日Sort Benchmark公布的排序結(jié)果,在海量(100TB)離線數(shù)據(jù)排序上,對比上屆冠軍Hadoop,Spark以不到十分之一的機器,只使用三分之一的時間就完成了同樣數(shù)據(jù)量的排序。毫無疑問,當(dāng)下Spark已不止步于實時計算,目標(biāo)直指通用大數(shù)據(jù)處理平臺,而終止Shark,開啟Spark SQL或許已經(jīng)初見端倪。那么,當(dāng)Spark愈加成熟,更加原生的支持離線計算后,開源大數(shù)據(jù)標(biāo)準(zhǔn)處理平臺這個榮譽又將花落誰家?這里我們一起期待。
4. 基礎(chǔ)設(shè)施層,用什么來提升我們的網(wǎng)絡(luò)?時至今日,網(wǎng)絡(luò)已成為眾多大數(shù)據(jù)處理平臺的攻堅對象。比如,為了克服網(wǎng)絡(luò)瓶頸,Spark使用新的基于Netty的網(wǎng)絡(luò)模塊取代了原有的NIO網(wǎng)絡(luò)模塊,從而提高了對網(wǎng)絡(luò)帶寬的利用。那么,在基礎(chǔ)設(shè)施層我們又該如何克服網(wǎng)絡(luò)這個瓶頸?直接使用更高效的網(wǎng)絡(luò)設(shè)備,比如Infiniband能夠帶來多少性能提升?建立一個更智能網(wǎng)絡(luò),通過計算的每個階段,自適應(yīng)來調(diào)整拆分/合并階段中的數(shù)據(jù)傳輸要求,不僅提高了速度,也提高了利用率。在BDTC 2014上,我們可以從Infiniband/RDMA技術(shù)及應(yīng)用演講,以及數(shù)場SDN實戰(zhàn)上吸取寶貴的經(jīng)驗。
5. 數(shù)據(jù)挖掘的靈魂——機器學(xué)習(xí)。近年來,機器學(xué)習(xí)領(lǐng)域的人才搶奪已進入白熱化,類似Google、IBM、微軟、百度、阿里、騰訊對機器學(xué)習(xí)領(lǐng)域的投入也是愈來愈高,囊括了芯片設(shè)計、系統(tǒng)結(jié)構(gòu)(異構(gòu)計算)、軟件系統(tǒng)、模型算法和深度應(yīng)用各個方面。大數(shù)據(jù)標(biāo)志一個新時代的到來,PB數(shù)據(jù)讓人們坐擁金山,然而缺少了智能算法,機器學(xué)習(xí)這個靈魂,價值的提取無疑變得鏡花水月。而在本屆會議上,我們同樣為大家準(zhǔn)備了數(shù)場機器學(xué)習(xí)相關(guān)分享,靜候諸位參與。
而在技術(shù)分享之外,2014年第二屆CCF大數(shù)據(jù)學(xué)術(shù)會議也將同時召開,并與技術(shù)大會共享主題報告。屆時,我們同樣可以斬獲許多來自學(xué)術(shù)領(lǐng)域的最新科研成果。