集“Hadoop中國云計算大會”與“CSDN大數(shù)據(jù)技術大會”精華之大成, 歷屆的中國大數(shù)據(jù)技術大會(BDTC) 已發(fā)展成為國內(nèi)事實上的行業(yè)頂尖技術盛會。從2008年的60人Hadoop沙龍到當下的數(shù)千人技術盛宴,作為業(yè)內(nèi)極具實戰(zhàn)價值的專業(yè)交流平臺,每一屆的中國大數(shù)據(jù)技術大會都忠實地描繪了大數(shù)據(jù)領域內(nèi)的技術熱點,沉淀了行業(yè)實戰(zhàn)經(jīng)驗,見證了整個大數(shù)據(jù)生態(tài)圈技術的發(fā)展與演變。
2014年12月12-14日,由中國計算機學會(CCF)主辦,CCF大數(shù)據(jù)專家委員會協(xié)辦,中科院計算所與CSDN共同承辦的 2014中國大數(shù)據(jù)技術大會(Big Data Technology Conference 2014,BDTC 2014) 將在北京新云南皇冠假日酒店拉開帷幕。大會為期三天,以推進行業(yè)應用中的大數(shù)據(jù)技術發(fā)展為主旨,擬設立“大數(shù)據(jù)基礎設施”、“大數(shù)據(jù)生態(tài)系統(tǒng)”、“大數(shù)據(jù)技術”、“大數(shù)據(jù)應用”、“大數(shù)據(jù)互聯(lián)網(wǎng)金融技術”、“智能信息處理”等多場主題論壇與行業(yè)峰會。由中國計算機學會主辦,CCF大數(shù)據(jù)專家委員會承辦,南京大學與復旦大學協(xié)辦的“2014年第二屆CCF大數(shù)據(jù)學術會議”也將同時召開,并與技術大會共享主題報告。
本次大會將邀請近100位國外大數(shù)據(jù)技術領域頂尖專家與一線實踐者,深入討論Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等開源軟件的最新進展,NoSQL/NewSQL、內(nèi)存計算、流計算和圖計算技術的發(fā)展趨勢,OpenStack生態(tài)系統(tǒng)對于大數(shù)據(jù)計算需求的思考,以及大數(shù)據(jù)下的可視化、機器學習/深度學習、商業(yè)智能、數(shù)據(jù)分析等的最新業(yè)界應用,分享實際生產(chǎn)系統(tǒng)中的技術特色和實踐經(jīng)驗。
大會召開前期,特別梳理了歷屆大會亮點以記錄中國大數(shù)據(jù)技術領域發(fā)展歷程,并立足當下生態(tài)圈現(xiàn)狀對即將召開的BDTC 2014進行展望:
追本溯源,悉大數(shù)據(jù)六大技術變遷
伴隨著大數(shù)據(jù)技術大會的發(fā)展,我們親歷了中國大數(shù)據(jù)技術與應用時代的到來,也見證了整個大數(shù)據(jù)生態(tài)圈技術的發(fā)展與衍變:
1. 計算資源的分布化——從網(wǎng)格計算到云計算?;仡櫄v屆BDTC大會,我們不難發(fā)現(xiàn),自2009年,資源的組織和調(diào)度方式已逐漸從跨域分布的網(wǎng)格計算向本地分布的云計算轉(zhuǎn)變。而時至今日,云計算已成為大數(shù)據(jù)資源保障的不二平臺。
2. 數(shù)據(jù)存儲變更——HDFS、NoSQL應運而生。隨著數(shù)據(jù)格式越來越多樣化,傳統(tǒng)關系型存儲已然無法滿足新時代的應用程序需求,HDFS、NoSQL等新技術應運而生,并成為當下許多大型應用架構不可或缺的一環(huán),也帶動了定制計算機/服務器的發(fā)展,同時也成為大數(shù)據(jù)生態(tài)圈中最熱門的技術之一。
3. 計算模式改變——Hadoop計算框成主流。為了更好和更廉價地支撐其搜索服務,Google創(chuàng)建了Map/Reduce和GFS。而在Google論文的啟發(fā)下,原雅虎工程師Doug Cutting開創(chuàng)了與高性能計算模式迥異的,計算向數(shù)據(jù)靠攏的Hadoop軟件生態(tài)系統(tǒng)。Hadoop天生高貴,時至今日已成為Apache基金會最“Hot”的開源項目,更被公認為大數(shù)據(jù)處理的事實標準。Hadoop以低廉的成本在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力。因此,Hadoop技術研討與實踐分享也一直是歷屆中國大數(shù)據(jù)技術大會最亮眼的特色之一。
4. 流計算技術引入——滿足應用的低延遲數(shù)據(jù)處理需求。隨著業(yè)務需求擴展,大數(shù)據(jù)逐漸走出離線批處理的范疇,Storm、Kafka等將實時性、擴展性、容錯性和靈活性發(fā)揮得淋漓盡致的流處理框架,使得舊有消息中間件技術得以重生。成為歷屆BDTC上一道亮麗的風景線。
5. 內(nèi)存計算初露端倪——新貴Spark敢與老將叫板。Spark發(fā)源于美國加州大學伯克利分校AMPLab的集群計算平臺,它立足于內(nèi)存計算,從多迭代批量處理出發(fā),兼容并蓄數(shù)據(jù)倉庫、流處理和圖計算等多種計算范式,是罕見的全能選手。在短短4年,Spark已發(fā)展為Apache軟件基金會的頂級項目,擁有30個Committers,其用戶更包括IBM、Amazon、Yahoo!、Sohu、百度、阿里、騰訊等多家知名公司,還包括了Spark SQL、Spark Streaming、MLlib、GraphX等多個相關項目。毫無疑問,Spark已站穩(wěn)腳跟。
6. 關系數(shù)據(jù)庫技術進化—NewSQL改寫數(shù)據(jù)庫歷史。關系數(shù)據(jù)庫系統(tǒng)的研發(fā)并沒有停下腳步,在橫向擴展、高可用和高性能方面也在不斷進步。實際應用對面向聯(lián)機分析處理(OLAP)的MPP(Massively Parallel Processing)數(shù)據(jù)庫的需求最迫切,包括MPP數(shù)據(jù)庫學習和采用大數(shù)據(jù)領域的新技術,如多副本技術、列存儲技術等。而面向聯(lián)機事務處理(OLTP)的數(shù)據(jù)庫則向著高性能演進,其目標是高吞吐率、低延遲,技術發(fā)展趨勢包括全內(nèi)存化、無鎖化等。