技術(shù)發(fā)展
技術(shù)上,這一年來Apache Kylin主要在以下幾個方面
Fast Cubing
在現(xiàn)在的版本中,Cube的計(jì)算依賴MapReduce,并且需要多個步驟的MR Job來完成計(jì)算,且MR Job的多少和維度相關(guān),越多的維度會帶來更多的MR job。而每一次MR job的啟停都需要等待集群調(diào)度,并且MR job之間的數(shù)據(jù)需要多次在HDFS落地和傳輸,從而導(dǎo)致消耗了大量的集群資源。為此我們引入了一種新的算法:Fast Cubing。一個MapReduce即可完成Cub的計(jì)算,測試結(jié)果表明整個Cubing的時間可以降低30~50%左右,網(wǎng)絡(luò)傳輸可以下降5倍,這在超大規(guī)模數(shù)據(jù)集的計(jì)算上帶來了客觀的性能改進(jìn)。
Streaming OLAP
Kylin作為一個預(yù)計(jì)算系統(tǒng),不可避免的有著數(shù)據(jù)刷新延遲的限制,這在大部分用戶案例中并不是問題,但隨著業(yè)務(wù)和技術(shù)的發(fā)展,Streaming甚至Realtime的需求越來越高。2015年Kylin的主要發(fā)展都在Streaming OLAP上,為了支持低延遲的數(shù)據(jù)刷新,從整體的架構(gòu)和設(shè)計(jì)上都做了相當(dāng)大的重新設(shè)計(jì),目前已經(jīng)可以支持從Kafka讀取數(shù)據(jù)并進(jìn)行聚合計(jì)算的能力,同時提供SQL接口為前端客戶端提供標(biāo)準(zhǔn)的訪問接口,數(shù)據(jù)延遲已經(jīng)可以做到分鐘級別。
Spark Cubing
Spark作為MapReduce的一種替代方案一直在社區(qū)中被問及Kylin是否可以支持直接使用Spark來作為計(jì)算。為此我們在2015年下半年實(shí)現(xiàn)了同樣算法的Spark Cubing引擎,目前還在測試中。
可插拔架構(gòu)
為了更廣泛的可擴(kuò)展性,并支持如上各種新特性,Kylin在2.x的代碼中引入了可插拔架構(gòu)和設(shè)計(jì),從而解決了對特定技術(shù)的依賴問題。在新的設(shè)計(jì)中,數(shù)據(jù)源可以從Hive,SparkSQL等各種SQL on Hadoop技術(shù)讀取,并支持Kafka;在計(jì)算引擎方面,除了MapReduce方面的Fast Cubing外,實(shí)現(xiàn)了Spark Cubing,Streaming Cubing等多種計(jì)算框架,并為將來其他計(jì)算框架留下了擴(kuò)展接口;在存儲上,HBase目前依然是唯一的存儲層,但在上層設(shè)計(jì)中已經(jīng)很好的進(jìn)行了抽象,很容易可以擴(kuò)展到其他Key-Value系統(tǒng)。
2,大數(shù)據(jù)與機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是數(shù)據(jù)分析不可缺少的一部分。機(jī)器學(xué)習(xí)被贊譽(yù)為大數(shù)據(jù)分析和商務(wù)智能發(fā)展的未來,成功的機(jī)器學(xué)習(xí)項(xiàng)目依賴于很多因素,包括選擇正確的主題,運(yùn)行環(huán)境,合理的機(jī)器學(xué)習(xí)模型,最重要的是現(xiàn)有的數(shù)據(jù),大數(shù)據(jù)為機(jī)器學(xué)習(xí)提供了很好的用武之地。
機(jī)器學(xué)習(xí)正很快從一個被很少人關(guān)注的技術(shù)主題轉(zhuǎn)變?yōu)楸缓芏嗳耸褂玫墓芾砉ぞ?。?yōu)秀的算法,大數(shù)據(jù)和高性能的計(jì)算資源的條件的滿足使得機(jī)器學(xué)習(xí)快速發(fā)展,機(jī)器學(xué)習(xí)在今年第一次進(jìn)入Gartner技術(shù)成熟曲線的報(bào)告中,已直接越過了期望鵬展期的高峰,進(jìn)入大數(shù)據(jù)一樣的應(yīng)用期;而機(jī)器學(xué)習(xí)也是報(bào)告中第一個出現(xiàn)的技術(shù)。2015年是機(jī)器學(xué)習(xí)豐收年,發(fā)生了很多令人矚目的大事。
各大巨頭開源:
2015年1月,F(xiàn)acebook開源前沿深度學(xué)習(xí)工具“Torch”。
2015年4月,亞馬遜啟動其機(jī)器學(xué)習(xí)平臺Amazon Machine Learning,這是一項(xiàng)全面的托管服務(wù),讓開發(fā)者能夠輕松使用歷史數(shù)據(jù)開發(fā)并部署預(yù)測模型。
2015年11月,谷歌開源其機(jī)器學(xué)習(xí)平臺TensorFlow。
同一月,IBM開源SystemML并成為Apache官方孵化項(xiàng)目。
同時,微軟亞洲研究院將分布式機(jī)器學(xué)習(xí)工具DMTK通過Github開源。DMTK由一個服務(wù)于分布式機(jī)器學(xué)習(xí)的框架和一組分布式機(jī)器學(xué)習(xí)算法組成,可將機(jī)器學(xué)習(xí)算法應(yīng)用到大數(shù)據(jù)中。
2015年12月,F(xiàn)acebook開源針對神經(jīng)網(wǎng)絡(luò)研究的服務(wù)器“Big Sur”,配有高性能圖形處理單元(GPUs),轉(zhuǎn)為深度學(xué)習(xí)方向設(shè)計(jì)的芯片。
大公司不僅是用開源社區(qū)來增強(qiáng)自己的機(jī)器學(xué)習(xí)工具,而且也會以收購來提升自身的機(jī)器學(xué)習(xí)實(shí)力。如IBM于今年3月收購了AIchemyAPI,AIchemyAPI能夠利用深度學(xué)習(xí)人工智能,搜集企業(yè)、網(wǎng)站發(fā)型的圖片和文字等來進(jìn)行文本識別和數(shù)據(jù)分析。
此外,2015年不僅僅是關(guān)于大公司的,利用機(jī)器學(xué)習(xí)的各種創(chuàng)業(yè)公司也占了同等地位。比如EverString完成B輪融資,該公司利用企業(yè)內(nèi)部銷售數(shù)據(jù),和不斷主動挖掘分析全球新聞數(shù)據(jù),社交媒體等外部數(shù)據(jù),通過機(jī)器學(xué)習(xí)自動建立量化客戶模型,為企業(yè)預(yù)測潛在客戶。
3,數(shù)據(jù)科學(xué)家的崛起
大數(shù)據(jù)需要數(shù)據(jù)分析,數(shù)據(jù)分析需要人才。數(shù)據(jù)科學(xué)是早就存在的詞匯,而數(shù)據(jù)科學(xué)家卻是近年來突然出現(xiàn)的新詞。在Google、Amazon、Quora、Facebook等大公司的背后,都有一批數(shù)據(jù)科學(xué)專業(yè)人才,將大量數(shù)據(jù)變?yōu)榭砷_發(fā)有價(jià)值的金礦。在大數(shù)據(jù)時代,數(shù)據(jù)科學(xué)家等分析人才的需求在激增。