對(duì)于大數(shù)據(jù)領(lǐng)域來說,2016是令人激動(dòng)的一年,因?yàn)?ldquo;大數(shù)據(jù)”終于不再是一個(gè)流行詞。這說明研究者們正在基于大數(shù)據(jù)開發(fā)真實(shí)可用的解決方案和應(yīng)用程序,而不再是簡單的噱頭。
2017年,隨著技術(shù)的進(jìn)步,以大數(shù)據(jù)為基礎(chǔ)而開發(fā)的應(yīng)用將越來越豐富。由于計(jì)算機(jī)的計(jì)算能力和真實(shí)可用的龐大數(shù)據(jù)量不再是問題,因此以人工智能和深度學(xué)習(xí)為代表的智能應(yīng)用也將變得更加聰明,更加普及??傮w上說,由于大數(shù)據(jù)、智能應(yīng)用和越來越豐富的智能終端產(chǎn)品的出現(xiàn),2017年應(yīng)該是值得我們期待的一年。不過,隨著大數(shù)據(jù)的廣泛應(yīng)用,數(shù)據(jù)安全和隱私問題也將越來越嚴(yán)峻。
6.RonaldvanLoon,Adversitement網(wǎng)站主管,大數(shù)據(jù)科學(xué)領(lǐng)域年度10大影響力人物之一。
2016是大數(shù)據(jù)科學(xué)領(lǐng)域產(chǎn)生重大變化的一年??梢钥吹?,無論是單一學(xué)科還是跨學(xué)科的用戶,在這一年中都在向著以數(shù)據(jù)驅(qū)動(dòng)為核心的組織架構(gòu)調(diào)整。而且通過物聯(lián)網(wǎng)的進(jìn)一步普及,我們已經(jīng)在某些核心應(yīng)用場(chǎng)景積累了大數(shù)據(jù)處理和傳輸?shù)膶氋F經(jīng)驗(yàn)。另外,由于強(qiáng)大的云計(jì)算平臺(tái)的支持,越來越多的機(jī)器學(xué)習(xí)應(yīng)用也正在研發(fā)之中。
在2017年,這一趨勢(shì)將得以延續(xù),人工智能、機(jī)器學(xué)習(xí)和物聯(lián)網(wǎng)應(yīng)用在大數(shù)據(jù)的支撐下將迎來一個(gè)爆發(fā)性的增長。目前,技術(shù)研發(fā)能力已經(jīng)就緒,對(duì)于市場(chǎng)需求的靈活迭代機(jī)制也越發(fā)成熟,根據(jù)預(yù)測(cè),截止2020年,接入互聯(lián)網(wǎng)的設(shè)備總數(shù)將達(dá)到100億-340億之間。
7.JeffUllman,斯坦福大學(xué)計(jì)算學(xué)科教授,主要研究數(shù)據(jù)庫理論、數(shù)據(jù)庫集成一體化和數(shù)據(jù)挖掘等。
歐盟剛剛針對(duì)大數(shù)據(jù)的使用和分析模型的建立出臺(tái)了一個(gè)新的隱私保護(hù)法(AI科技評(píng)論獲悉,這一法案將于2018年1月起正式施行)?,F(xiàn)在還無法確定這一法案將會(huì)造成怎樣的影響,但有一點(diǎn)似乎可以確定,那就是它將在很大程度上避免深度學(xué)習(xí)領(lǐng)域內(nèi)由于分析模型亂用導(dǎo)致的意外問題。目前許多公司都在與歐盟溝通,試圖確認(rèn)究竟哪些數(shù)據(jù)資源和分析模型是可用的,而哪些不行。比如說,谷歌可以探測(cè)一封郵件的內(nèi)容,并且將其和已知的垃圾郵件對(duì)比,如果內(nèi)容類似就判定這封郵件為垃圾郵件。那么谷歌到底有沒有讀取用戶郵件的權(quán)利?這些問題都還有待確定。
8.MateiZaharia,Databricks平臺(tái)首席科學(xué)家,大數(shù)據(jù)處理框架ApacheSpark創(chuàng)始人。
1)公有云正在成為部署大數(shù)據(jù)應(yīng)用的主流平臺(tái)。根據(jù)2016年夏天的用戶調(diào)查結(jié)果顯示,在公有云部署Spark框架的用戶比例高達(dá)61%,而使用HadoopYARN的用戶則只有36%。更重要的是,使用公有云的61%的用戶去年只有51%,而使用HadoopYARN的用戶則從2015年的40%下滑到36%,這說明公有云的用戶正在持續(xù)的增長。分析原因,這或許是由于亞馬遜AWSS3這樣的云服務(wù)產(chǎn)品正在變得越來越經(jīng)濟(jì),性能越來越穩(wěn)定,易用性也越來越好。
2)2016年7月,我們發(fā)布了ApacheSpark2.0版,這一版本針對(duì)SparkSQL和數(shù)據(jù)幀(Dataframes)在新款硬件的使用方面進(jìn)行了較大的性能提升。值得一提的是,我們已經(jīng)看到2.0版的使用率正在快速增長,目前大約有40%的集群用戶正在使用它。這說明用戶需要對(duì)新硬件建立快速的支持。