毫無疑問,當(dāng)今的政治民意調(diào)查已經(jīng)成為應(yīng)用統(tǒng)計(jì)(也就是“大數(shù)據(jù)分析”)的一個(gè)運(yùn)用領(lǐng)域。以前,嚴(yán)謹(jǐn)?shù)拿褚庹{(diào)查只需要通過白頁(yè)上的選民名字和電話號(hào)碼就可以進(jìn)行。但現(xiàn)在,民意調(diào)查機(jī)構(gòu)如果想從形形色色的選民中獲取具有代表性的樣本,就必須建立細(xì)致的權(quán)重模型。
民意調(diào)查機(jī)構(gòu)未能就2016年6月的“英國(guó)脫歐”公投準(zhǔn)確評(píng)估選民情緒。如果說這還只是讓人感到意外的話,那么唐納德·特朗普(Donald Trump)在11月份的總統(tǒng)選舉中擊敗希拉里·克林頓(Hillary Clinton),與幾乎所有的政治民意調(diào)查結(jié)果截然相反(只有一項(xiàng)調(diào)查例外),則可以說是大數(shù)據(jù)分析在2016年甚至可能是近十年來的最大慘敗。
大數(shù)據(jù)黑客入侵
數(shù)據(jù)明顯具有價(jià)值,無論保險(xiǎn)公司和會(huì)計(jì)師怎么說。所以壞人會(huì)想要竊取個(gè)人和企業(yè)的數(shù)據(jù)也真的去竊取了,完全不足為奇。2016年發(fā)生了多起引人注目的數(shù)據(jù)泄露事件,比如美國(guó)民主黨全國(guó)委員會(huì)的電子郵件服務(wù)器被攻陷,雅虎10億用戶的數(shù)據(jù)被黑。而這還沒算上雅虎曾在2016年9月承認(rèn),黑客入侵了該公司5億用戶的賬戶。
IdentityForce制作的“2016年網(wǎng)絡(luò)安全恥辱墻”上還包括:美國(guó)司法部(3萬名DHS和FBI職員的數(shù)據(jù)失竊);美國(guó)國(guó)稅局(70萬名納稅人的記錄泄露);威瑞森(150萬客戶的記錄泄露);甲骨文(33萬臺(tái)MICROS收銀機(jī)被入侵);Dropbox(承認(rèn)6,800萬個(gè)賬戶被入侵);AdultFriendFinder.com(4.12億用戶的記錄泄露)。
新的數(shù)據(jù)初創(chuàng)公司
2016年對(duì)大數(shù)據(jù)的風(fēng)險(xiǎn)投資較2015年減少了大約10%,但這沒有阻止科技創(chuàng)業(yè)者成立新公司,希望挖到大數(shù)據(jù)金礦。2016年的新來者包括:
SnappyData,致力于統(tǒng)一Spark和Pivotal的GemFire數(shù)據(jù)網(wǎng)格; Panoply,為AWS Redshift 用戶開發(fā)ETL 軟件; Cosmify,利用機(jī)器學(xué)習(xí)挖掘客戶信息; Bonsai,這家AI公司在Strata + Hadoop World大會(huì)上贏得了創(chuàng)業(yè)展示比賽; Armorway,利用深度學(xué)習(xí)實(shí)現(xiàn)網(wǎng)絡(luò)安全; Leyvx,將Flash和Spark結(jié)合起來; Jask,利用AI進(jìn)行網(wǎng)絡(luò)安全分析; Alluvium,致力于縮小“機(jī)器與人”的差距; Pachyderm,這家容器公司在Strata + Hadoop World大會(huì)上贏得創(chuàng)業(yè)展示比賽; Skry,區(qū)塊鏈智能供應(yīng)商; Wavefront,利用大數(shù)據(jù)來監(jiān)控IT。
實(shí)時(shí)Kafka
人人都喜歡的大數(shù)據(jù)總線Apache Kafka在2016年如魚得水,這要?dú)w功于對(duì)分析高速移動(dòng)數(shù)據(jù)的新要求。Kafka才面世五年,但這部由LinkedIn開發(fā)的消息隊(duì)列系統(tǒng)已經(jīng)成為管理流數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)管道的事實(shí)標(biāo)準(zhǔn)。
Kafka由杰伊·克雷普斯(Jay Kreps)和尼哈·納赫德(Neha Narkhede)創(chuàng)造,得到了兩人領(lǐng)導(dǎo)的Confluent公司團(tuán)隊(duì)的支持,是2016年最受歡迎的大數(shù)據(jù)項(xiàng)目之一。由于人們對(duì)實(shí)時(shí)分析的興趣高漲,這個(gè)開源項(xiàng)目的采用率正在飆升。隨著批處理范式不斷與實(shí)時(shí)數(shù)據(jù)處理相融合,如果克雷普斯的Kappa架構(gòu)超越目前流行的Lambda架構(gòu),請(qǐng)不要感到驚訝。
開源數(shù)據(jù)項(xiàng)目
并非所有的大數(shù)據(jù)產(chǎn)品都是由盈利性企業(yè)開發(fā)。最有前途的新技術(shù)很多都是開源項(xiàng)目。2016年引人注目的開源大數(shù)據(jù)項(xiàng)目包括:
ApacheArrow:該項(xiàng)目由MapR Technologies公司的一位Drill架構(gòu)師帶頭,旨在建立一個(gè)通用數(shù)據(jù)層,兼容各種各樣的大數(shù)據(jù)工具和引擎,比如Drill、Spark、Impala、Cassandra和Parquet; Alluxio:這是基于內(nèi)存的文件系統(tǒng)(原名Tachyon),與Apache Spark和Apache Mesos一樣,也出自AMPLab實(shí)驗(yàn)室,現(xiàn)在得到一家同名公司的支持; ApacheBeam:這是很有前途的大數(shù)據(jù)框架,其目標(biāo)之一是用同一組API進(jìn)行實(shí)時(shí)交互的批處理,并且通過“Runner”支持Spark、Flink和Google Dataflow; CrateDB:遵守Apache 2.0協(xié)議,是可擴(kuò)展的SQL數(shù)據(jù)庫(kù)(有些人稱之為NewSQL數(shù)據(jù)庫(kù)),用于實(shí)時(shí)機(jī)器分析; ApacheKylin:這個(gè)基于Hadoop的開源引擎提供聯(lián)機(jī)分析處理(OLAP)能力,在2016年全年都是Apache軟件基金會(huì)(ASF)的頂級(jí)項(xiàng)目(TLP); ApacheGeode:2016年11月,ASF把分布式內(nèi)存數(shù)據(jù)庫(kù)Geode 提升為TLP 級(jí)別。
大數(shù)據(jù)用于社會(huì)公益
現(xiàn)在,大數(shù)據(jù)分析已經(jīng)遍地開花,既存在于我們購(gòu)買的產(chǎn)品中,也存在于我們使用的網(wǎng)絡(luò)服務(wù)和我們通信的方式中。但值此辭舊迎新之際,我們必須提醒自己要從人性的角度出發(fā),靜下心來好好想想如何終結(jié)人類的苦難。
為此,我們應(yīng)該看到大數(shù)據(jù)對(duì)社會(huì)進(jìn)步的積極作用,而不只是賺錢。在2016年,大數(shù)據(jù)被Polaris等團(tuán)體用來打擊人口販賣,把罪犯繩之于法。撰寫“巴拿馬文件”調(diào)查報(bào)告的記者使用云分析和圖形數(shù)據(jù)庫(kù)等大數(shù)據(jù)技術(shù),來剖析和披露離岸避稅行為。