4、為什么大數(shù)據(jù)和機器智能結(jié)合的未來一定會到來?
其實在工業(yè)革命之前(1820 年),世界人均 GDP 在 1800 年前的兩三千年里基本沒有變化,而從 1820 年到 2001 年的 180 年里,世界人均 GDP 從原來的 667 美元增長到 6049 美元。由此足見,工業(yè)革命帶來的收入增長的確是翻天覆地的。這里面發(fā)生了什么,大家可以去思考一下。但人類的進步并沒有停止或者說穩(wěn)步增長,在發(fā)明了電力,電腦,互聯(lián)網(wǎng),移動互聯(lián)網(wǎng),全球年 GDP 增長從萬分之 5 到 2%,信息也是在急劇增長,根據(jù)計算,最近兩年的信息量是之前 30 年的總和,最近 10 年是遠超人類所有之前累計信息量之和。在計算機時代,有個著名的摩爾定律,就是說同樣成本每隔 18 個月晶體管數(shù)量會翻倍,反過來同樣數(shù)量晶體管成本會減半,這個規(guī)律已經(jīng)很好的 match 了最近 30 年的發(fā)展,并且可以衍生到很多類似的領(lǐng)域:存儲、功耗、帶寬、像素。
馮諾伊曼是 20 世紀最重要的數(shù)學家之一,在現(xiàn)代計算機、博弈論和核武器等諸多領(lǐng)域內(nèi)有杰出建樹的最偉大的科學全才之一。他提出(技術(shù))將會逼近人類歷史上的某種本質(zhì)的奇點,在那之后 全部人類行為都不可能以我們熟悉的面貌繼續(xù)存在。這就是著名的奇點理論。目前會越來越快指數(shù)性增長,美國未來學家 Ray Kurzweil 稱人類能夠在 2045 年實現(xiàn)數(shù)字化永生,他自己也創(chuàng)辦奇點大學,相信隨著信息技術(shù)、無線網(wǎng)、生物、物理等領(lǐng)域的指數(shù)級增長,將在 2029 年實現(xiàn)人工智能,人的壽命也將會在未來 15 年得到大幅延長。
5、國外值得關(guān)注的大數(shù)據(jù)公司都有哪些?國內(nèi)又有哪些?
這是 2014 年總結(jié)的 Big Data 公司列表,我們大致可以分成基礎(chǔ)架構(gòu)和應(yīng)用,而底層都是會用到一些通用技術(shù),如 Hadoop,Mahout,HBase,Cassandra,我在下面也會涵蓋。我可以舉幾個例子,在分析這一塊,cloudera,hortonworks,mapr 作為 Hadoop 的三劍客,一些運維領(lǐng)域,mangodb,couchbase 都是 nosql 的代表,作為服務(wù)領(lǐng)域 AWS 和 Google BigQuery 劍拔弩張,在傳統(tǒng)數(shù)據(jù)庫,Oracle 收購了 MySQL,DB2 老牌銀行專用,Teradata 做了多年數(shù)據(jù)倉庫。上面的 Apps 更多,比如社交消費領(lǐng)域 Google, Amazon, Netflix, Twitter, 商業(yè)智能:SAP,GoodData,一些在廣告媒體領(lǐng)域:TURN,Rocketfuel,做智能運維 sumologic 等等。去年的新星 Databricks 伴隨著 Spark 的浪潮震撼 Hadoop 的生態(tài)系統(tǒng)。
對于迅速成長的中國市場,大公司也意味著大數(shù)據(jù),BAT 三家都是對大數(shù)據(jù)的投入也是不惜余力。
我 5 年前在百度的時候,就提出框計算的東東,最近兩年他們成立了硅谷研究院,挖來 Andrew Ng 作為首席科學家,研究項目就是百度大腦,在語音、圖片識別大幅提高精確度和召回率,最近還做了個無人自行車,非常有趣。騰訊作為最大的社交應(yīng)用對大數(shù)據(jù)也是情有獨鐘,自己研發(fā)了 C++ 平臺的海量存儲系統(tǒng)。淘寶去年雙十一主戰(zhàn)場,2 分鐘突破 10 億,交易額突破 571 億,背后是有很多故事,當年在百度做 Pyramid(按 Google 三輛馬車打造的金字塔三層分布式系統(tǒng))的有志之士,繼續(xù)在 OceanBase 創(chuàng)造神話。而阿里云當年備受爭議,馬云也懷疑是不是被王堅忽悠,最后經(jīng)歷了雙十一的洗禮證明了阿里云的靠譜。小米的雷軍對大數(shù)據(jù)也是寄托厚望,一方面這么多數(shù)據(jù)幾何級數(shù)增長,另一方面存儲帶寬都是巨大成本,沒價值就會破產(chǎn)。
6、Hadoop是現(xiàn)今最流行的大數(shù)據(jù)技術(shù),在它出現(xiàn)的當時,是什么造成了Hadoop的流行?當時Hadoop具有哪些設(shè)計上的優(yōu)勢?
看 Hadoop 從哪里開始的,不得不提 Google 的先進性,在 10 多年前,Google 出了 3 篇 paper 論述分布式系統(tǒng)的做法,分別是 GFS, MapReduce, BigTable, 非常 NB 的系統(tǒng),但沒人見過,在工業(yè)界很多人癢癢的就想按其思想去仿作,當時 Apache Nutch Lucene 的作者 Doug Cutting 也是其中之一,后來他們被 Yahoo 收購,專門成立 Team 去投入做,就是 Hadoop 的開始和大規(guī)模發(fā)展的地方,之后隨著 Yahoo 的牛人去了 Facebook, Google, 也有成立了 Cloudera, Hortonworks 等大數(shù)據(jù)公司,把 Hadoop 的實踐帶到各個硅谷公司。而 Google 還沒有停止,又出了新的三輛馬車,Pregel, Caffeine, Dremel, 后來又有很多步入后塵,開始新一輪開源大戰(zhàn)。
為啥 Hadoop 就比較適合做大數(shù)據(jù)呢?首先擴展很好,直接通過加節(jié)點就可以把系統(tǒng)能力提高,它有個重要思想是移動計算而不是移動數(shù)據(jù),因為數(shù)據(jù)的移動是很大的成本需要網(wǎng)絡(luò)帶寬。其次它提出的目標就是利用廉價的普通計算機(硬盤),這樣雖然可能不穩(wěn)定(磁盤壞的幾率),但通過系統(tǒng)級別上的容錯和冗余達到高可靠性。并且非常靈活,可以使用各種 data,二進制,文檔型,記錄型。使用各種形式(結(jié)構(gòu)化,半結(jié)構(gòu)化,非結(jié)構(gòu)化所謂的 schemaless),在按需計算上也是個技巧。