阿里巴巴CTO即阿里云負(fù)責(zé)人王堅(jiān)博士說過一句話:云計(jì)算和大數(shù)據(jù),你們都理解錯(cuò)了。
實(shí)際上,對于大數(shù)據(jù)究竟是什么業(yè)界并無共識。大數(shù)據(jù)并不是什么新鮮事物。信息革命帶來的除了信息的更高效地生產(chǎn)、流通和消費(fèi)外,還帶來數(shù)據(jù)的爆炸式增長。“引爆點(diǎn)”到來之后,人們發(fā)現(xiàn)原有的零散的對數(shù)據(jù)的利用造成了巨大的浪費(fèi)。移動(dòng)互聯(lián)網(wǎng)浪潮下,數(shù)據(jù)產(chǎn)生速度前所未有地加快。人類達(dá)成共識開始系統(tǒng)性地對數(shù)據(jù)進(jìn)行挖掘。這是大數(shù)據(jù)的初心。數(shù)據(jù)積累的同時(shí),數(shù)據(jù)挖掘需要的計(jì)算理論、實(shí)時(shí)的數(shù)據(jù)收集和流通通道、數(shù)據(jù)挖掘過程需要使用的軟硬件環(huán)境都在成熟。
概念、模式、理論很重要,但在最具實(shí)干精神的互聯(lián)網(wǎng)領(lǐng)域,行動(dòng)才是最好的答案。
國內(nèi)互聯(lián)網(wǎng)三巨頭BAT坐擁數(shù)據(jù)金礦,已陸續(xù)踏上了大數(shù)據(jù)掘金之路。
BAT都是大礦主,但礦山性質(zhì)不同
數(shù)據(jù)如同蘊(yùn)藏能量的煤礦。煤炭按照性質(zhì)有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數(shù)據(jù)并不在“大”,而在于“有用”。價(jià)值含量、挖掘成本比數(shù)量更為重要。
百度擁有兩種類型的大數(shù)據(jù):用戶搜索表征的需求數(shù)據(jù);爬蟲和阿拉丁獲取的公共web數(shù)據(jù)。
阿里巴巴擁有交易數(shù)據(jù)和信用數(shù)據(jù)。這兩種數(shù)據(jù)更容易變現(xiàn),挖掘出商業(yè)價(jià)值。除此之外阿里巴巴還通過投資等方式掌握了部分社交數(shù)據(jù)、移動(dòng)數(shù)據(jù)。如微博和高德。
騰訊擁有用戶關(guān)系數(shù)據(jù)和基于此產(chǎn)生的社交數(shù)據(jù)。這些數(shù)據(jù)可以分析人們的生活和行為,從里面挖掘出政治、社會、文化、商業(yè)、健康等領(lǐng)域的信息,甚至預(yù)測未來。
下面,就將三家公司的情況一一掃描與分析。
一、百度:含著數(shù)據(jù)出生且擁有挖掘技術(shù),研究和實(shí)用結(jié)合
搜索巨頭百度圍繞數(shù)據(jù)而生。它對網(wǎng)頁數(shù)據(jù)的爬取、網(wǎng)頁內(nèi)容的組織和解析,通過語義分析對搜索需求的精準(zhǔn)理解進(jìn)而從海量數(shù)據(jù)中找準(zhǔn)結(jié)果,以及精準(zhǔn)的搜索引擎關(guān)鍵字廣告,實(shí)質(zhì)上就是一個(gè)數(shù)據(jù)的獲取、組織、分析和挖掘的過程。
除了網(wǎng)頁外,百度還通過阿拉丁計(jì)劃吸收第三方數(shù)據(jù),通過業(yè)務(wù)手段與藥監(jiān)局等部門合作拿到封閉的數(shù)據(jù)。但是,盡管百度擁有核心技術(shù)和數(shù)據(jù)礦山,卻還沒有發(fā)揮出最大潛力。百度指數(shù)、百度統(tǒng)計(jì)等產(chǎn)品算是對數(shù)據(jù)挖掘的一些初級應(yīng)用,與Google相比,百度在社交數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)的收集和由數(shù)據(jù)流通到數(shù)據(jù)挖掘轉(zhuǎn)換上有很大潛力,還有很多事情要做。
2月底在北京出差時(shí),寫了一篇《搜索引擎的大數(shù)據(jù)時(shí)代》發(fā)在虎嗅。創(chuàng)造了零回復(fù)的記錄。盡管如此,仍然沒有打消我對搜索引擎在大數(shù)據(jù)時(shí)代深層次變革的思考。
搜索引擎在大數(shù)據(jù)時(shí)代面臨的挑戰(zhàn)有:更多的暗網(wǎng)數(shù)據(jù);更多的WEB化但是沒有結(jié)構(gòu)化的數(shù)據(jù);更多的WEB化、結(jié)構(gòu)化但是封閉的數(shù)據(jù)。
這幾個(gè)挑戰(zhàn)使得數(shù)據(jù)正在遠(yuǎn)離傳統(tǒng)搜索引擎。不過,搜索引擎在大數(shù)據(jù)上畢竟具備技術(shù)沉淀以及優(yōu)勢。
接下來,百度會向企業(yè)提供更多的數(shù)據(jù)和數(shù)據(jù)服務(wù)。前期百度與寶潔、平安等公司合作,為其提供消費(fèi)者行為分析和挖掘服務(wù),通過數(shù)據(jù)結(jié)論指導(dǎo)企業(yè)推出產(chǎn)品,是一種典型的基于大數(shù)據(jù)的C2B模式。與此類似的還有Netflix的《紙牌屋》美劇,該劇的男主角凱文·史派西和導(dǎo)演大衛(wèi)·芬奇都是通過對網(wǎng)絡(luò)數(shù)據(jù)挖掘之后,根據(jù)受歡迎情況選中的。
百度還會利用大數(shù)據(jù)完成移動(dòng)互聯(lián)網(wǎng)進(jìn)化。核心攻關(guān)技術(shù)便是深度學(xué)習(xí)?;诖髷?shù)據(jù)的機(jī)器學(xué)習(xí)將改善多媒體搜索效果和智能搜索,如語音搜索、視覺搜索和自然語言搜索。這將催生移動(dòng)互聯(lián)網(wǎng)的革命性產(chǎn)品的出現(xiàn)。
盡管百度已經(jīng)出發(fā),其在大數(shù)據(jù)上可做的事情還有很多。
在數(shù)據(jù)收集方面,百度需要聚合更多高價(jià)值的交易、社交和實(shí)時(shí)數(shù)據(jù)。例如加強(qiáng)自己貼吧知道的社交能力、盡快讓地圖服務(wù)與O2O結(jié)合進(jìn)而掌握交易數(shù)據(jù),以及推進(jìn)移動(dòng)App、穿戴式設(shè)備等數(shù)據(jù)收集系統(tǒng)。
在數(shù)據(jù)處理技術(shù)上,百度成立深度學(xué)習(xí)研究院加強(qiáng)自己在人工智能領(lǐng)域的探索,在多媒體和中文自然語言處理領(lǐng)域已經(jīng)有一些進(jìn)展;云存儲、云計(jì)算的基礎(chǔ)設(shè)施建設(shè)也在逐步完善。但深度學(xué)習(xí)仍然是一個(gè)巨大的挑戰(zhàn),百度等探索者還有很多待解問題,如:無監(jiān)督式學(xué)習(xí)、立體圖像識別。