對(duì)數(shù)字在行?對(duì)數(shù)據(jù)著迷?那么你聽到的是機(jī)遇的敲門聲。
周墨(音譯,Mo Zhou)去年夏天剛剛完成耶魯大學(xué)的MBA學(xué)業(yè)就被IBM搶走,加入了這家技術(shù)公司快速發(fā)展的數(shù)據(jù)顧問的隊(duì)伍當(dāng)中。他們幫助企業(yè)弄清楚數(shù)據(jù)爆炸的意義—Web流量、社交網(wǎng)絡(luò)上的評(píng)論,以及監(jiān)控貨物、供應(yīng)商及客戶的軟件和傳感器上的數(shù)據(jù),以提供決策指南、削減成本、拉動(dòng)銷售。“我一直對(duì)數(shù)字情有獨(dú)鐘,”周小姐說。她是數(shù)據(jù)分析師,這個(gè)職位跟她的技能很配。
為了開發(fā)利用好這股數(shù)據(jù)洪流,美國(guó)需要大量像她這樣的人。去年,咨詢公司麥肯錫的的研究機(jī)構(gòu)麥肯錫全球研究所進(jìn)行了一項(xiàng)調(diào)查,調(diào)查預(yù)計(jì),美國(guó)需要14萬(wàn)至19萬(wàn)名以上具備“深度分析”專長(zhǎng)的人員,而對(duì)具備數(shù)據(jù)知識(shí)的經(jīng)理的需求超過150萬(wàn),無(wú)論是招聘的還是再培訓(xùn)的都行。
數(shù)據(jù)豐富的影響延伸到商業(yè)之外。比如說Justin Grimmer就是新生代的政治學(xué)者中的一員。作為斯坦福大學(xué)的一名28歲的助理教授,他看到了“一個(gè)機(jī)遇,因?yàn)閷W(xué)科正變得越來(lái)越趨于數(shù)據(jù)密集”,所以在自己的大學(xué)及研究生研究當(dāng)中,他把數(shù)學(xué)運(yùn)用到了政治科學(xué)里面。他的研究包括對(duì)博客發(fā)文、國(guó)會(huì)演講以及新聞發(fā)布、新聞內(nèi)容的自動(dòng)計(jì)算機(jī)分析,以便深入了解政治觀念是如何被傳播出去的。
其他領(lǐng)域,如科學(xué)、體育、廣告及公共衛(wèi)生,發(fā)生的故事也類似—即數(shù)據(jù)驅(qū)動(dòng)發(fā)現(xiàn)和決策的趨勢(shì)。“這是一次革命,” 哈佛量化社會(huì)科學(xué)研究所主任Gary King說:“我們的確正在起航。不過,在龐大的新數(shù)據(jù)來(lái)源的支持下,量化的前進(jìn)步伐將會(huì)踏遍學(xué)術(shù)、商業(yè)和政府領(lǐng)域。沒有一個(gè)領(lǐng)域可以不被觸及。”
歡迎來(lái)到大數(shù)據(jù)時(shí)代。硅谷的新寵,前有Google,后有Facebook,都是駕馭Web數(shù)據(jù)的大師—它們都擅長(zhǎng)于給在線搜索、文章和消息披上互聯(lián)網(wǎng)廣告的外套。上個(gè)月,在瑞士達(dá)沃斯舉行的世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是框定的主題之一。該論壇的一份報(bào)告,《大數(shù)據(jù),大影響》,宣告了數(shù)據(jù)成為一種新型的經(jīng)濟(jì)資產(chǎn),就像貨幣或者黃金一樣。
里克·斯莫蘭(Rick Smolan),《生活中的一天(Day in the Life)》系列攝影的作者,正計(jì)劃在今年晚些時(shí)候啟動(dòng)一個(gè)名為《大數(shù)據(jù)的人類面孔》的項(xiàng)目。斯莫蘭先生是一位狂熱份子,稱大數(shù)據(jù)有可能成為“人類的儀表盤”,能夠作為一項(xiàng)智能工具幫助與貧窮、犯罪以及污染作戰(zhàn)。隱私的倡導(dǎo)者則持懷疑的態(tài)度,警告說大數(shù)據(jù)就是老大哥(注:Big Data is Big Brother,看過喬治·奧威爾的《1984》的諸位對(duì)‘Big Brother’應(yīng)該不會(huì)感到陌生),只不過是披上了企業(yè)的外衣。
什么是大數(shù)據(jù)?這是一種文化基因(meme),一個(gè)營(yíng)銷術(shù)語(yǔ),確實(shí)如此,不過也是技術(shù)領(lǐng)域發(fā)展趨勢(shì)的一個(gè)概括,這一趨勢(shì)打開了理解世界和制定決策的新辦法之門。根據(jù)技術(shù)研究機(jī)構(gòu)IDC的預(yù)計(jì),大量新數(shù)據(jù)無(wú)時(shí)不刻不在涌現(xiàn),它們以每年50%的速度在增長(zhǎng),或者說每?jī)赡昃鸵环唷2⒉粌H僅是數(shù)據(jù)的洪流越來(lái)越大,而且全新的支流也會(huì)越來(lái)越多。比方說,現(xiàn)在全球就有無(wú)數(shù)的數(shù)字傳感器依附在工業(yè)設(shè)備、汽車、電表和板條箱上。它們能夠測(cè)定方位、運(yùn)動(dòng)、振動(dòng)、溫度、濕度、甚至大氣中的化學(xué)變化,并可以通信。
將這些通信傳感器與計(jì)算智能連接在一起,你就能夠看到所謂的物聯(lián)網(wǎng)(Internet of Things)或者工業(yè)互聯(lián)網(wǎng)(Industrial Internet)的崛起。對(duì)信息訪問的改善也為大數(shù)據(jù)趨勢(shì)推波助瀾。比如說,政府?dāng)?shù)據(jù)—就業(yè)數(shù)字等其他信息正在穩(wěn)步移植到Web上。2009年,華盛頓通過啟動(dòng)Data.gov進(jìn)一步打開了數(shù)據(jù)之門,該網(wǎng)站令各種政府?dāng)?shù)據(jù)向公眾開放。
數(shù)據(jù)不僅變得越來(lái)越普遍,而且對(duì)于計(jì)算機(jī)來(lái)說也變得更加可讀。這股大數(shù)據(jù)浪潮當(dāng)中大部分都是桀驁不馴的—都是一些像Web和那些傳感數(shù)據(jù)流的文字、圖像、視頻那樣難以控制的東西。這被稱為是非結(jié)構(gòu)數(shù)據(jù),通常都不是傳統(tǒng)數(shù)據(jù)庫(kù)的腹中物。
不過,從互聯(lián)網(wǎng)時(shí)代浩瀚的非結(jié)構(gòu)數(shù)據(jù)寶藏中收獲知識(shí)和洞察的計(jì)算機(jī)工具正在快速普及。處在一線的是正在迅速發(fā)展的人工智能技術(shù),像自然語(yǔ)言處理、模式識(shí)別以及機(jī)器學(xué)習(xí)。
那些人工智能技術(shù)可以被應(yīng)用到多個(gè)領(lǐng)域。比方說,Google的搜索及廣告業(yè)務(wù),還有它那已經(jīng)在加州馳騁了數(shù)千英里的實(shí)驗(yàn)性機(jī)器人汽車, 這些都使用了一大堆的人工智能技巧。這些都是令人怯步的大數(shù)據(jù)挑戰(zhàn),需要解析大量的數(shù)據(jù),并要馬上做出決策。
反過來(lái),新數(shù)據(jù)的充裕又加速了計(jì)算的進(jìn)展—這就是大數(shù)據(jù)的良性循環(huán)。比方說,機(jī)器學(xué)習(xí)算法就是從數(shù)據(jù)中學(xué)習(xí)的,數(shù)據(jù)越多,機(jī)器學(xué)得就越多。我們就拿Siri這款蘋果去年秋季引入的iPhone對(duì)話及問答應(yīng)用作為例子吧。該應(yīng)用的起源還要追溯到一個(gè)五角大樓的研究項(xiàng)目,并在隨后拆分出了一家硅谷的初創(chuàng)企業(yè)。蘋果于2010年收購(gòu)了Siri,然后不斷地給它喂數(shù)據(jù)?,F(xiàn)在,隨著人們提供了數(shù)以百萬(wàn)計(jì)的問題,Siri正變成一位越來(lái)越老練的個(gè)人助手,為iPhone用戶提供了提醒、天氣預(yù)報(bào)、飯店建議等服務(wù),其回答的問題數(shù)如宇宙般不斷膨脹。
麻省理工學(xué)院斯隆管理學(xué)院的經(jīng)濟(jì)學(xué)家Erik Brynjolfsson說,要想領(lǐng)會(huì)大數(shù)據(jù)的潛在影響,你得看看顯微鏡。發(fā)明于4個(gè)世紀(jì)之前的顯微鏡,使得人們以前所未有的水平觀看和測(cè)量事物—細(xì)胞級(jí)。這是測(cè)量的一次革命。
Brynjolfsson教授解釋說,數(shù)據(jù)的測(cè)量正是顯微鏡的現(xiàn)代等價(jià)物。比如說,Google的搜索,F(xiàn)acebook的文章以及Twitter的消息,使得在產(chǎn)生行為和情緒時(shí)對(duì)其進(jìn)行精細(xì)地衡量成為可能。
Brynjolfsson說,在商業(yè)、經(jīng)濟(jì)等其他領(lǐng)域,決策將會(huì)越來(lái)越以數(shù)據(jù)和分析為基礎(chǔ),而非靠經(jīng)驗(yàn)和直覺。“我們可以開始科學(xué)化很多了”,他評(píng)論道。
數(shù)據(jù)優(yōu)先的思考是有回報(bào)的,這方面存在著大量的軼事證據(jù)。最出名的仍屬《點(diǎn)球成金(Moneyball)》,這本邁克爾·路易斯(Michael Lewis)2003年出的書,記錄了預(yù)算很少的奧克蘭運(yùn)動(dòng)家隊(duì)(Oakland A)如何利用數(shù)據(jù)和晦澀難懂的棒球統(tǒng)計(jì)識(shí)別出被低估的球員的故事。大量的數(shù)據(jù)分析不僅已成為棒球的標(biāo)準(zhǔn),在其他體育運(yùn)動(dòng)中亦然,包括英式足球在內(nèi),且在去年由布拉德·皮特(Brad Pitt)主演的同名電影上映之前老早就這么做了。
零售商,如沃爾瑪和Kohl’s,則分析銷售、定價(jià)和經(jīng)濟(jì)、人口、天氣方面的數(shù)據(jù)來(lái)為特定的門店選擇合適的產(chǎn)品,并確定降價(jià)的時(shí)機(jī)。物流公司,如UPS,挖掘貨車交付時(shí)間和交通模式方面的數(shù)據(jù)以調(diào)整路線。
而在線約會(huì)服務(wù),像Match.com,則不斷仔細(xì)查看其上個(gè)人特點(diǎn)、反應(yīng)以及溝通的Web列表以便改進(jìn)男女配對(duì)約會(huì)的算法。在紐約警察局的領(lǐng)導(dǎo)之下,美國(guó)全國(guó)的警察局都在使用計(jì)算機(jī)化的地圖,并對(duì)諸如歷史犯罪模式、發(fā)薪日、體育活動(dòng)、降雨及假日等變量進(jìn)行分析,以期預(yù)測(cè)出有可能的犯罪“熱點(diǎn)”,并在那些地方預(yù)先部署警力。
Brynjolfsson教授與另外兩位同事一道進(jìn)行的研究于去年公布,研究認(rèn)為,由數(shù)據(jù)來(lái)指導(dǎo)管理正在美國(guó)的整個(gè)企業(yè)界擴(kuò)散并開始取得成效。他們研究了179家大型的公司后發(fā)現(xiàn),那些采用“數(shù)據(jù)驅(qū)動(dòng)決策制定”者其獲得的生產(chǎn)力要比通過其他因素進(jìn)行解釋所獲得的高出5到6個(gè)百分點(diǎn)。
大數(shù)據(jù)的預(yù)測(cè)能力也正在被探索中,并在公共衛(wèi)生、經(jīng)濟(jì)發(fā)展及經(jīng)濟(jì)預(yù)測(cè)等領(lǐng)域有獲得成功的希望。研究人員已發(fā)現(xiàn),Google搜索請(qǐng)求中諸如“流感癥狀”和“流感治療”之類的關(guān)鍵詞出現(xiàn)的高峰要比一個(gè)地區(qū)醫(yī)院急診室流感患者增加出現(xiàn)的時(shí)間早兩三個(gè)星期(而急診室的報(bào)告往往要比瀏覽慢兩個(gè)星期左右)。
全球脈動(dòng)(Global Pulse),這項(xiàng)由聯(lián)合國(guó)新發(fā)起的行動(dòng)計(jì)劃,希望大數(shù)據(jù)能對(duì)全球的發(fā)展起到杠桿作用。該組織將會(huì)用自然語(yǔ)言破譯軟件對(duì)社交網(wǎng)絡(luò)中的消息以及短信進(jìn)行所謂的情緒分析—以幫助預(yù)測(cè)出特定地區(qū)失業(yè)、開支縮減或疾病爆發(fā)的情況。其目標(biāo)是使用數(shù)字化的預(yù)警信號(hào)來(lái)預(yù)先指導(dǎo)援助計(jì)劃,比方說,預(yù)防一個(gè)地區(qū)出現(xiàn)倒退回貧困的情況。
研究表明,在經(jīng)濟(jì)預(yù)測(cè)方面,Google上房產(chǎn)相關(guān)搜索量的增減趨勢(shì)相對(duì)于地產(chǎn)經(jīng)濟(jì)學(xué)家的預(yù)測(cè)而言是一個(gè)更加準(zhǔn)確的預(yù)言者。美聯(lián)儲(chǔ),還有其他者均注意到了這一點(diǎn)。去年7月,美國(guó)國(guó)家經(jīng)濟(jì)研究局主持了一個(gè)題為“大數(shù)據(jù)的機(jī)遇”的研討會(huì),探討其對(duì)經(jīng)濟(jì)專業(yè)的影響。
大數(shù)據(jù)已經(jīng)轉(zhuǎn)變了對(duì)社會(huì)網(wǎng)絡(luò)如何運(yùn)轉(zhuǎn)的研究。在上世紀(jì)六十年代,在一次著名的社會(huì)關(guān)系實(shí)驗(yàn)中,哈佛大學(xué)的米爾格蘭姆(Stanley Milgram)利用包裹作為其研究媒介。他把包裹發(fā)往美國(guó)中西部的志愿者,指導(dǎo)他們將包裹發(fā)給波士頓的陌生人,但不是直接發(fā)過去;參與者只能將包裹發(fā)給自己認(rèn)識(shí)的某個(gè)人。包裹易手的次數(shù)平均值少得不同尋常,大概只有6次。這就是“小世界現(xiàn)象”的一個(gè)經(jīng)典體現(xiàn),由此也形成了一個(gè)流行語(yǔ)“六度分隔”。
今天,社交網(wǎng)絡(luò)研究包括了發(fā)掘巨量的在線集體行為的數(shù)字?jǐn)?shù)據(jù)集。其中的發(fā)現(xiàn)包括:你認(rèn)得但不常聯(lián)系的人—也即社會(huì)學(xué)上稱為“弱聯(lián)系”的人,是職位空缺內(nèi)部消息的最佳來(lái)源。他們?cè)谝粋€(gè)略微不同于你的密友圈的社交世界中穿梭,所以能夠看到一些你和自己最好的朋友看不到的機(jī)會(huì)。
研究人員能夠看出影響的模式,可以知道某個(gè)主題的交流什么時(shí)候最熱—就拿跟蹤Twitter的標(biāo)簽趨勢(shì)來(lái)說吧。這個(gè)在線的透明玻璃魚缸就是觀摩巨量人群實(shí)時(shí)行為的一扇窗口。“我需要理解某項(xiàng)活動(dòng)的爆發(fā),我在數(shù)據(jù)中尋找熱點(diǎn),”康奈爾大學(xué)的Jon Kleinberg教授說:“你只能通過大數(shù)據(jù)才能做到這一點(diǎn)。”
誠(chéng)然,大數(shù)據(jù)自身也存在風(fēng)險(xiǎn)。統(tǒng)計(jì)學(xué)者和計(jì)算機(jī)科學(xué)家指出,巨量數(shù)據(jù)集和細(xì)顆粒度的測(cè)量會(huì)導(dǎo)致出現(xiàn)“錯(cuò)誤發(fā)現(xiàn)”的風(fēng)險(xiǎn)增加。斯坦福大學(xué)的統(tǒng)計(jì)學(xué)教授特Trevor Hastie說,在大規(guī)模的數(shù)據(jù)干草堆中尋找一根有意義的針,其麻煩在于“許多稻草看起來(lái)也像針(注:呵呵,看起來(lái)這比大海撈針還要困難,因?yàn)榍艘幻妫?rdquo;。
大數(shù)據(jù)還為惡搞統(tǒng)計(jì)和帶偏見的實(shí)情調(diào)查研究提供了更多的原材料。這就是老花招—事實(shí)我已經(jīng)知道了,現(xiàn)在讓我們來(lái)把它們給找出來(lái)吧,的新訣竅—高科技。喬治梅森大學(xué)的數(shù)學(xué)家Rebecca Goldin說,這就是“數(shù)據(jù)利用最有害的方式之一。”
在利用計(jì)算機(jī)及數(shù)學(xué)模型的情況下,我們已經(jīng)馴服和理解了數(shù)據(jù)。這些模型,正如文學(xué)之隱喻,是一種解釋的簡(jiǎn)化。它們對(duì)于理解是很有用的,不過也存在局限性。隱私倡導(dǎo)者警告說,根據(jù)在線調(diào)查,模型有可能推導(dǎo)出一種不公平或帶歧視性的相關(guān)性及統(tǒng)計(jì)推斷,從而影響到某人的產(chǎn)品、銀行貸款及醫(yī)療保險(xiǎn)。
盡管存在這些告誡,但大勢(shì)似乎已經(jīng)不可逆轉(zhuǎn)。數(shù)據(jù)已在駕駛位就坐。它就在那里,它是有用的,是有價(jià)值的,甚至還很時(shí)尚。
資深數(shù)據(jù)分析師,長(zhǎng)久以來(lái)朋友一聽到他們談自己工作就感到厭煩的人,現(xiàn)在卻突然變得對(duì)他們好奇起來(lái)。這些分析師稱,此乃拜《點(diǎn)球成金》之所賜,不過實(shí)際情況遠(yuǎn)非如此。“文化改變了”,哥倫比亞大學(xué)的統(tǒng)計(jì)及政治科學(xué)家Andrew Gelman說:“大家認(rèn)為數(shù)字和統(tǒng)計(jì)有趣,好玩?,F(xiàn)在它是很酷的東西了。”