泄密者愛德華·斯諾登(Edward Snowden)還在尋求容身之所的時(shí)候,美國(guó)國(guó)家安全局(NSA)全方位收集電話和電子郵件記錄之事經(jīng)過他的披露,已經(jīng)引發(fā)了不安和憤怒。
奧巴馬當(dāng)局聲稱,監(jiān)聽數(shù)據(jù)帶來了安全,然而左翼和右翼都在譴責(zé)這種窺探行為是對(duì)隱私的侵犯。
數(shù)據(jù)不是信息,而是有待理解的原材料。但有一件事是確定無疑的:當(dāng)NSA為了從其海量數(shù)據(jù)中“挖掘”出信息,耗資數(shù)十億改善新手段時(shí),它正受益于陡然降落的計(jì)算機(jī)存儲(chǔ)和處理價(jià)格。
麻省理工學(xué)院的研究者約翰·古塔格(John Guttag)和柯林·斯塔爾茲(Collin Stultz)創(chuàng)建了一個(gè)計(jì)算機(jī)模型來分析之心臟病病患丟棄的心電圖數(shù)據(jù)。他們利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)在海量的數(shù)據(jù)中篩選,發(fā)現(xiàn)心電圖中出現(xiàn)三類異常者一 年內(nèi)死于第二次心臟病發(fā)作的機(jī)率比未出現(xiàn)者高一至二倍。這種新方法能夠識(shí)別出更多的,無法通過現(xiàn)有的風(fēng)險(xiǎn)篩查被探查出的高危病人。
數(shù)據(jù)挖掘這一術(shù)語含義廣泛,指代一些通常由軟件實(shí)現(xiàn)的機(jī)制,目的是從巨量數(shù)據(jù)中提取出信息。數(shù)據(jù)挖掘往往又被稱作算法。
威斯康星探索學(xué)院主任大衛(wèi)·克拉考爾(David Krakauer)說,數(shù)據(jù)量的增長(zhǎng)——以及提取信息的能力的提高——也在影響著科學(xué)。“計(jì)算機(jī)的處理能力和存儲(chǔ)空間在呈指數(shù)增長(zhǎng),成本卻在指數(shù)級(jí)下降。從這個(gè)意義上來講,很多科學(xué)研究如今也遵循摩爾定律。”
在 2005年,一塊1TB的硬盤價(jià)格大約為1,000美元,“但是現(xiàn)在一枚不到100美元的U盤就有那么大的容量。”研究智能演化的克拉考爾說?,F(xiàn)下關(guān)于大 數(shù)據(jù)和數(shù)據(jù)挖掘的討論“之所以發(fā)生是因?yàn)槲覀冋幱隗@天動(dòng)地的變革當(dāng)中,而且我們正以前所未有的方式感知它。”克拉勞爾說。
隨著我們通過電話、信用卡、電子商務(wù)、互聯(lián)網(wǎng)和電子郵件留下更多的生活痕跡,大數(shù)據(jù)不斷增長(zhǎng)的商業(yè)影響也在如下時(shí)刻表現(xiàn)出來:
你搜索一條飛往塔斯卡魯薩的航班,然后便看到網(wǎng)站上出現(xiàn)了塔斯卡魯薩的賓館打折信息
你觀賞的電影采用了以幾十萬G數(shù)據(jù)為基礎(chǔ)的計(jì)算機(jī)圖形圖像技術(shù)
你光顧的商店在對(duì)顧客行為進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)上獲取最大化的利潤(rùn)
用算法預(yù)測(cè)人們購票需求,航空公司以不可預(yù)知的方式調(diào)整價(jià)格
智能手機(jī)的應(yīng)用識(shí)別到你的位置,因此你收到附近餐廳的服務(wù)信息
大數(shù)據(jù)在看著你嗎?
除了安全和商業(yè),大數(shù)據(jù)和數(shù)據(jù)挖掘在科研領(lǐng)域也正在風(fēng)起云涌。越來越多的設(shè)備帶著更加精密的傳感器,傳回愈發(fā)難以駕馭的數(shù)據(jù)流,于是人們需要日益強(qiáng)大的分析能力。在氣象學(xué)、石油勘探和天文學(xué)等領(lǐng)域,數(shù)據(jù)量的井噴式增長(zhǎng)對(duì)更高層次的分析和洞察提供了支持,甚至提出了要求。
2005年6月至2007年12月海洋表面洋流示意圖。數(shù)據(jù)源:海面高度數(shù)據(jù)來自美國(guó)航空航天局(NASA)的Topex/Poseidon衛(wèi)星、Jason-1衛(wèi)星,以及海形圖任務(wù)/Jason-2衛(wèi)星測(cè)高儀;重力數(shù)據(jù)來自NASA/德國(guó)航空航天中心的重力恢復(fù)及氣候?qū)嶒?yàn)任務(wù);表面風(fēng)壓數(shù)據(jù)來自NASA的 QuikScat任務(wù);海平面溫度數(shù)據(jù)來自NASA/日本宇宙航空研究開發(fā)機(jī)構(gòu)的先進(jìn)微波掃描輻射計(jì)-地球觀測(cè)系統(tǒng);海冰濃度和速度數(shù)據(jù)來自被動(dòng)微波輻射計(jì);溫度和咸度分布來自船載、系泊式測(cè)量?jī)x器,以及國(guó)際Argo海洋觀測(cè)系統(tǒng)。
這幅2005年6月至2007年12月海洋表面洋流的示意圖集成了帶有數(shù)值模型的衛(wèi)星數(shù)據(jù)。漩渦和窄洋流在海洋中傳送熱量和碳。海洋環(huán)流和氣候評(píng)估項(xiàng)目提供了所有深度的洋流,但這里僅僅使用了表層洋流。這些示意圖用來測(cè)量海洋在全球碳循環(huán)中的作用,并監(jiān)測(cè)地球系統(tǒng)的不同部分內(nèi)部及之間的熱量、水和化學(xué)交換。
在醫(yī)學(xué)領(lǐng)域,2003年算是大數(shù)據(jù)涌現(xiàn)過程中的一個(gè)里程碑。那一年第一例人類基因組完成了測(cè)序。那次突破性的進(jìn)展之后,數(shù)以千計(jì)人類、靈長(zhǎng)類、老鼠和細(xì)菌的 基因組擴(kuò)充著人們所掌握的數(shù)據(jù)。每個(gè)基因組上有幾十億個(gè)“字母”,計(jì)算時(shí)出現(xiàn)紕漏的危險(xiǎn),催生了生物信息學(xué)。這一學(xué)科借助軟件、硬件以及復(fù)雜算法之力,支撐著新的科學(xué)類型。
精神障礙通常是具體病例具體分析,但是一項(xiàng)對(duì)150萬名病人病例的研究表明,相當(dāng)多的病人患有超過同一種疾病。芝加哥大學(xué)的西爾維奧·康特中心利用數(shù)據(jù)挖掘 理解神經(jīng)精神障礙的成因以及之間的關(guān)系。“好幾個(gè)(研究)團(tuán)隊(duì)都在致力于這個(gè)問題的解決。”中心主任安德烈·柴斯基(Andrey Rzhetsky)說,“我們正試圖把它們?nèi)考{入模型,統(tǒng)一分析那些數(shù)據(jù)類型……尋找可能的環(huán)境因素。”