信息大爆炸的今天,不討論大數(shù)據(jù)這個(gè)話題似乎就是跟不上時(shí)代。從醫(yī)藥到教育,再到其他各個(gè)領(lǐng)域,大數(shù)據(jù)充斥著現(xiàn)代社會(huì)的每個(gè)角落。而我們最關(guān)心的還是大數(shù)據(jù)最終將以什么樣的形式,怎么樣影響甚至改變我們的生活。來聽聽四位專家告訴你大數(shù)據(jù)到底有多少可能。
丹·瓦格納 Dan Wagner
Civis Analytics 的創(chuàng)始人兼首席執(zhí)行官
你曾經(jīng)說過,希望用大數(shù)據(jù)解決全球最大的問題。你最想解決的問題是什么?
我們主要關(guān)注兩個(gè)領(lǐng)域:教育和健康。在教育領(lǐng)域,我們專注于利用個(gè)人層面的數(shù)據(jù),幫助客戶發(fā)現(xiàn)那些申請(qǐng)和注冊(cè)的大學(xué)低于其潛能的低收入學(xué)生,并幫助這些機(jī)構(gòu)找到適當(dāng)?shù)姆椒?,讓這些孩子進(jìn)入與其潛能相匹配的大學(xué)。
保險(xiǎn)投保也是我們的目標(biāo)之一,尤其是在《平價(jià)醫(yī)保法案》剛開始施行的頭幾個(gè)月。我們主要致力于與多家機(jī)構(gòu)合作,幫助它們找到?jīng)]有醫(yī)療保險(xiǎn)的民眾,并讓他們加入到醫(yī)保計(jì)劃中來。這是一項(xiàng)非常艱巨的工作,因?yàn)闆]有現(xiàn)成的無保險(xiǎn)人員名冊(cè)。你只能通過統(tǒng)計(jì)推斷來完成這項(xiàng)工作。
最值得關(guān)注的問題之一是,保險(xiǎn)如何從團(tuán)體保險(xiǎn)向個(gè)人保險(xiǎn)發(fā)展,以及保險(xiǎn)公司如何學(xué)會(huì)管理這一風(fēng)險(xiǎn)。我們正同幾家機(jī)構(gòu)合作,利用數(shù)據(jù)提前發(fā)現(xiàn)諸如心血管疾病等個(gè)體風(fēng)險(xiǎn),提前了解病人面臨的風(fēng)險(xiǎn)。
一旦發(fā)現(xiàn)有風(fēng)險(xiǎn),你會(huì)增加投保人的保費(fèi)嗎?
你不能這么做。你只能根據(jù)諸如年齡等一系列精簡(jiǎn)變量來確定保單價(jià)值。因此,你不能根據(jù)上述風(fēng)險(xiǎn)來定價(jià),但你需要管理這一風(fēng)險(xiǎn)。
你同奧巴馬競(jìng)選團(tuán)隊(duì)合作時(shí),大數(shù)據(jù)發(fā)揮了怎樣的作用?
我們帶來的最顯著改變是在媒體方面。具體來說,就是利用尼爾森收視率來追蹤競(jìng)選廣告的投放和效果。透過收視率數(shù)據(jù),你就好像看到了一張人口統(tǒng)計(jì)表,能從中了解到觀眾群的構(gòu)成,例如是西班牙裔,還是女性。
我的做法是,根據(jù)我們計(jì)算得出的個(gè)人可說服得分來定義我們的觀眾。我們將這些數(shù)據(jù)與機(jī)頂盒數(shù)據(jù)相匹配。由此就能找到每一美元廣告投放能帶來最高可說服觀眾密度的電視欄目。有了這些數(shù)據(jù),我們基本就能根據(jù)一個(gè)單一的標(biāo)準(zhǔn)來決定廣告投放的優(yōu)先順序。這與人口統(tǒng)計(jì)學(xué)沒有任何關(guān)系。只需明確哪些是我們?cè)趥€(gè)人層面上確定的、要特別針對(duì)的觀眾群。這是一項(xiàng)非常艱巨的工作,但從文化角度來看,這種方法很適合我們的競(jìng)選團(tuán)隊(duì),因?yàn)?,奧巴馬競(jìng)選的典型特征是,選民搖擺不定。
我們應(yīng)當(dāng)如何解決數(shù)據(jù)分析中的安全問題?
你必須非常重視這個(gè)問題。很多這類機(jī)構(gòu)在收集信息,但我認(rèn)為,其中很多機(jī)構(gòu)都沒有意識(shí)到什么是最高標(biāo)準(zhǔn)的數(shù)據(jù)安全操作。我們的很多工作都是在亞馬遜云服務(wù)平臺(tái)上完成的,這比你內(nèi)部可能開發(fā)的東西要好得多,因?yàn)槟憧梢岳脕嗰R遜提供的很多網(wǎng)絡(luò)協(xié)議。亞馬遜的云計(jì)算服務(wù)算是該領(lǐng)域最好的。
大數(shù)據(jù)熱潮中,我們可能犯的最大錯(cuò)誤,或可能忽視的最重要問題是什么?
大數(shù)據(jù)熱潮最令人遺憾的一點(diǎn)是,人們只考慮其過程,而沒有考慮結(jié)果。有些時(shí)候,這股熱潮有些盲目,在某種意義上,它只是將對(duì)數(shù)據(jù)計(jì)算能力增長的信念孤立地看作是一種解決問題的手段。你將如何運(yùn)用這些未來真的能改善人們生活的數(shù)據(jù)?這是個(gè)大問題。
在日常生活中,你是如何應(yīng)對(duì)信息過載問題的?
作為一個(gè)在互聯(lián)網(wǎng)相關(guān)公司工作的人,我有很多時(shí)間是在網(wǎng)上。但我盡量縮短通過各類電子設(shè)備進(jìn)行溝通的時(shí)間,并努力確保自己閱讀大量書籍。
埃里克·謝德特 Eric Schadt
伊坎基因組織學(xué)和多尺度生物學(xué)研究所(Icahn Institute for Genomics and Multiscale Biology)董事
如何證明超級(jí)計(jì)算在醫(yī)學(xué)研究中能發(fā)揮重要作用?
主要通過兩種途徑。一是管理當(dāng)下醫(yī)學(xué)領(lǐng)域產(chǎn)生的諸如 DNA 測(cè)序等海量數(shù)據(jù)。舉例來說,一位癌癥病人的全基因組序列會(huì)產(chǎn)生萬億字節(jié)之多的數(shù)據(jù)。想象一下,如果要為數(shù)十萬人做基因測(cè)序,就會(huì)產(chǎn)生千萬億,甚至百億億字節(jié)量級(jí)的數(shù)據(jù)。要對(duì)這些數(shù)據(jù)進(jìn)行管理并加以處理,使之轉(zhuǎn)化為能被醫(yī)界人員所用的信息,就需要超級(jí)計(jì)算設(shè)備和相關(guān)的專業(yè)知識(shí)。
另一個(gè)途徑是,利用需要超級(jí)計(jì)算在短時(shí)間內(nèi)完成的非常復(fù)雜的數(shù)學(xué)算法,根據(jù)已經(jīng)存在的疾病亞型,以及治療該疾病亞型可能的最佳方法建立一個(gè)疾病預(yù)測(cè)模型。
這使醫(yī)生在治療中的作用以及病人與醫(yī)生間的數(shù)據(jù)關(guān)系發(fā)生了怎樣的變化?