從廉價(jià)手機(jī)上收集來的信息經(jīng)過分析之后可以幫助科學(xué)家了解人們的日常行為和旅途,甚至可以弄清楚疾病的傳播。
坐在哈佛公眾健康學(xué)院的辦公室里的流行病學(xué)家卡洛琳·巴克伊,指著電腦屏幕上的肯尼亞地圖中的一個(gè)電話信號(hào)塔,說道:在對(duì)抗瘧疾的過程中,從手機(jī)信號(hào)塔收集到的數(shù)據(jù)對(duì)于流行病的控制起到了關(guān)鍵作用。
她和同事在研究數(shù)據(jù)的過程中發(fā)現(xiàn)人們?cè)贙ericho這個(gè)地方的信號(hào)塔附近發(fā)送短信和撥打電話的次數(shù)是其他區(qū)域的16倍,而且非洲維多利亞湖東北側(cè)的一個(gè)地方發(fā)送短信和撥打電話的次數(shù)也是其他地區(qū)的3倍,而這些地區(qū)都被相關(guān)國(guó)家的衛(wèi)生部門認(rèn)定為是瘧疾傳播熱點(diǎn)。就在這些區(qū)域內(nèi),蚊子瘋狂地傳播者瘧疾。通過對(duì)信號(hào)塔的數(shù)據(jù)分析,他們繪制了瘧疾傳播路徑圖,意味很明顯,“患虐記者所經(jīng)之處必然會(huì)引發(fā)更多人患上瘧疾。”
卡洛琳目前正在構(gòu)建一個(gè)全新的預(yù)測(cè)模型,其中就包括了這一路徑圖。找到病源并非難事,更難的是如何借助信號(hào)塔和移動(dòng)通訊公司的數(shù)據(jù),分析出帶病患者何時(shí)到來何時(shí)離開,去了何處??辶照f:“雖然也有人從事人員出入境、患者醫(yī)療登記工作,但是在非洲,這樣的數(shù)據(jù)有跟沒有沒什么區(qū)別。所以為了解決流行病傳播的問題,我們想到了之前從來沒有人用過的辦法。”
即數(shù)據(jù)挖掘,從移動(dòng)通訊企業(yè)那里獲取機(jī)主的使用記錄,并配合政府部門發(fā)布疾病預(yù)防公告。“我們不可能顧及到所有的瘧疾病人,但是卻可以根據(jù)瘧疾的傳播路徑來告誡、提示人們。”
卡洛琳和丈夫南森·伊高合寫的一篇針對(duì)肯尼亞1500萬手機(jī)用戶的調(diào)查論文于去年在《科學(xué)》雜志上發(fā)表。一個(gè)是流行病專家,一個(gè)是手機(jī)數(shù)據(jù)專家,兩人共同在非洲進(jìn)行了18個(gè)月的調(diào)查,通過手機(jī)數(shù)據(jù)對(duì)民族分裂、疾病傳播等多個(gè)項(xiàng)目進(jìn)行了研究,他們的研究結(jié)果不僅見解獨(dú)到,而且可以切實(shí)地幫助人們擁有健康的生活。
伊高說:“這就是流行病學(xué)的未來。想要滅絕瘧疾,就得利用這種方法。”
嶄新的一頁
全球一共有60億部手機(jī),這些手機(jī)每天都會(huì)產(chǎn)生無數(shù)的數(shù)據(jù),包括位置、商業(yè)活動(dòng)信息、搜索記錄和社交記錄等信息。其中,有50億部手機(jī)分布在發(fā)展中國(guó)家,而且絕大部分手機(jī)是價(jià)格便宜、功能簡(jiǎn)單的“破”手機(jī),只能打電話、發(fā)短信。但是手機(jī)的功能并不會(huì)影響其“大數(shù)據(jù)”功能,通過信號(hào)塔的跟蹤,可以大致地描繪一個(gè)人的生活軌跡,這不僅對(duì)流行病傳播的研究有益,還可以用來研究就業(yè)趨勢(shì)、社會(huì)壓力、貧窮狀況、交通等。
對(duì)于許多貧困的國(guó)家來說,通過廉價(jià)手機(jī)所收集到的數(shù)據(jù)比詳細(xì)、實(shí)時(shí)但極少的信息更有用。麻省理工學(xué)院人類動(dòng)力學(xué)研究室主任Alex Pentland說:“在發(fā)展中國(guó)家,不可能開展有效的普查,也得不到詳細(xì)的交通信息,政府甚至都沒有數(shù)據(jù)收集設(shè)備。但是,有一個(gè)東西確實(shí)隨處可見的,那就是手機(jī)。在過去幾年,手機(jī)迅速普及,就連發(fā)展中國(guó)家也幾乎人手一部。”數(shù)據(jù)分析的軟件和方法都已經(jīng)普及,為數(shù)據(jù)挖掘掃清了道路。
高效利用手機(jī)數(shù)據(jù)的案例是2010年的海地地震。2010年1月,海地發(fā)生地震,造成至少20萬人死亡,研究人員根據(jù)從海地第一大通訊運(yùn)營(yíng)商那里獲得數(shù)據(jù),分析了地震前42天和地震后158天的數(shù)據(jù),發(fā)現(xiàn)在地震發(fā)生后三周內(nèi)有63萬人逃離首都太子港,而且在拿到數(shù)據(jù)之后的12小時(shí)就計(jì)算出了有多少人跑到了霍亂爆發(fā)區(qū)。因?yàn)檫\(yùn)營(yíng)商的數(shù)據(jù)比較詳細(xì),幾乎可以做到實(shí)時(shí)監(jiān)控。更關(guān)鍵的是,研究人員還利用這些數(shù)據(jù)開發(fā)出了災(zāi)害預(yù)測(cè)模型,發(fā)現(xiàn)當(dāng)海底人遇到災(zāi)難時(shí),更偏向去自己曾經(jīng)去過的地方避難。
初現(xiàn)規(guī)模
去年,著名移動(dòng)運(yùn)營(yíng)商Orange發(fā)布了非洲象牙海岸5個(gè)月內(nèi)的手機(jī)通話記錄,包含25億條信息,這對(duì)于數(shù)據(jù)專家來說,是一座金礦。全球有接近100個(gè)研究機(jī)構(gòu)拿著這些數(shù)據(jù)在做研究,手機(jī)數(shù)據(jù)挖掘初具規(guī)模。與此同時(shí),利用數(shù)據(jù)做生意和隱私保護(hù)問題也開始出現(xiàn)。然而為了讓數(shù)據(jù)挖掘工具發(fā)揮最大的功效,光有通話記錄是不夠的,還需要更詳細(xì)的數(shù)據(jù),比如說小規(guī)模的調(diào)查問卷。
卡洛琳希望通過挖掘手機(jī)數(shù)據(jù)來完全消滅瘧疾,“這就是流行病學(xué)的未來,如果我們想滅絕瘧疾,就得利用這種方法。”