圖1 企業(yè)和政府?dāng)?shù)據(jù)集屬性比較
HIPAA保護(hù)涉及個人隱私的健康信息,并提出了保護(hù)電子數(shù)據(jù)和病人檔案的國家標(biāo)準(zhǔn),而且制定了保護(hù)在分析病人安全事件中病人身份和信息的規(guī)則。2009年,HITECH延伸了HIPAA在保護(hù)醫(yī)療記錄和醫(yī)療信息被不同機(jī)構(gòu)以電子方式使用方面的規(guī)定。這些法律規(guī)定限制了醫(yī)療記錄數(shù)據(jù)信息用于大數(shù)據(jù)分析的數(shù)量和類型。因?yàn)榇髷?shù)據(jù)定義涉及到大范圍的數(shù)據(jù),而這些法規(guī)把搜集數(shù)據(jù)和進(jìn)行分析限定在一個狹小的范圍。目前在美國,能夠用于大數(shù)據(jù)分析的醫(yī)療信息只能來自于志愿者提供。
企業(yè)使用大數(shù)據(jù),目的是了解消費(fèi)者的需求和行為,發(fā)展獨(dú)有的核心競爭力,并創(chuàng)新產(chǎn)品和服務(wù);政府使用大數(shù)據(jù),是為了通過預(yù)測性分析,提高政策透明度,增加公民對公共事務(wù)的參與度和預(yù)防犯罪,改善國家安全,通過更好的教育和醫(yī)療提高居民福利。
開發(fā)從大數(shù)據(jù)中提取更多價值的技術(shù),對于政府和企業(yè)來說都是持久挑戰(zhàn)。然而,對于政府的挑戰(zhàn)來得更尖銳,因?yàn)槠浔仨毚蛩椴块T間的阻隔以推進(jìn)數(shù)據(jù)集成,實(shí)現(xiàn)各部門信息共享,并建立統(tǒng)一的數(shù)據(jù)調(diào)控中心(如美國聯(lián)邦數(shù)據(jù)中心)。
大數(shù)據(jù)應(yīng)用
目前,世界上有一些發(fā)達(dá)國家已經(jīng)在政府部門開始推廣大數(shù)據(jù)應(yīng)用。通過分析和比較這些先發(fā)國家的大數(shù)據(jù)應(yīng)用,我們能了解當(dāng)前和未來需要大數(shù)據(jù)應(yīng)用聚焦和服務(wù)的地方,并為其他國家開展大數(shù)據(jù)應(yīng)用提供借鑒。
美國
為了對海量數(shù)據(jù)流的實(shí)時分析管理,美國政府和IBM在2002年合作開發(fā)了一個容量巨大、聚集性強(qiáng)的大數(shù)據(jù)基礎(chǔ)架構(gòu)。IBM基于Hadoop、流計(jì)算、數(shù)據(jù)倉庫等開發(fā)的InfoSphere Stream和Big Data,被政府機(jī)構(gòu)和商業(yè)組織廣泛應(yīng)用于海量實(shí)時數(shù)據(jù)源的分析和可視化、二次應(yīng)用程序開發(fā)和系統(tǒng)管理等。
2009年,美國政府“一站式數(shù)據(jù)下載”網(wǎng)站data.gov正式上線,并作為向政府透明化和問責(zé)制邁進(jìn)的一個步驟。該網(wǎng)站包括了420894個數(shù)據(jù)集(截至2012年8月),囊括了交通、經(jīng)濟(jì)、醫(yī)療、教育和人口服務(wù)等方面的數(shù)據(jù)。數(shù)據(jù)來源于多個方面,其中1279個由政府提供,236個由居民提供,103個由移動設(shè)備提供。
2010年,美國總統(tǒng)科學(xué)技術(shù)顧問委員會(聯(lián)邦政府協(xié)調(diào)非分類網(wǎng)絡(luò)和信息技術(shù)投資的主要機(jī)構(gòu))在《規(guī)劃數(shù)字化的未來》中建議,“聯(lián)邦政府的每一個機(jī)構(gòu)和部門,都需要制定一個應(yīng)對‘大數(shù)據(jù)’的戰(zhàn)略”,標(biāo)志著大數(shù)據(jù)時代已經(jīng)正式來臨。
2012年,奧巴馬政府頒布了《大數(shù)據(jù)的研究和發(fā)展計(jì)劃》,通過提高從大型復(fù)雜的數(shù)字?jǐn)?shù)據(jù)集中提取知識和觀點(diǎn)的能力,進(jìn)而加快美國在科學(xué)與工程中的步伐,加強(qiáng)國家安全,并改變教學(xué)研究。這是一個數(shù)額高達(dá)2億美元的投資計(jì)劃,涉及多個聯(lián)邦部門和機(jī)構(gòu),包括白宮科學(xué)技術(shù)政策辦公室、美國國家自然基金會、美國國立衛(wèi)生研究院、美國國防部、美國能源部、美國衛(wèi)生與公眾服務(wù)部、美國地質(zhì)調(diào)查局等機(jī)構(gòu)。這個投資項(xiàng)目的主要目的是提高大數(shù)據(jù)核心技術(shù)的發(fā)展水平,加速科學(xué)和工程開發(fā),加強(qiáng)國家安全,轉(zhuǎn)換大數(shù)據(jù)教育和學(xué)習(xí)方式,擴(kuò)展開發(fā)和使用大數(shù)據(jù)技術(shù)的工作力量。
截至2014年2月,美國國立衛(wèi)生研究院(NIH)在亞馬遜網(wǎng)絡(luò)服務(wù)中心已經(jīng)積累了數(shù)以百萬億字節(jié)的人類遺傳變異數(shù)據(jù),研究人員因此能獲得和分析巨量數(shù)據(jù),而不用再去發(fā)展自身的超級計(jì)算能力。在2012年,美國國家科學(xué)基金會聯(lián)合美國國立衛(wèi)生研究院(NIH)實(shí)施了提高大數(shù)據(jù)科學(xué)與工程核心技術(shù)規(guī)劃,目的在于推進(jìn)從大量、多樣化、分布式、異質(zhì)性的數(shù)據(jù)集合中管理、分析、可視化和提取有用信息的核心科學(xué)技術(shù)。
美國其他政府機(jī)構(gòu)也開始進(jìn)行大數(shù)據(jù)分析。美國國家稅務(wù)局已經(jīng)在它的返回審查程序中集成了大數(shù)據(jù)分析能力。通過分析大量的數(shù)據(jù),美國國家稅務(wù)局能夠檢查、預(yù)防和處理避稅和詐騙案。美國國防部也在大數(shù)據(jù)相關(guān)項(xiàng)目花費(fèi)了數(shù)百萬美元,其目標(biāo)之一就是利用大數(shù)據(jù)發(fā)展自主機(jī)器人系統(tǒng)(學(xué)習(xí)機(jī)器)。
美國地方政府也開發(fā)了大數(shù)據(jù)項(xiàng)目。例如,在2011年,美國紐約州錫拉丘茲市政府與IBM合作開展了一個智慧城市項(xiàng)目,使用大數(shù)據(jù)幫助預(yù)測并阻止住宅空置。密歇根州政府信息技術(shù)部構(gòu)建了一個數(shù)據(jù)庫,提供密歇根州居民的相關(guān)信息,以便政府機(jī)構(gòu)提供更好的服務(wù)。