中國IDC圈2月22日報道:什么是大數(shù)據(jù)?就是指那些超過傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的數(shù)據(jù),數(shù)據(jù)量通常在10TB(1TB=1024GB,為1萬億字節(jié))以上。大數(shù)據(jù)的基本特征是:體量巨大(volume),類型多樣(variety),處理速度快(velocity)。有時所說的“大數(shù)據(jù)”,也指一種技術(shù),它包括海量數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)處理技術(shù)、分布式計算(云計算)技術(shù)、數(shù)據(jù)可視化技術(shù)。
20多年來,各個領(lǐng)域的信息化使數(shù)據(jù)量以指數(shù)率加速增長。有專家測算,2000年全球新產(chǎn)生的數(shù)據(jù)量為1000PB(1PB=1024TB)到2000PB,到2010年僅僅全球企業(yè)一年新存儲的數(shù)據(jù)量就超過了7000PB。目前全球性的科技公司都要和PB級規(guī)模的數(shù)據(jù)打交道,而Facebook每天要存儲大約100TB的用戶數(shù)據(jù),美國宇航局 (NASA)每天要處理約24TB的數(shù)據(jù)。目前大數(shù)據(jù)已滲透到每一個行業(yè),逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運(yùn)用,將迎來新一波生產(chǎn)率增長浪潮。大數(shù)據(jù)在政府決策、商業(yè)和科技等領(lǐng)域的廣泛應(yīng)用,將在公共服務(wù)、民生醫(yī)療、維護(hù)社會安定、動態(tài)安全監(jiān)管等方面,將產(chǎn)生巨大的社會價值和產(chǎn)業(yè)空間。
航天是人類探索太空和利用太空的偉大事業(yè)。它在研制、運(yùn)行和發(fā)布成果的全過程中,都會產(chǎn)生大數(shù)據(jù)和要求應(yīng)用大數(shù)據(jù)。數(shù)據(jù)既是航天理論的基礎(chǔ),又是航天實(shí)踐的基石。航天要對尺度遠(yuǎn)比地球要大無數(shù)倍的廣闊空間中進(jìn)行探索,其總量更多,要求更高。如果沒有及時而精確的大數(shù)據(jù)支持,哪怕是一個小數(shù)點(diǎn)的錯誤,也會影響全局的成敗。因此,航天大數(shù)據(jù)不僅具有一般大數(shù)據(jù)的特點(diǎn),而且要求高可靠和高價值的要求。因此,航天是最早提出發(fā)展大數(shù)據(jù)技術(shù)的領(lǐng)域,也是取得大數(shù)據(jù)成果最多的領(lǐng)域。
為了說明大數(shù)據(jù)在航天方面的應(yīng)用,我們將以美國宇航局(NASA)為例。在美國政府的“大數(shù)據(jù)研究與開發(fā)倡議”中,列出了其它的12個國家機(jī)構(gòu)的大數(shù)據(jù)的行動計劃。其中NASA的計劃引人注目,它包括先進(jìn)的信息系統(tǒng)技術(shù)(AIST)、地球科學(xué)數(shù)據(jù)和信息系統(tǒng)(ESDIS)、全球地球觀測系統(tǒng)(GEOSS)、太空行動協(xié)議、行星數(shù)據(jù)系統(tǒng)(PDS)、太空望遠(yuǎn)鏡科學(xué)研究所(MAST)、地球系統(tǒng)電網(wǎng)聯(lián)邦公共檔案等。
我們經(jīng)??吹降奶煳钠嬗^的預(yù)測報告,其實(shí)很多都來自于NASA背后的海量數(shù)據(jù)的收集、管理和分析。NASA 約翰遜航天中心(JSC)從1959年至今,已收集400多萬靜態(tài)圖像,總達(dá)950萬英尺的16毫米膠卷,85000卷錄像磁帶,以及總時長81616小時的視頻模擬及數(shù)字檔案。NASA開發(fā)了一項應(yīng)用,將其命名為IO(在線影像),IO 能夠?qū)⒂跋裎募c所有相關(guān)元數(shù)據(jù)連接。然而,JSC 依然面臨一大難題:如何將資源向公眾開放,以及如何對這些資源進(jìn)行代碼轉(zhuǎn)換,使其空間占用更小,可利用率更高。為此,NASA和美國IT界合作,開發(fā)和應(yīng)用一個高度可擴(kuò)展的分布式批量處理系統(tǒng)Hadoop,對大型數(shù)據(jù)集進(jìn)行掃描,來處理從太空中(如太空望遠(yuǎn)鏡)中傳回海量數(shù)據(jù),其數(shù)據(jù)量可達(dá)到每秒鐘 700TB!
NASA的大數(shù)據(jù)技術(shù)已經(jīng)取得了大量成果。圖示這幅2005年6月至2007年12月海洋表面洋流的示意圖,集成了美國、日本和德國的具有各種數(shù)值模型的多種衛(wèi)星的數(shù)據(jù)。漩渦和窄洋流在海洋中傳送熱量和碳。海洋環(huán)流和氣候評估項目提供了所有深度的洋流,但這里僅僅使用了表層洋流。這些示意圖用來測量海洋在全球碳循環(huán)中的作用,并監(jiān)測地球系統(tǒng)的不同部分內(nèi)部及之間的熱量、水和化學(xué)交換。
NASA用于探索火星是否存在適宜生命存在的、以核燃料钚為動力的“好奇”號火星車,于2011年11月從肯尼迪航天中心升空,并于2012年8月6日降落火星。在一年多中,“好奇”號傳回了大量數(shù)據(jù)和圖象,根據(jù)“她”發(fā)回的資料,科學(xué)家制成了13億像素的360度火星高清全景圖,由此發(fā)現(xiàn)了火星遠(yuǎn)古存在河流以及當(dāng)時環(huán)境適合原始微生物生存的證據(jù)。“好奇”號每小時要向地球發(fā)回5萬張高分辨率的圖像。NASA噴氣推進(jìn)實(shí)驗(yàn)室(JPL)的科學(xué)家,采用了云計算(Amazon Web service)來處理這些數(shù)據(jù),在分析這些數(shù)據(jù)后,才能給“好奇”號安排第二天的任務(wù)。
總之,NASA的大數(shù)據(jù)的發(fā)展經(jīng)歷了兩個階段,初期稱之為“大科學(xué)”階段,這個階段的特點(diǎn),是產(chǎn)生數(shù)據(jù)的環(huán)境是可控的,目的是進(jìn)行科學(xué)實(shí)驗(yàn)和研究;第二階段稱之為“大事業(yè)”階段,產(chǎn)生數(shù)據(jù)的環(huán)境是自然的,目的是進(jìn)行實(shí)際應(yīng)用。目前,NASA的大數(shù)據(jù)正在從“大科學(xué)”向“大事業(yè)”的過渡之中。