在計算機系統(tǒng)中,各種字母、數(shù)字符號的組合、語音、圖形、圖像等統(tǒng)稱為數(shù)據(jù),數(shù)據(jù)經過加工后就成為信息。時下人類信息以每年50%的速度增長,大約每兩年就翻一番;數(shù)據(jù)海洋呈爆發(fā)式增長。
什么是大數(shù)據(jù)?有研究報告將大數(shù)據(jù)定義為,由數(shù)量巨大、結構復雜、類型眾多數(shù)據(jù)構成的數(shù)據(jù)集合,是基于云計算的數(shù)據(jù)處理與應用模式,通過數(shù)據(jù)的整合共享、交叉復用形成的智力資源和知識服務能力。大數(shù)據(jù)技術的戰(zhàn)略意義在于對這些有意義的數(shù)據(jù)進行專業(yè)化處理,從海量數(shù)據(jù)中發(fā)掘出真正的價值。
最早提出大數(shù)據(jù)時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”
大數(shù)據(jù)到底有多大?一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們,一天之中,互聯(lián)網(wǎng)產生的全部內容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多,相當于美國兩年的紙質信件數(shù)量;發(fā)出的社區(qū)帖子達200萬個,相當于《時代》雜志770年的文字量;賣出的手機為37.8萬臺,高于全球每天出生的嬰兒數(shù)量37.1萬……截止到2012年,數(shù)據(jù)量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。隨著計算機硬件成本、計算機內存成本的降低和超級集群計算機的產生,使得處理大規(guī)模的復雜數(shù)據(jù)成為可能,這樣就產生以結構化(股票交易數(shù)據(jù))、半結構化(網(wǎng)絡日志)和非結構化(文本數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù))為主的大數(shù)據(jù)。其中非結構化數(shù)據(jù)占互聯(lián)網(wǎng)數(shù)據(jù)總量的80%。
目前,一些專業(yè)人士將大數(shù)據(jù)概括為四大特征,即“四V”: 數(shù)量大(Volume),數(shù)據(jù)量級已從TB(1012字節(jié))發(fā)展至PB乃至ZB,可稱海量、巨量乃至超量;多樣性(Variable),數(shù)據(jù)類型繁多,多為網(wǎng)頁、圖片、視頻、圖像與位置信息等半結構化和非結構化數(shù)據(jù)信息;速度快(Velocity),數(shù)據(jù)流往往為高速實時數(shù)據(jù)流,而且往往需要快速、持續(xù)的實時處理,處理工具亦在快速演進,軟件工程及人工智能等均可能介入;價值高(Value),以視頻安全監(jiān)控為例,連續(xù)不斷的監(jiān)控流中,有重大價值者可能僅為一兩秒的數(shù)據(jù)流,360度全方位視頻監(jiān)控的“死角”處,可能會挖掘出最有價值的圖像信息。