最后一層是產(chǎn)品層,這個就不用解釋了。
存儲技術(shù)
大數(shù)據(jù)可以抽象的分為大數(shù)據(jù)存儲和大數(shù)據(jù)分析,這兩者的關(guān)系是:大數(shù)據(jù)存儲的目的是支撐大數(shù)據(jù)分析。到目前為止,還是兩種截然不同的計算機(jī)技術(shù)領(lǐng)域:大數(shù)據(jù)存儲致力于研發(fā)可以擴(kuò)展至PB甚至EB級別的數(shù)據(jù)存儲平臺;大數(shù)據(jù)分析關(guān)注在最短時間內(nèi)處理大量不同類型的數(shù)據(jù)集。
提到存儲,有一個著名的摩爾定律相信大家都聽過:18個月集成電路的復(fù)雜性就增加一倍。所以,存儲器的成本大約每18-24個月就下降一半。成本的不斷下降也造就了大數(shù)據(jù)的可存儲性。
比如,Google大約管理著超過50萬臺服務(wù)器和100萬塊硬盤,而且Google還在不斷的擴(kuò)大計算能力和存儲能力,其中很多的擴(kuò)展都是基于在廉價服務(wù)器和普通存儲硬盤的基礎(chǔ)上進(jìn)行的,這大大降低了其服務(wù)成本,因此可以將更多的資金投入到技術(shù)的研發(fā)當(dāng)中。
以Amazon舉例,Amazon S3 是一種面向 Internet 的存儲服務(wù)。該服務(wù)旨在讓開發(fā)人員能更輕松的進(jìn)行網(wǎng)絡(luò)規(guī)模計算。Amazon S3 提供一個簡明的 Web 服務(wù)界面,用戶可通過它隨時在 Web 上的任何位置存儲和檢索的任意大小的數(shù)據(jù)。 此服務(wù)讓所有開發(fā)人員都能訪問同一個具備高擴(kuò)展性、可靠性、安全性和快速價廉的基礎(chǔ)設(shè)施,Amazon 用它來運(yùn)行其全球的網(wǎng)站網(wǎng)絡(luò)。再看看S3的設(shè)計指標(biāo):在特定年度內(nèi)為數(shù)據(jù)元提供 99.999999999% 的耐久性和 99.99% 的可用性,并能夠承受兩個設(shè)施中的數(shù)據(jù)同時丟失。
S3很成功也確實卓有成效,S3云的存儲對象已達(dá)到萬億級別,而且性能表現(xiàn)相當(dāng)良好。S3云已經(jīng)擁萬億跨地域存儲對象,同時AWS的對象執(zhí)行請求也達(dá)到百萬的峰值數(shù)量。目前全球范圍內(nèi)已經(jīng)有數(shù)以十萬計的企業(yè)在通過AWS運(yùn)行自己的全部或者部分日常業(yè)務(wù)。這些企業(yè)用戶遍布190多個國家,幾乎世界上的每個角落都有Amazon用戶的身影。
感知技術(shù)
大數(shù)據(jù)的采集和感知技術(shù)的發(fā)展是緊密聯(lián)系的。以傳感器技術(shù),指紋識別技術(shù),RFID技術(shù),坐標(biāo)定位技術(shù)等為基礎(chǔ)的感知能力提升同樣是物聯(lián)網(wǎng)發(fā)展的基石。全世界的工業(yè)設(shè)備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時測量和傳遞著有關(guān)位置、運(yùn)動、震動、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,都會產(chǎn)生海量的數(shù)據(jù)信息。
而隨著智能手機(jī)的普及,感知技術(shù)可謂迎來了發(fā)展的高峰期,除了地理位置信息被廣泛的應(yīng)用外,一些新的感知手段也開始登上舞臺,比如,最新的”iPhone 5S”在home鍵內(nèi)嵌指紋傳感器,新型手機(jī)可通過呼氣直接檢測燃燒脂肪量,用于手機(jī)的嗅覺傳感器面世可以監(jiān)測從空氣污染到危險的化學(xué)藥品,微軟正在研發(fā)可感知用戶當(dāng)前心情智能手機(jī)技術(shù),谷歌眼鏡InSight新技術(shù)可通過衣著進(jìn)行人物識別。
除此之外,還有很多與感知相關(guān)的技術(shù)革新讓我們耳目一新:比如,牙齒傳感器實時監(jiān)控口腔活動及飲食狀況,嬰兒穿戴設(shè)備可用大數(shù)據(jù)去養(yǎng)育寶寶,Intel正研發(fā)3D筆記本攝像頭可追蹤眼球讀懂情緒,日本公司開發(fā)新型可監(jiān)控用戶心率的紡織材料,業(yè)界正在嘗試將生物測定技術(shù)引入支付領(lǐng)域等。
其實,這些感知被逐漸捕獲的過程就是就世界被數(shù)據(jù)化的過程,一旦世界被完全數(shù)據(jù)化了,那么世界的本質(zhì)也就是信息了。
就像一句名言所說,“人類以前延續(xù)的是文明,現(xiàn)在傳承的是信息。”
大數(shù)據(jù)的實踐
互聯(lián)網(wǎng)的大數(shù)據(jù)
互聯(lián)網(wǎng)上的數(shù)據(jù)每年增長50%,每兩年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。據(jù)IDC預(yù)測,到2020年全球?qū)⒖偣矒?有35ZB的數(shù)據(jù)量。互聯(lián)網(wǎng)是大數(shù)據(jù)發(fā)展的前哨陣地,隨著WEB2.0時代的發(fā)展,人們似乎都習(xí)慣了將自己的生活通過網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)化,方便分享以及記錄和回憶。
互聯(lián)網(wǎng)上的大數(shù)據(jù)很難清晰的界定分類界限,我們先看看BAT的大數(shù)據(jù):
百度擁有兩種類型的大數(shù)據(jù):用戶搜索表征的需求數(shù)據(jù);爬蟲和阿拉丁獲取的公共web數(shù)據(jù)。搜索巨頭百度圍繞數(shù)據(jù)而生。它對網(wǎng)頁數(shù)據(jù)的爬取、網(wǎng)頁內(nèi)容的組織和解析,通過語義分析對搜索需求的精準(zhǔn)理解進(jìn)而從海量數(shù)據(jù)中找準(zhǔn)結(jié)果,以及精準(zhǔn)的搜索引擎關(guān)鍵字廣告,實質(zhì)上就是一個數(shù)據(jù)的獲取、組織、分析和挖掘的過程。搜索引擎在大數(shù)據(jù)時代面臨的挑戰(zhàn)有:更多的暗網(wǎng)數(shù)據(jù);更多的WEB化但是沒有結(jié)構(gòu)化的數(shù)據(jù);更多的WEB化、結(jié)構(gòu)化但是封閉的數(shù)據(jù)。