物聯(lián)網(wǎng)和大數(shù)據(jù)是同一枚硬幣的兩面,數(shù)十億與互聯(lián)網(wǎng)連接的“物件”將生產(chǎn)大量數(shù)據(jù)。然而,這本身不會引發(fā)另一場工業(yè)革命,不會改變?nèi)粘5臄?shù)字化生活,也不會提供拯救地球的預(yù)警系統(tǒng)。來自設(shè)備外部的數(shù)據(jù)才是企業(yè)讓自己與眾不同的方面,結(jié)合上下文來捕獲和分析這種類型的數(shù)據(jù)為公司帶來了新的發(fā)展前途。
2.深度學(xué)習(xí)
深度學(xué)習(xí)主要用于從大量未標(biāo)記/未監(jiān)督的數(shù)據(jù)當(dāng)中學(xué)習(xí),因而對于從大數(shù)據(jù)中提取有意義的標(biāo)識和模式頗具吸引力。比如說,它可以用來識別許多不同類型的數(shù)據(jù),比如視頻中的形狀、顏色和對象,或者甚至是圖像中的貓,就像谷歌研制的一個神經(jīng)網(wǎng)絡(luò)在2012年所做的那樣。因此,企業(yè)可能會看到更多的注意力投向半監(jiān)督式或未監(jiān)督式訓(xùn)練算法來處理進(jìn)入的大量數(shù)據(jù)。
3.內(nèi)存中分析
不像常規(guī)的商業(yè)智能(BI)軟件對存儲在服務(wù)器硬盤上的數(shù)據(jù)運(yùn)行查詢,內(nèi)存中技術(shù)查詢的是載入到內(nèi)存中的信息,這可以通過減少或甚至消除磁盤輸入/輸出瓶頸來顯著提升分析性能。就大數(shù)據(jù)而言,正是由于TB級系統(tǒng)和大規(guī)模并行處理,讓內(nèi)存中分析技術(shù)更令人關(guān)注。
在現(xiàn)階段,大數(shù)據(jù)分析的核心其實(shí)是發(fā)現(xiàn)數(shù)據(jù)。要是沒有毫秒級延遲,面對數(shù)百萬次/數(shù)十億次的迭代,運(yùn)行迭代以查找數(shù)據(jù)點(diǎn)之間的關(guān)聯(lián)就不會成為現(xiàn)實(shí)。在內(nèi)存中處理的速度比磁盤上處理要快三個數(shù)量級。
4.云計算
混合云和公共云服務(wù)越來越受歡迎。大數(shù)據(jù)成功的關(guān)鍵是在彈性基礎(chǔ)設(shè)施上運(yùn)行(Hadoop)平臺。我們會看到數(shù)據(jù)存儲和分析趨于融合,帶來新的更智能的存儲系統(tǒng),它們將經(jīng)過優(yōu)化,用于存儲、管理和排序龐大的PB級數(shù)據(jù)集。展望未來,我們可以預(yù)計會看到基于云的大數(shù)據(jù)生態(tài)系統(tǒng)將繼續(xù)迎來發(fā)展,不僅僅局限于“早期采用者”。
5.Apache Spark
Apache Spark在點(diǎn)亮大數(shù)據(jù)。流行的Apache Spark項目提供了Spark Streaming技術(shù),通過主要采用一種在內(nèi)存中微批量處理的方法,近實(shí)時地處理數(shù)據(jù)流。它已從Hadoop生態(tài)系統(tǒng)的一部分,變成許多企業(yè)青睞的一種大數(shù)據(jù)平臺。