分析大量數(shù)據(jù)只是使大數(shù)據(jù)分析與以前的數(shù)據(jù)分析不同的一部分。我們還要了解其它方面。
先有數(shù)據(jù),然后是大數(shù)據(jù)。那么,它們有什么區(qū)別?
定義大數(shù)據(jù)
一般而言,大數(shù)據(jù)是指容量龐大的數(shù)據(jù)集,大到傳統(tǒng)的數(shù)據(jù)處理軟件產(chǎn)品無法在合理的時間內(nèi)捕獲、管理和處理數(shù)據(jù)。
這些大數(shù)據(jù)集可以包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),人們可以從每個數(shù)據(jù)挖掘到洞察。
多大的數(shù)據(jù)才算得上“大”尚無定論,但它通??赡苁菐讉€拍字節(jié)(petabyte),并且對于艾字節(jié)(exabyte)范圍中的最大項目也是如此。
通常,大數(shù)據(jù)的特點是三個V:
極大的數(shù)據(jù)量
各種類型的數(shù)據(jù)
數(shù)據(jù)得到處理和分析的速度
構(gòu)成大數(shù)據(jù)存儲中的數(shù)據(jù)可以來自網(wǎng)站、社交媒體、臺式機和移動應(yīng)用、科學(xué)實驗以及物聯(lián)網(wǎng)(IoT)中日益增多的傳感器和其他設(shè)備。
大數(shù)據(jù)的概念帶有一組相關(guān)組件,這些組件使組織可以使數(shù)據(jù)得到實際應(yīng)用并解決一些業(yè)務(wù)問題。這包括用來支持大數(shù)據(jù)所需的IT基礎(chǔ)設(shè)施、應(yīng)用于數(shù)據(jù)的分析、大數(shù)據(jù)項目所需的技術(shù)、一系列有關(guān)的技能、以及對大數(shù)據(jù)很重要的實際用例。
大數(shù)據(jù)和分析
真正能從組織所收集的所有大數(shù)據(jù)中實現(xiàn)價值的東西是應(yīng)用于數(shù)據(jù)的分析。沒有分析的話,這只是一大堆商業(yè)用途十分有限的數(shù)據(jù)。
企業(yè)通過將分析應(yīng)用于大數(shù)據(jù)就可以看到銷售額的增長、客戶服務(wù)的改善、效率的提高以及競爭力得到全面提升等優(yōu)勢。
數(shù)據(jù)分析包括檢查數(shù)據(jù)集以獲得洞察或得出關(guān)于它們包含的內(nèi)容的結(jié)論,例如關(guān)于未來活動的趨勢和預(yù)測。
組織通過數(shù)據(jù)分析可以做出更明智的業(yè)務(wù)決策,例如何時何地進行營銷活動或引入新產(chǎn)品或服務(wù)。
分析可以指基本的商業(yè)智能應(yīng)用程序或更高級的預(yù)測分析,例如科學(xué)機構(gòu)所使用的分析。最先進的數(shù)據(jù)分析類型是數(shù)據(jù)挖掘,分析師在這里評估大型數(shù)據(jù)集以確定關(guān)系、模式和趨勢。
數(shù)據(jù)分析可以包括探索性數(shù)據(jù)分析(識別數(shù)據(jù)中的模式和關(guān)系)和驗證性數(shù)據(jù)分析(應(yīng)用統(tǒng)計方法來確定關(guān)于特定數(shù)據(jù)集的假設(shè)是否屬實)。
另一個區(qū)別是定量數(shù)據(jù)分析(或?qū)哂锌梢越y(tǒng)計比較的可量化變量的數(shù)字數(shù)據(jù)的分析)與定性數(shù)據(jù)分析(其側(cè)重于非數(shù)字數(shù)據(jù),如視頻、圖像和文本)。
支持大數(shù)據(jù)的IT基礎(chǔ)設(shè)施
要讓大數(shù)據(jù)的概念發(fā)揮作用,組織需要有合適的基礎(chǔ)設(shè)施來收集和存儲數(shù)據(jù)、提供對數(shù)據(jù)的訪問并保護信息在存儲和傳輸過程中的安全。
這在較高的層面上還包括為大數(shù)據(jù),數(shù)據(jù)管理和集成軟件,商業(yè)智能和數(shù)據(jù)分析軟件以及大數(shù)據(jù)應(yīng)用設(shè)計的存儲系統(tǒng)和服務(wù)器。
由于公司希望繼續(xù)利用其數(shù)據(jù)中心投資,大部分這種基礎(chǔ)設(shè)施可能會在本地部署。但越來越多的組織依靠云計算服務(wù)來處理他們的大部分大數(shù)據(jù)需求。
數(shù)據(jù)收集需要有收集數(shù)據(jù)的來源。其中有很多來源——如Web應(yīng)用程序、社交媒體渠道、移動應(yīng)用程序和電子郵件存檔——已經(jīng)就位。但隨著物聯(lián)網(wǎng)的逐漸成熟,企業(yè)可能需要在各種設(shè)備、車輛和產(chǎn)品上部署傳感器、以及生成用戶數(shù)據(jù)的新應(yīng)用程序來收集數(shù)據(jù)。(面向物聯(lián)網(wǎng)的大數(shù)據(jù)分析具有自身的專業(yè)技術(shù)和工具。)
為了存儲所有傳入的數(shù)據(jù),組織需要有足夠的數(shù)據(jù)存儲。存儲選項包括傳統(tǒng)的數(shù)據(jù)倉庫,數(shù)據(jù)湖泊和基于云的存儲。
安全基礎(chǔ)架構(gòu)工具可能包括數(shù)據(jù)加密、用戶身份驗證和其它訪問控制、監(jiān)控系統(tǒng)、防火墻、企業(yè)移動管理以及其它保護系統(tǒng)和數(shù)據(jù)的產(chǎn)品,
大數(shù)據(jù)特有的技術(shù)
一般來說,除了上述用于數(shù)據(jù)的IT基礎(chǔ)架構(gòu)之外。你的IT基礎(chǔ)架構(gòu)應(yīng)該支持大數(shù)據(jù)特有的幾種技術(shù)。
Hadoop生態(tài)系統(tǒng)
Hadoop是其中一項與大數(shù)據(jù)密切相關(guān)的技術(shù)。Apache Hadoop項目為可擴展的分布式計算開發(fā)開源軟件。
Hadoop軟件庫是一個框架,該框架支持使用簡單的編程模型在計算機集群中對大數(shù)據(jù)集進行分布式處理。它旨在從單個服務(wù)器擴展到數(shù)千個,每個服務(wù)器都提供本地計算和存儲。
該項目包括幾個模塊:
Hadoop Common是支持其它Hadoop模塊的通用工具
Hadoop分布式文件系統(tǒng),它可以為應(yīng)用程序數(shù)據(jù)提供高吞吐量的訪問
Hadoop YARN是一個作業(yè)調(diào)度和集群資源管理的框架
Hadoop MapReduce是一個基于YARN的大數(shù)據(jù)集并行處理系統(tǒng)。