關于大數(shù)據(jù),依然有很多朋友在不斷提問,什么是大數(shù)據(jù)?其實有時候我也說不清楚所問之題,所以特地整理如下的QA,方便學習:
什么是大數(shù)據(jù)?
大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)的單位有哪些?
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
大數(shù)據(jù)有哪些特征?
大數(shù)據(jù)的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)
大數(shù)據(jù)主要技術(shù)是哪些?
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。
大數(shù)據(jù)的國家政策是什么?
2015年9月,國務院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,明確到2020年,形成一批具有國際競爭力的大數(shù)據(jù)處理、分析、可視化軟件和硬件支撐平臺等產(chǎn)品,培育10家國際領先的大數(shù)據(jù)核心龍頭企業(yè),500家大數(shù)據(jù)應用、服務和產(chǎn)品制造企業(yè)。
大數(shù)據(jù)的市場規(guī)模有多大?
研究機構(gòu)IDC預測,全球大數(shù)據(jù)(Big Data)與分析市場規(guī)模將由2015年的1220億美元,在5年間成長超過50%,并在2019年底達到1870億美元的規(guī)模。中國信息通信研究院日前發(fā)布的《中國大數(shù)據(jù)發(fā)展調(diào)查報告(2017)》稱,2016年中國大數(shù)據(jù)市場規(guī)模達168億元,預計2017年~2020年仍將保持30%以上的增長。調(diào)查顯示,目前近六成企業(yè)已成立數(shù)據(jù)分析相關部門,超過1/3的企業(yè)已經(jīng)應用大數(shù)據(jù)。大數(shù)據(jù)應用為企業(yè)帶來最明顯的效果是實現(xiàn)了智能決策和提升了運營效率。
你必須知道的十個大數(shù)據(jù)案例是哪些?
1. 梅西百貨的實時定價機制。根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達7300萬種貨品進行實時調(diào)價。
2. Tipp24 AG針對歐洲博彩業(yè)構(gòu)建的下注和預測平臺。該公司用KXEN軟件來分析數(shù)十億計的交易以及客戶的特性,然后通過預測模型對特定用戶進行動態(tài)的營銷活動。這項舉措減少了90%的預測模型構(gòu)建時間。SAP公司正在試圖收購KXEN。“SAP想通過這次收購來扭轉(zhuǎn)其長久以來在預測分析方面的劣勢。”Laney分析到。
3. 沃爾瑪?shù)乃阉鳌_@家零售業(yè)寡頭為其網(wǎng)站W(wǎng)almart.com自行設計了最新的搜索引擎Polaris,利用語義數(shù)據(jù)進行文本分析、機器學習和同義詞挖掘等。根據(jù)沃爾瑪?shù)恼f法,語義搜索技術(shù)的運用使得在線購物的完成率提升了10%到15%。“對沃爾瑪來說,這就意味著數(shù)十億美元的金額。”Laney說。
4. 快餐業(yè)的視頻分析(Laney沒有說出這家公司的名字)。該公司通過視頻分析等候隊列的長度,然后自動變化電子菜單顯示的內(nèi)容。如果隊列較長,則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但準備時間相對長的食品。
5. Morton牛排店的品牌認知。當一位顧客開玩笑地通過推特向這家位于芝加哥的牛排連鎖店訂餐送到紐約Newark機場(他將在一天工作之后抵達該處)時,Morton就開始了自己的社交秀。首先,分析推特數(shù)據(jù),發(fā)現(xiàn)該顧客是本店的常客,也是推特的常用者。根據(jù)客戶以往的訂單,推測出其所乘的航班,然后派出一位身著燕尾服的侍者為客戶提供晚餐。也許,這聽起來過于離奇,但是你必須審視自己:“我是否有能力做到這個程度?”Laney說。
6. PredPol Inc.。PredPol公司通過與洛杉磯和圣克魯斯的警方以及一群研究人員合作,基于地震預測算法的變體和犯罪數(shù)據(jù)來預測犯罪發(fā)生的幾率,可以精確到500平方英尺的范圍內(nèi)。在洛杉磯運用該算法的地區(qū),盜竊罪和暴力犯罪分布下降了33%和21%。
7. Tesco PLC(特易購)和運營效率。這家超市連鎖在其數(shù)據(jù)倉庫中收集了700萬部冰箱的數(shù)據(jù)。通過對這些數(shù)據(jù)的分析,進行更全面的監(jiān)控并進行主動的維修以降低整體能耗。
8. American Express(美國運通,AmEx)和商業(yè)智能。以往,AmEx只能實現(xiàn)事后諸葛式的報告和滯后的預測。“傳統(tǒng)的BI已經(jīng)無法滿足業(yè)務發(fā)展的需要。”Laney認為。于是,AmEx開始構(gòu)建真正能夠預測忠誠度的模型,基于歷史交易數(shù)據(jù),用115個變量來進行分析預測。該公司表示,對于澳大利亞將于之后四個月中流失的客戶,已經(jīng)能夠識別出其中的24%。