5、推動(dòng)大數(shù)據(jù)投資的是數(shù)據(jù)的多樣性,而不是體量和速
Gartner將大數(shù)據(jù)定義為“三高”
Gartner將大數(shù)據(jù)定義為“三高”:高容量,高速率,高品類(lèi)的信息資產(chǎn)。正如New Vantage Partners最近的一項(xiàng)調(diào)查結(jié)果所示:雖然三個(gè)特性都在凸顯,但其中,多元化無(wú)疑正成為大數(shù)據(jù)投資的主導(dǎo)推動(dòng)力。
隨著企業(yè)尋求整合更多來(lái)源并關(guān)注大數(shù)據(jù)的“長(zhǎng)尾”,這一趨勢(shì)將更加明顯。從自由模式的JSON到嵌入式的數(shù)據(jù)庫(kù)(如關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)),到非平面數(shù)據(jù)(如Avro,Parquet,XML),數(shù)據(jù)格式正在成倍增長(zhǎng),連接器變得至關(guān)重要,它將不同格式的數(shù)據(jù)變成統(tǒng)一的表達(dá)/它讓不同格式的數(shù)據(jù)之間實(shí)現(xiàn)互通。在2017年,為零散的、不同的資源提供即時(shí)連接的能力,將成為評(píng)估一個(gè)平臺(tái)能力的重要方面。
6、Spark和機(jī)器學(xué)習(xí)打通大數(shù)據(jù)的任督二脈
Apache Spark曾是Hadoop生態(tài)系統(tǒng)的一個(gè)組件,現(xiàn)在正成為大數(shù)據(jù)平臺(tái)企業(yè)的首選。
在對(duì)數(shù)據(jù)架構(gòu)師、IT經(jīng)理和BI分析師的調(diào)查中,近70%的受訪(fǎng)者表示,現(xiàn)有的MapReduce里邊最青睞Spark,它是批量導(dǎo)向的并行處理,但不適合交互式應(yīng)用程序或?qū)崟r(shí)流處理。
這些以大數(shù)據(jù)為基礎(chǔ)的超級(jí)計(jì)算能力為計(jì)算密集型的平臺(tái)提供了極大的助力,如:機(jī)器學(xué)習(xí)(ML)、人工智能(AI)、圖形算法等。尤其對(duì)于Microsoft Azure機(jī)器學(xué)習(xí),由于上述計(jì)算能力也完全適用于初學(xué)者,并能迅速集成到現(xiàn)有的Microsoft平臺(tái)。向大眾開(kāi)放機(jī)器學(xué)習(xí)將有助于創(chuàng)建更多的模型和應(yīng)用程序來(lái)生成PB級(jí)數(shù)據(jù)。隨著機(jī)器學(xué)習(xí)和系統(tǒng)日益智能化,自助服務(wù)軟件提供商們是時(shí)候要挖掘一下大數(shù)據(jù)的力量如何變現(xiàn)到最終用戶(hù)身上。
7、物聯(lián)網(wǎng)、云服務(wù)和大數(shù)據(jù)集結(jié)起來(lái)便是自助服務(wù)的新機(jī)遇
在2017年,似乎一切都將有一個(gè)傳感器把信息送回主體
IoT正在生成大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),而且越來(lái)越多的數(shù)據(jù)部署在云服務(wù)上。數(shù)據(jù)通常是異構(gòu)的,并且存在于多個(gè)關(guān)系和非關(guān)系系統(tǒng)中,如Hadoop集群、非關(guān)系數(shù)據(jù)庫(kù)等。
雖然存儲(chǔ)和管理服務(wù)的創(chuàng)新加快了數(shù)據(jù)獲取的步伐、進(jìn)程程,但訪(fǎng)問(wèn)和理解數(shù)據(jù)本身仍然是棘手的“最后一米”。因此,對(duì)于無(wú)縫連接和組合各種云托管數(shù)據(jù)源的分析工具的需求正在增長(zhǎng)。這樣的工具使企業(yè)實(shí)現(xiàn)了大數(shù)據(jù)庫(kù)的即時(shí)調(diào)取和可視化管理,,從而幫助物聯(lián)網(wǎng)投資者挖掘隱藏的機(jī)會(huì)。
Hadoop大數(shù)據(jù)技術(shù)案例
讓Hadoop和其他大數(shù)據(jù)技術(shù)如此引人注目的部分原因是,他們讓企業(yè)找到問(wèn)題的答案,而在此之前他們甚至不知道問(wèn)題是什么。包括谷歌,F(xiàn)acebook、LinkedIn還在內(nèi)的諸多巨頭,都在幫助Hadoop改善運(yùn)營(yíng)效率。具體包括包括:
情感分析:Hadoop與先進(jìn)的文本分析工具結(jié)合,分析社會(huì)化媒體和社交網(wǎng)絡(luò)發(fā)布的非結(jié)構(gòu)化的文本,包括Tweets和Facebook,以確定用戶(hù)對(duì)特定公司,品牌或產(chǎn)品的情緒。分析既可以專(zhuān)注于宏觀層面的情緒,也可以細(xì)分到個(gè)人用戶(hù)的情緒。
風(fēng)險(xiǎn)建模:財(cái)務(wù)公司、銀行等公司使用Hadoop和下一代數(shù)據(jù)倉(cāng)庫(kù)分析大量交易數(shù)據(jù),以確定金融資產(chǎn)的風(fēng)險(xiǎn),模擬市場(chǎng)行為為潛在的“假設(shè)”方案做準(zhǔn)備,并根據(jù)風(fēng)險(xiǎn)為潛在客戶(hù)打分。
欺詐檢測(cè):金融公司、零售商等使用大數(shù)據(jù)技術(shù)將客戶(hù)行為與歷史交易數(shù)據(jù)結(jié)合來(lái)檢測(cè)欺詐行為。例如,信用卡公司使用大數(shù)據(jù)技術(shù)識(shí)別可能的被盜卡的交易行為。
客戶(hù)流失分析:企業(yè)使用Hadoop和大數(shù)據(jù)技術(shù)分析客戶(hù)行為數(shù)據(jù)并確定分析模型,該模型指出哪些客戶(hù)最有可能流向存在競(jìng)爭(zhēng)關(guān)系的供應(yīng)商或服務(wù)商。企業(yè)就能采取最有效的措施挽留欲流失客戶(hù)。
用戶(hù)體驗(yàn)分析:面向消費(fèi)者的企業(yè)使用Hadoop和其他大數(shù)據(jù)技術(shù)將之前單一客戶(hù)互動(dòng)渠道(如呼叫中心,網(wǎng)上聊天,微博等)數(shù)據(jù)整合在一起,以獲得對(duì)客戶(hù)體驗(yàn)的完整視圖。這使企業(yè)能夠了解客戶(hù)交互渠道之間的相互影響,從而優(yōu)化整個(gè)客戶(hù)生命周期的用戶(hù)體驗(yàn)。
8、在最終用戶(hù)驅(qū)動(dòng)下,自助數(shù)據(jù)預(yù)處理走向主流
Hadoop數(shù)據(jù)如何走進(jìn)企業(yè)用戶(hù),是當(dāng)下最大的挑戰(zhàn)之一。
自助服務(wù)分析平臺(tái)的興起改善了這一過(guò)程。但企業(yè)用戶(hù)希望進(jìn)一步簡(jiǎn)化數(shù)據(jù)分析的流程,尤其在處理多種數(shù)據(jù)類(lèi)型和格式時(shí),這一訴求更加明顯。
敏捷的自助服務(wù)數(shù)據(jù)預(yù)處理工具不僅可以在源處預(yù)處理Hadoop數(shù)據(jù),而且還使數(shù)據(jù)作為快照來(lái)用,從而進(jìn)行簡(jiǎn)易便捷的進(jìn)一步處理。