大數(shù)據(jù)的概念炒作一向厲害,很多公司有著海量的數(shù)據(jù)流,有著大把的客戶(hù)和資金,技術(shù)也足以進(jìn)行處理大數(shù)據(jù),但是大數(shù)據(jù)之所以能夠成功炒作上位,是因?yàn)槠淠軇?dòng)性,一切動(dòng)不起來(lái)的大數(shù)據(jù)都是發(fā)酵中的垃圾。
動(dòng)態(tài)數(shù)據(jù)采集以求真
大數(shù)據(jù)在數(shù)據(jù)采集的環(huán)節(jié)常常忽略實(shí)際的數(shù)據(jù)采集環(huán)境問(wèn)題。盡管在互聯(lián)網(wǎng)環(huán)境中,采集環(huán)境很少受到大幅的波動(dòng)影響,但是一旦涉及行業(yè)特征則很難保障。
大數(shù)據(jù)在行業(yè)中應(yīng)用時(shí)會(huì)受到協(xié)同性、跨尺度、多因素、因果性和機(jī)理性等影響,這就使得數(shù)據(jù)采集時(shí)必須入鄉(xiāng)隨俗,貼切真實(shí)的應(yīng)用場(chǎng)景。而不是簡(jiǎn)單的從接觸到數(shù)據(jù)采集點(diǎn)時(shí)的單一數(shù)據(jù),這種數(shù)據(jù)對(duì)于全面分析事件形成原因存在著一定的誤差導(dǎo)向因素。
解決這一問(wèn)題的辦法在于行業(yè)應(yīng)用中,針對(duì)某一業(yè)務(wù)目標(biāo)可以動(dòng)用整個(gè)企業(yè)甚至行業(yè)鏈中的相關(guān)資源協(xié)同助陣,將不同時(shí)間尺度的信息集成采集,參考多種可能造成數(shù)據(jù)改變的因素和產(chǎn)生原因,進(jìn)行多層次的數(shù)據(jù)采集并且實(shí)現(xiàn)數(shù)據(jù)來(lái)源的真實(shí)性和豐富性。
數(shù)據(jù)采集需要全面
同時(shí),數(shù)據(jù)的采集不應(yīng)當(dāng)是階段性的,而應(yīng)該讓采集的數(shù)據(jù)保持動(dòng)態(tài)。一直以來(lái)大數(shù)據(jù)的分析過(guò)程都是一個(gè)冗長(zhǎng)的過(guò)程,數(shù)據(jù)采集、管理、處理、存儲(chǔ)、分析到應(yīng)用的整個(gè)流程不僅漫長(zhǎng),而且很難做到實(shí)時(shí)處理,這樣的一個(gè)結(jié)果就是數(shù)據(jù)庫(kù)中的數(shù)據(jù)很容易被迫過(guò)氣,導(dǎo)致分析偏差。
動(dòng)態(tài)數(shù)據(jù)管理以求新
數(shù)據(jù)的動(dòng)態(tài)管理是很多企業(yè)為難的地方,因?yàn)椴杉降臄?shù)據(jù)集量非常大,而且其中絕大多數(shù)都是無(wú)意義數(shù)據(jù),可是數(shù)據(jù)的拆分和篩選卻需要消耗大量資源才能完成。
數(shù)據(jù)管理不容易
數(shù)據(jù)的管理涵蓋了數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)提取等多個(gè)步驟,而如何能夠高效的管理數(shù)據(jù)成為影響大數(shù)據(jù)處理進(jìn)度的重要一環(huán)。數(shù)據(jù)采集過(guò)后,利用關(guān)系、鍵值、文檔、圖片、多媒體等屬性不同進(jìn)行打標(biāo)簽和歸類(lèi),預(yù)處理后形成數(shù)據(jù)集在數(shù)據(jù)庫(kù)中進(jìn)行分類(lèi)存儲(chǔ)。
大數(shù)據(jù)采集之后的存儲(chǔ)也不盡相同,有的數(shù)據(jù)只需要進(jìn)行短存儲(chǔ)就需要提取并進(jìn)行處理,而多數(shù)數(shù)據(jù)則需要長(zhǎng)期存儲(chǔ),因此分類(lèi)還需要根據(jù)用途進(jìn)行不同方式的區(qū)分。暫時(shí)性存儲(chǔ)的數(shù)據(jù)需要快速整理,而長(zhǎng)久存儲(chǔ)的數(shù)據(jù)需要降低成本和保證調(diào)用時(shí)的快捷性。
不過(guò),一部分?jǐn)?shù)據(jù)庫(kù)會(huì)囿于過(guò)去的數(shù)據(jù)影響,采集到的數(shù)據(jù)分析結(jié)果始終存在過(guò)去的數(shù)據(jù)在過(guò)去環(huán)境下的加持,從而會(huì)使得數(shù)據(jù)分析的最終結(jié)果出現(xiàn)偏差等問(wèn)題。因此,在數(shù)據(jù)存儲(chǔ)時(shí)應(yīng)當(dāng)提供區(qū)域性和完整性多層數(shù)據(jù)。
動(dòng)態(tài)的數(shù)據(jù)管理不僅僅是在數(shù)據(jù)庫(kù)層面之中形成動(dòng)態(tài)趨勢(shì),而是在整體的數(shù)據(jù)管理中,利用自動(dòng)化和區(qū)塊化的技術(shù)將必要數(shù)據(jù)進(jìn)行細(xì)分和篩選,讓數(shù)據(jù)保持新鮮度,去除舊數(shù)據(jù)的影響。
動(dòng)態(tài)數(shù)據(jù)分析以求穩(wěn)
在采集和分析部分實(shí)現(xiàn)動(dòng)態(tài)后,數(shù)據(jù)分析才是真正的核心存在。毫無(wú)疑問(wèn),數(shù)據(jù)分析的核心是算法和數(shù)據(jù),而在數(shù)據(jù)發(fā)分析時(shí)普遍可以先分為數(shù)據(jù)處理和分析兩個(gè)環(huán)節(jié)。
數(shù)據(jù)分析的算法是十分挑剔的,其對(duì)于不同的數(shù)據(jù)要求不同,一般來(lái)講,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)就是典型的不同種類(lèi)的數(shù)據(jù),其處理方式相差甚遠(yuǎn),因此需要先進(jìn)行數(shù)據(jù)處理,將不同種類(lèi)的數(shù)據(jù)根據(jù)分析目的進(jìn)行異構(gòu)解析或者壓縮,然后進(jìn)行分析得出指導(dǎo)性理論。