中國(guó)IDC圈6月16日?qǐng)?bào)道,在簡(jiǎn)化數(shù)據(jù)量和降低 大數(shù)據(jù)應(yīng)用 的復(fù)雜性中, 大數(shù)據(jù)分析 發(fā)揮著關(guān)鍵的作用??梢暬瞧渲幸粋€(gè)重要的途徑,它能夠幫助大數(shù)據(jù)獲得完整的數(shù)據(jù)視圖并挖掘數(shù)據(jù)的價(jià)值。大數(shù)據(jù)分析和可視化應(yīng)該無縫連接,這樣才能在大數(shù)據(jù)應(yīng)用中發(fā)揮最大的功效。
一、引言
數(shù)據(jù)可視化是將數(shù)據(jù)以不同形式展現(xiàn)在不同系統(tǒng)中,其中包括屬性和變量的單位信息?;诳梢暬l(fā)現(xiàn)數(shù)據(jù)的方法允許用戶使用不同的數(shù)據(jù)源,來創(chuàng)建自定義分析。先進(jìn)的分析集成了許多方法,為了支持交互式動(dòng)畫在臺(tái)式電腦、筆記本電腦或平板電腦、智能手機(jī)等移動(dòng)設(shè)備上創(chuàng)建圖形桌面。根據(jù)調(diào)查,表1顯示了數(shù)據(jù)可視化的好處。
表1.數(shù)據(jù)可視化工具的好處
對(duì)于可視化有以下幾點(diǎn)建議
大數(shù)據(jù)是大容量、高速度并且數(shù)據(jù)之間差異很大的數(shù)據(jù)集,因此需要新的處理方法來優(yōu)化決策的流程。大數(shù)據(jù)的挑戰(zhàn)在于數(shù)據(jù)采集、存儲(chǔ)、分析、共享、搜索和可視化。
1、“所有數(shù)據(jù)都必須可視化”:不要過分依賴可視化,一些數(shù)據(jù)不需要可視化方法來表達(dá)它的消息。
2、“只有好的數(shù)據(jù)才應(yīng)該做可視化”:簡(jiǎn)便的可視化可以便于找到錯(cuò)誤就像數(shù)據(jù)有助于發(fā)現(xiàn)有趣的趨勢(shì)一樣。
3、“可視化總是能做出正確的決定”:可視化并不能代替批判性思維。
4、“可視化將意味著準(zhǔn)確性”:數(shù)據(jù)可視化并不著重于顯示一個(gè)準(zhǔn)確的圖像,而是它可以表達(dá)出不同的效果。
可視化方法可通過創(chuàng)建表格、圖標(biāo)、圖像等直觀地表示數(shù)據(jù)。大數(shù)據(jù)可視化并不是傳統(tǒng)的小數(shù)據(jù)集。一些傳統(tǒng)的大數(shù)據(jù)可視化工具的延伸雖然已經(jīng)被開發(fā)出來,但這些遠(yuǎn)遠(yuǎn)不夠。在大規(guī)模數(shù)據(jù)可視化中, 許多研究人員用特征提取和幾何建模在實(shí)際數(shù)據(jù)呈現(xiàn)之前大大減少數(shù)據(jù)大小。當(dāng)我們?cè)谶M(jìn)行可視化大數(shù)據(jù)時(shí),選擇合適的數(shù)據(jù)也是非常重要的。
本文的目的是通過介紹傳統(tǒng)可視化方法及其在處理大數(shù)據(jù)時(shí)的擴(kuò)展方法,來展現(xiàn)大數(shù)據(jù)可視化的前沿技術(shù)。同時(shí)討論大數(shù)據(jù)可視化的挑戰(zhàn),并其取得的進(jìn)步。
在研究過程中,筆者首先尋找了近幾年通過大學(xué)圖書館系統(tǒng)發(fā)表的數(shù)據(jù)可視化相關(guān)論文。此階段筆者主要總結(jié)了傳統(tǒng)的數(shù)據(jù)可視化方法和該領(lǐng)域的新進(jìn)展。隨后筆者搜索了相關(guān)大數(shù)據(jù)可視化的論文,因?yàn)榇髷?shù)據(jù)是一個(gè)較新的領(lǐng)域,所以大多數(shù)的論文是在過去三年里發(fā)表的。同時(shí)筆者發(fā)現(xiàn)大多數(shù)傳統(tǒng)的數(shù)據(jù)可視化方法并不適用于大數(shù)據(jù),用一些從傳統(tǒng)的可視化中發(fā)展而來的方法來處理大數(shù)據(jù)也是遠(yuǎn)遠(yuǎn)不夠的。筆者著重關(guān)注大數(shù)據(jù)可視化的新方法、技術(shù)的進(jìn)步和大數(shù)據(jù)可視化的工具開發(fā)以及隨之而來的挑戰(zhàn)。
二、常規(guī)數(shù)據(jù)可視化方法
許多傳統(tǒng)的數(shù)據(jù)可視化方法經(jīng)常被使用,比如表格、直方圖、散點(diǎn)圖、折線圖、柱狀圖、餅圖、面積圖、流程圖、泡沫圖表等以及圖表的多個(gè)數(shù)據(jù)系列或組合像時(shí)間線、維恩圖、數(shù)據(jù)流圖、實(shí)體關(guān)系圖等。此外,一些數(shù)據(jù)可視化方法經(jīng)常被使用,卻不像前面那些使用的廣泛,它們是平行坐標(biāo)式、樹狀圖、錐形樹圖和語義網(wǎng)絡(luò)等
平行坐標(biāo)被用于繪制多維度個(gè)體數(shù)據(jù)。平行坐標(biāo)在顯示多維數(shù)據(jù)時(shí)是非常有用的。圖1就是平行坐標(biāo);樹狀圖則是一種有效的可視化層次結(jié)構(gòu)方法。每個(gè)子矩形的面積代表一個(gè)測(cè)量,而它的顏色常被用來代表另一個(gè)測(cè)量的數(shù)據(jù)。圖2顯示了一個(gè)選擇流媒體音樂和視頻的樹狀圖,是在一個(gè)社交網(wǎng)絡(luò)社區(qū)獲得的數(shù)據(jù);錐形樹圖是另一種顯示分層數(shù)據(jù)的方法,如三維空間中的組織體,它的樹枝是錐生長(zhǎng)的形式;語義網(wǎng)絡(luò)是一個(gè)表示不同概念之間的邏輯關(guān)系的圖形。它生成有向圖,組合節(jié)點(diǎn)或頂點(diǎn),邊或弧,并在每個(gè)邊上做標(biāo)記。
圖1:平行坐標(biāo)