數(shù)據(jù)可視化是將數(shù)據(jù)以不同形式展現(xiàn)在不同系統(tǒng)中,其中包括屬性和變量的單位信息?;诳梢暬l(fā)現(xiàn)數(shù)據(jù)的方法允許用戶使用不同的數(shù)據(jù)源,來(lái)創(chuàng)建自定義分析。先進(jìn)的分析集成了許多方法,為了支持交互式動(dòng)畫(huà)在臺(tái)式電腦、筆記本電腦或平板電腦、智能手機(jī)等移動(dòng)設(shè)備上創(chuàng)建圖形桌面。根據(jù)調(diào)查,表1顯示了數(shù)據(jù)可視化的好處。
對(duì)于可視化有以下幾點(diǎn)建議
大數(shù)據(jù) 是大容量、高速度并且數(shù)據(jù)之間差異很大的數(shù)據(jù)集,因此需要新的處理方法來(lái)優(yōu)化決策的流程。大數(shù)據(jù)的挑戰(zhàn)在于數(shù)據(jù)采集、存儲(chǔ)、分析、共享、搜索和可視化[5]
1、“所有數(shù)據(jù)都必須可視化”:不要過(guò)分依賴可視化,一些數(shù)據(jù)不需要可視化方法來(lái)表達(dá)它的消息。
2、“只有好的數(shù)據(jù)才應(yīng)該做可視化”:簡(jiǎn)便的可視化可以便于找到錯(cuò)誤就像數(shù)據(jù)有助于發(fā)現(xiàn)有趣的趨勢(shì)一樣。
3、“可視化總是能做出正確的決定”:可視化并不能代替批判性思維。
4、“可視化將意味著準(zhǔn)確性”:數(shù)據(jù)可視化并不著重于顯示一個(gè)準(zhǔn)確的圖像,而是它可以表達(dá)出不同的效果。
常規(guī)數(shù)據(jù)可視化方法
許多傳統(tǒng)的數(shù)據(jù)可視化方法經(jīng)常被使用,比如表格、直方圖、散點(diǎn)圖、折線圖、柱狀圖、餅圖、面積圖、流程圖、泡沫圖表等以及圖表的多個(gè)數(shù)據(jù)系列或組合像時(shí)間線、維恩圖、數(shù)據(jù)流圖、實(shí)體關(guān)系圖等。此外,一些數(shù)據(jù)可視化方法經(jīng)常被使用,卻不像前面那些使用的廣泛,它們是平行坐標(biāo)式、樹(shù)狀圖、錐形樹(shù)圖和語(yǔ)義網(wǎng)絡(luò)等。
平行坐標(biāo)被用于繪制多維度個(gè)體數(shù)據(jù)。平行坐標(biāo)在顯示多維數(shù)據(jù)時(shí)是非常有用的。圖1就是平行坐標(biāo);樹(shù)狀圖則是一種有效的可視化層次結(jié)構(gòu)方法。每個(gè)子矩形的面積代表一個(gè)測(cè)量,而它的顏色常被用來(lái)代表另一個(gè)測(cè)量的數(shù)據(jù)。圖2顯示了一個(gè)選擇流媒體音樂(lè)和視頻的樹(shù)狀圖,是在一個(gè)社交網(wǎng)絡(luò)社區(qū)獲得的數(shù)據(jù);錐形樹(shù)圖是另一種顯示分層數(shù)據(jù)的方法,如三維空間中的組織體,它的樹(shù)枝是錐生長(zhǎng)的形式;語(yǔ)義網(wǎng)絡(luò)是一個(gè)表示不同概念之間的邏輯關(guān)系的圖形。它生成有向圖,組合節(jié)點(diǎn)或頂點(diǎn),邊或弧,并在每個(gè)邊上做標(biāo)記。
可視化并非僅僅是靜態(tài)形式,而應(yīng)當(dāng)是互動(dòng)的。交互式可視化可以通過(guò)縮放等方法進(jìn)行細(xì)節(jié)概述。它有如下的步驟:
1、選擇:交互式根據(jù)用戶的興趣選擇數(shù)據(jù)實(shí)體或完整的數(shù)據(jù)集,以及它的子集。
2、鏈接:在多個(gè)視圖找到有用的信息,如圖3所示。
3、過(guò)濾:幫助用戶調(diào)節(jié)顯示的信息量,減少信息數(shù)量并且專注于用戶感興趣的信息。
重排或再映射:空間布局是最重要的視覺(jué)映射,重排信息的空間布局對(duì)產(chǎn)生不同的見(jiàn)解非常有效。
新的數(shù)據(jù)庫(kù)技術(shù)和前沿的網(wǎng)絡(luò)可視化方法可能是減少成本的重要因素,也有助于完善科研的進(jìn)程。隨著網(wǎng)絡(luò)時(shí)代的到來(lái),數(shù)據(jù)時(shí)時(shí)都在更新,大大減小了可視化的時(shí)效性。這些“低端”可視化通常用于商業(yè)分析和政府?dāng)?shù)據(jù)的開(kāi)放,但它們對(duì)科研沒(méi)有太大的幫助。許多科學(xué)家使用的可視化工具都不允許連接這些網(wǎng)絡(luò)工具。
大數(shù)據(jù)可視化面臨的挑戰(zhàn)
拓展性和動(dòng)態(tài)分析是可視化的兩個(gè)最主要的挑戰(zhàn)。根據(jù)數(shù)據(jù)量的大小,表2顯示了靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)的研究現(xiàn)狀。對(duì)大型動(dòng)態(tài)數(shù)據(jù),原本A問(wèn)題的答案和B問(wèn)題的答案也許在同時(shí)應(yīng)對(duì)AB兩個(gè)問(wèn)題時(shí)就不適用了。
基于可視化的方法迎接了四個(gè)“V”的挑戰(zhàn),并將它們轉(zhuǎn)化成以下的機(jī)遇。
• 體量(Volume):使用數(shù)據(jù)量很大的數(shù)據(jù)集開(kāi)發(fā),并從大數(shù)據(jù)中獲得意義。
• 多源(Variety):開(kāi)發(fā)過(guò)程中需要盡可能多的數(shù)據(jù)源。
• 高速(Velocity):企業(yè)不用再分批處理數(shù)據(jù),而是可以實(shí)時(shí)處理全部數(shù)據(jù)。
• 質(zhì)量(Value):不僅為用戶創(chuàng)建有吸引力的信息圖和熱點(diǎn)圖,還能通過(guò)大數(shù)據(jù)獲取意見(jiàn),創(chuàng)造商業(yè)價(jià)值。
大數(shù)據(jù)可視化的多樣性和異構(gòu)性(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)是一個(gè)大問(wèn)題。高速是大數(shù)據(jù)分析的要素。在大數(shù)據(jù)中,設(shè)計(jì)一個(gè)新的可視化工具并具有高效的索引并非易事。云計(jì)算和先進(jìn)的圖形用戶界面更有助于發(fā)展大數(shù)據(jù)的擴(kuò)展性。
可視化系統(tǒng)必須與非結(jié)構(gòu)化的數(shù)據(jù)形式(如圖表、表格、文本、樹(shù)狀圖還有其他的元數(shù)據(jù)等)相抗衡,而大數(shù)據(jù)通常是以非結(jié)構(gòu)化形式出現(xiàn)的。由于寬帶限制和能源需求,可視化應(yīng)該更貼近數(shù)據(jù),并有效地提取有意義的信息??梢暬浖?yīng)以原位的方式運(yùn)行。由于大數(shù)據(jù)的容量問(wèn)題,大規(guī)模并行化成為可視化過(guò)程的一個(gè)挑戰(zhàn)。而并行可視化算法的難點(diǎn)則是如何將一個(gè)問(wèn)題分解為多個(gè)可同時(shí)運(yùn)行的獨(dú)立的任務(wù)。