高效的數(shù)據(jù)可視化是大數(shù)據(jù)時(shí)代發(fā)展進(jìn)程中關(guān)鍵的一部分。大數(shù)據(jù)的復(fù)雜性和高維度催生了幾種不同的降維方法。然而,他們可能并不總是那么適用。高維可視化越有效,識(shí)別出潛在的模式、相關(guān)性或離群值的概率越高。
大數(shù)據(jù)可視化還有以下幾點(diǎn)問題:
• 視覺噪聲:在數(shù)據(jù)集中,大多數(shù)對(duì)象之間具有很強(qiáng)的相關(guān)性。用戶無法把他們分離作為獨(dú)立的對(duì)象來顯示。
• 信息丟失:減少可視數(shù)據(jù)集的方法是可行的,但是這會(huì)導(dǎo)致信息的丟失。
• 大型圖像感知:數(shù)據(jù)可視化不僅受限于設(shè)備的長(zhǎng)寬比和分辨率,也受限于現(xiàn)實(shí)世界的感受。
• 高速圖像變換:用戶雖然能觀察數(shù)據(jù),卻不能對(duì)數(shù)據(jù)強(qiáng)度變化做出反應(yīng)。
• 高性能要求:在靜態(tài)可視化幾乎沒有這個(gè)要求,因?yàn)榭梢暬俣容^低,性能的要求也不高。
可感知的交互的擴(kuò)展性也是大數(shù)據(jù)可視化面臨的挑戰(zhàn)??梢暬總€(gè)數(shù)據(jù)點(diǎn)都可能導(dǎo)致過度繪制而降低用戶的辨識(shí)能力,通過抽樣或過濾數(shù)據(jù)可以刪去離群值。查詢大規(guī)模數(shù)據(jù)庫(kù)的數(shù)據(jù)可能導(dǎo)致高延遲,降低交互速率。
在大數(shù)據(jù)的應(yīng)用程序中,大規(guī)模數(shù)據(jù)和高維度數(shù)據(jù)會(huì)使進(jìn)行數(shù)據(jù)可視化變得困難。當(dāng)前大多數(shù)大數(shù)據(jù)可視化工具在擴(kuò)展性、功能和響應(yīng)時(shí)間上表現(xiàn)非常糟糕??梢暬治鲞^程中,不確定性是有效的考慮不確定性的可視化過程巨大挑戰(zhàn)。
可視化和大數(shù)據(jù)面臨許多的挑戰(zhàn),下面是一些可能的解決方法:
1. 滿足高速需要:一是 改善硬件 ,可以嘗試增加內(nèi)存和提高并行處理的能力。二是許多機(jī)器會(huì)用到的, 將數(shù)據(jù)存儲(chǔ)好并使用網(wǎng)格計(jì)算方法。
2. 了解數(shù)據(jù):請(qǐng)合適的專業(yè)領(lǐng)域人士解讀數(shù)據(jù)。
3. 訪問數(shù)據(jù)質(zhì)量:通過數(shù)據(jù)治理或信息管理確保干凈的數(shù)據(jù)十分必要。
4. 顯示有意義的結(jié)果:將數(shù)據(jù)聚集起來到一個(gè)更高層的視圖,在這里小型數(shù)據(jù)組和數(shù)據(jù)可以被有效地可視化。
5. 處理離群值:將數(shù)據(jù)中的離群值剔除或?yàn)殡x群值創(chuàng)建一個(gè)單獨(dú)的圖表。
大數(shù)據(jù)可視化的一些進(jìn)展
在大數(shù)據(jù)時(shí)代,可視化操作究竟是如何進(jìn)行的呢?首先可視化會(huì)為用戶提供一個(gè)總的概覽,再通過縮放和篩選,為人們提供其所需的更深入的細(xì)節(jié)信息??梢暬倪^程在幫助人們利用大數(shù)據(jù)獲取較為完整的客戶信息時(shí)起到了關(guān)鍵性作用。而錯(cuò)綜的關(guān)系是眾多大數(shù)據(jù)場(chǎng)景中的重要一環(huán),社交網(wǎng)絡(luò)或許就是最顯著的例子,想要通過文本或表格的形式理解其中的大數(shù)據(jù)信息是非常困難的;相反,可視化卻能夠?qū)⑦@些網(wǎng)絡(luò)的趨勢(shì)和固有模式展現(xiàn)地更為清晰。在形象體現(xiàn)社交網(wǎng)絡(luò)用戶之間的關(guān)系時(shí),通常使用的是基于云計(jì)算的可視化方法。通過相關(guān)性模型來描繪社交網(wǎng)絡(luò)中用戶節(jié)點(diǎn)的層次關(guān)系,這種方法能夠直觀地展示用戶的社會(huì)關(guān)系。此外,它還能借助利用云技術(shù)的Hadoop軟件平臺(tái)將可視化過程并行化,從而加快社交網(wǎng)絡(luò)的大數(shù)據(jù)收集。
大數(shù)據(jù)可視化可以通過多種方法來實(shí)現(xiàn),比如多角度展示數(shù)據(jù)、聚焦大量數(shù)據(jù)中的動(dòng)態(tài)變化,以及篩選信息(包括動(dòng)態(tài)問詢篩選,星圖展示,和緊密耦合)等等。以下一些可視化方法是按照不同的數(shù)據(jù)類型(大規(guī)模體數(shù)據(jù)、變化數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù))來進(jìn)行分析和分類的:
樹狀圖式 : 基于分層數(shù)據(jù)的空間填充可視化方法。
圓形填充式:樹狀圖式的直接替代。它使用圓形作為原始形狀,并能從更高級(jí)的分層結(jié)構(gòu)中引入更多的圓形。
旭日型:在樹狀圖可視化基礎(chǔ)上轉(zhuǎn)換到極坐標(biāo)系統(tǒng)。其中的可變參量由寬和高變成半徑和弧長(zhǎng)。
平行坐標(biāo)式:通過可視化分析,將不同帝鄉(xiāng)的多重?cái)?shù)據(jù)因素拓展開來。
蒸汽圖式:堆疊區(qū)域圖的一種,數(shù)據(jù)圍繞一條中軸線展開,并伴隨流動(dòng)及有機(jī)形態(tài)。
循環(huán)網(wǎng)絡(luò)圖式:數(shù)據(jù)圍繞一個(gè)圓形排列,并按照它們自身的相關(guān)性比率由曲線相互連接。通常用不同的線寬或色彩飽和度測(cè)量數(shù)據(jù)對(duì)象的相關(guān)性。
傳統(tǒng)的數(shù)據(jù)可視化工具不足以被用來處理大數(shù)據(jù)。以下列舉了幾種將交互式大數(shù)據(jù)可視化的方法。首先,利用一個(gè)由可擴(kuò)展的直觀數(shù)據(jù)摘要群組成的設(shè)計(jì)空間可以將多種類型的變化數(shù)據(jù)可視化,這些直觀的數(shù)據(jù)摘要通過數(shù)據(jù)簡(jiǎn)化(如聚合或抽樣)的方法得出。被應(yīng)用于特定區(qū)間的交互查詢方法(比如關(guān)聯(lián)和更新技術(shù))因此通過結(jié)合多元數(shù)據(jù)塊和并行查詢而被開發(fā)出來。而更先進(jìn)的方法被運(yùn)用在一個(gè)基于瀏覽器的視覺分析系統(tǒng)——imMens上,來處理數(shù)據(jù)以及對(duì)GPU(圖像處理器)進(jìn)行渲染。