空間數(shù)據(jù)的理解
空間數(shù)據(jù)是指用來表示空間實(shí)體的地理位置和分布特征等方面信息的數(shù)據(jù),表述了空間實(shí)體或目標(biāo)事件隨地理位置的不同而發(fā)生的變化。空間數(shù)據(jù)是數(shù)據(jù)的一種特殊類型,它是指帶有空間坐標(biāo)的數(shù)據(jù),這類數(shù)據(jù)通常是地圖文件,用點(diǎn)、線、面以及實(shí)體等基本空間數(shù)據(jù)結(jié)構(gòu)來表示。一個地圖文件通常只包含一種類型的空間數(shù)據(jù)結(jié)構(gòu),比如面(代表國家或者地區(qū)),線(代表道路或者河流)或點(diǎn)(代表特定的地址)。如果想要比較復(fù)雜的地圖文件,其中包含多種空間數(shù)據(jù)結(jié)構(gòu)的話,通常需要多個地圖文件迭加來獲得。除了地圖信息,空間數(shù)據(jù)還包括地圖信息的背景數(shù)據(jù),用來描述地圖文件上的對象屬性。比如,一個地圖文件包含街道,那么就需要相應(yīng)的背景數(shù)據(jù)來描述了該街道的大小,名字或者一些分類信息(分行道,單行道,雙行道,禁止通行等)。
上述案例一中,亞特蘭大某地區(qū)的地理信息即地圖文件就是空間數(shù)據(jù),描述了該地區(qū)的拓?fù)浣Y(jié)構(gòu),以多邊形來表示該地區(qū)的不同區(qū)域。同樣,在案例二中,斯波坎市的部分地圖信息就是空間數(shù)據(jù),描述了斯波坎市的空間地理分布情況,用多邊形表示斯波坎市的 10 個不同地區(qū),用線表示斯波坎市的 23 條主要街道。
事件數(shù)據(jù)的理解
事件數(shù)據(jù)是指事務(wù)性的數(shù)據(jù),表述了在某個時(shí)間區(qū)間某個地理范圍之內(nèi)所發(fā)生的事件。事件數(shù)據(jù)通常和時(shí)間數(shù)據(jù)相關(guān),甚至?xí)r間數(shù)據(jù)本身同時(shí)也是事件數(shù)據(jù),都是在某個時(shí)間序列上發(fā)生的一系列事件。不同的是,時(shí)間數(shù)據(jù)的關(guān)注點(diǎn)是目標(biāo)事件發(fā)生的時(shí)間,或者說是時(shí)間序列數(shù)據(jù)中的時(shí)間變量,而事件數(shù)據(jù)的關(guān)注點(diǎn)是在某個時(shí)間序列上發(fā)生的事件。事件數(shù)據(jù)一般不會和地圖文件直接相關(guān),而是包含坐標(biāo)值來關(guān)聯(lián)事件數(shù)據(jù)和地圖文件。事件數(shù)據(jù)的每一條記錄通常都指的是某個特定的人或事,并且包括和該人或事相關(guān)的其他信息,比如該人或事的具體地理位置。
上述案例一中,該地區(qū)從 1997 年到 2005 年已有銀行分行的位置分布情況就是事件數(shù)據(jù),描述銀行分行的地理位置,并包含坐標(biāo)值和該地區(qū)的地圖文件相關(guān)聯(lián)。在案例二中,從 2009 年 1 月到 2010 年 3 月發(fā)生的犯罪事件同時(shí)也是事件數(shù)據(jù),描述不同的犯罪類型,吸毒、搶劫和車輛盜竊,分別發(fā)生在斯波坎市的不同區(qū)域。
時(shí)空數(shù)據(jù)預(yù)處理
時(shí)空數(shù)據(jù)結(jié)構(gòu)復(fù)雜且來源多樣,在充分理解了時(shí)間數(shù)據(jù),空間數(shù)據(jù)和事件數(shù)據(jù)的特征、屬性及他們之間的關(guān)聯(lián)關(guān)系的基礎(chǔ)上,整合、清洗和轉(zhuǎn)換不同來源的時(shí)空數(shù)據(jù),使得他們符合特定時(shí)空數(shù)據(jù)挖掘算法的要求,是時(shí)空數(shù)據(jù)預(yù)處理面臨的重要問題。本節(jié)我們將結(jié)合 IBM SPSS Modeler 詳細(xì)介紹時(shí)空數(shù)據(jù)預(yù)處理的方法和步驟。
時(shí)間數(shù)據(jù)預(yù)處理
時(shí)間序列數(shù)據(jù)結(jié)構(gòu)復(fù)雜且來源多樣,如何將不同來源的時(shí)間序列數(shù)據(jù)合并并用于時(shí)空數(shù)據(jù)分析,是時(shí)空數(shù)據(jù)預(yù)處理面臨的首要問題。不同時(shí)間序列數(shù)據(jù)的時(shí)間起點(diǎn)及時(shí)間間隔都不盡相同,想要合并多個時(shí)間序列數(shù)據(jù)就必須要求每個時(shí)間序列數(shù)據(jù)具有相同的時(shí)間間隔,這就需要對各個時(shí)間變量的時(shí)間間隔進(jìn)行構(gòu)建。在 IBM SPSS Modeler 中,時(shí)間間隔的構(gòu)建有兩種方法,匯總和填充。
匯總是一個經(jīng)常用于減小數(shù)據(jù)集大小的數(shù)據(jù)準(zhǔn)備手段。執(zhí)行匯總之前,應(yīng)該花一些時(shí)間來清理數(shù)據(jù),尤其要關(guān)注缺失值。一旦完成匯總,或許會丟失可能有用的缺失值信息。我們可以選擇基于指定的匯總函數(shù)來匯總時(shí)間間隔較小的數(shù)據(jù),不同類型的數(shù)據(jù)可以用不同的匯總函數(shù)。連續(xù)性時(shí)間變量可以通過均值、合計(jì)、眾數(shù)、最小值和最大值來匯總,而離散型變量則可以通過眾數(shù)、第一個和最后一個匯總組中的非空值來匯總。
填充是用于替換字段值的一種方法,也可以用來將空白值或空值指定為特定值。我們也可以選擇基于指定的填充函數(shù)來替換字段值,同樣,不同類型的數(shù)據(jù)可以用不同的填充函數(shù)。連續(xù)性時(shí)間變量可以使用"最近點(diǎn)的平均值",即將要創(chuàng)建的時(shí)間周期之前的三個最近非空值的均值來替換或者填充新的字段值,而離散型時(shí)間變量則可以用將要創(chuàng)建的時(shí)間周期之前的最近非空值來替換或者填充新的字段值。
在將多來源的時(shí)間序列數(shù)據(jù)合并的過程中,我們需要根據(jù)指定的時(shí)間間隔來選擇匯總或者填充時(shí)間字段。例如,如果有以周和月為單位的混合數(shù)據(jù),則可以對周值進(jìn)行匯總或"累計(jì)",以獲得均勻的月間隔?;蛘?,也可以將間隔設(shè)置為周,并通過為所有缺失周插入空白值或使用指定的填充函數(shù)外推缺失值來填充序列。