空間數(shù)據(jù)預(yù)處理
我們已經(jīng)知道,空間數(shù)據(jù)是數(shù)據(jù)的一種特殊類型,它是指帶有空間坐標(biāo)的數(shù)據(jù),用點、線、面以及實體等基本空間數(shù)據(jù)結(jié)構(gòu)來表示。但是空間坐標(biāo)有不同的表達方式,有些空間數(shù)據(jù)的坐標(biāo)是多個單維坐標(biāo)形式,如用三個單獨的字段 x, y, z 分別表示三維坐標(biāo); 有些空間數(shù)據(jù)的坐標(biāo)是一個多維坐標(biāo)形式,如用一個列表[x, y, z]來表示三維坐標(biāo)。既然涉及坐標(biāo),就必然會關(guān)系到坐標(biāo)系,而不同空間數(shù)據(jù)的坐標(biāo)系往往不同。另外,和時間數(shù)據(jù)一樣,空間數(shù)據(jù)來源多樣,每個空間數(shù)據(jù)的基本數(shù)據(jù)結(jié)構(gòu)都不盡相同,如何關(guān)聯(lián)多種類型的數(shù)據(jù)結(jié)構(gòu)同樣是空間數(shù)據(jù)預(yù)處理面臨的重要問題。
首先來看多個單維坐標(biāo)字段和一個多維坐標(biāo)字段之間的轉(zhuǎn)換,這個過程通常比較簡單。在 IBM SPSS Modeler 中,這個過程只需要組合多個單維坐標(biāo)字段即可實現(xiàn),例如,直接用組合單獨的坐標(biāo)字段 x, y, z,返回的派生字段即為列表[x, y, z]。
任何一個空間數(shù)據(jù),不管是地圖,坐標(biāo)還是經(jīng)緯度值,都會關(guān)聯(lián)一個坐標(biāo)系。坐標(biāo)系定義了坐標(biāo)值的原點,單位,正方向等,是坐標(biāo)值的參照系。坐標(biāo)系的種類很多,大體可以歸納為兩大類,地理坐標(biāo)系和投影坐標(biāo)系。地理坐標(biāo)系,是球面坐標(biāo)系統(tǒng),以經(jīng)緯度為地圖的存儲單位的。投影坐標(biāo)系,是平面坐標(biāo)系統(tǒng),其地圖單位通常為米。要得到投影坐標(biāo)就必須得有一個"拿來"投影的球面坐標(biāo),然后才能使用算法去投影,即每一個投影坐標(biāo)系統(tǒng)都必須要求有地理坐標(biāo)系參數(shù)。坐標(biāo)轉(zhuǎn)換是空間實體的位置描述,是從一種坐標(biāo)系統(tǒng)變換到另一種坐標(biāo)系統(tǒng)的過程,通過建立兩個坐標(biāo)系統(tǒng)之間一一對應(yīng)關(guān)系來實現(xiàn)。在 IBM SPSS Modeler 中,我們可以選擇一個或者多個坐標(biāo)轉(zhuǎn)換的地理字段,指定要轉(zhuǎn)換的坐標(biāo)系,從而實現(xiàn)多個地理字段統(tǒng)一坐標(biāo)系的目的。
如上所述,一個空間數(shù)據(jù)或地圖文件通常只包含一種類型的空間數(shù)據(jù)結(jié)構(gòu),如果想要比較復(fù)雜的地圖文件,其中包含多種空間數(shù)據(jù)結(jié)構(gòu)的話,通常需要多個地圖文件迭加來獲得。比如,我們有面圖表述某地區(qū)的不同區(qū)域和線圖表述該地區(qū)的河流街道,那么如何得到不同的河流街道和各個地區(qū)之間的位置關(guān)系呢?在 IBM SPSS Modeler 中,我們可以通過位置函數(shù)來獲得不同類型的空間數(shù)據(jù)結(jié)構(gòu)之間的位置關(guān)系。例如,用 close_to()來確定某條河流是否靠近某個地區(qū),用 distance()來獲得兩個地區(qū)或者兩條街道之間的距離等。
事件數(shù)據(jù)預(yù)處理
事件數(shù)據(jù)是時空數(shù)據(jù)挖掘的主題,它的每一條記錄都是特定的人或事,并且包括該人或事的相關(guān)信息,特別是發(fā)生的地理位置。事件數(shù)據(jù)的預(yù)處理通常是指和時間數(shù)據(jù)或者空間數(shù)據(jù)的整合,以便獲得最終可以直接應(yīng)用于時空數(shù)據(jù)挖掘算法的數(shù)據(jù)。具體內(nèi)容詳見下節(jié)時空數(shù)據(jù)的融合。
時空數(shù)據(jù)的融合及展示
上文我們已經(jīng)了解了時空數(shù)據(jù)來源多樣且結(jié)構(gòu)復(fù)雜,不管是時間數(shù)據(jù)、空間數(shù)據(jù)還是事件數(shù)據(jù)都有其自身的特征和屬性,如何融合各種數(shù)據(jù)并把結(jié)果展示出來對時空數(shù)據(jù)挖掘至關(guān)重要。
時空數(shù)據(jù)的融合
時空數(shù)據(jù)的融合通常是通過合并時間數(shù)據(jù)、空間數(shù)據(jù)和事件數(shù)據(jù)來完成的。數(shù)據(jù)合并的方法很多,可以按記錄順序合并,可以通過多個數(shù)據(jù)共有的關(guān)鍵字來合并,還可以根據(jù)自定義的條件進行合并。按關(guān)鍵字或者自定義條件合并又可分為內(nèi)連接,全外連接,部分外連接等。
事件數(shù)據(jù)和時間數(shù)據(jù)的融合可以通過關(guān)鍵字,譬如區(qū)域 ID 號,郵政編碼,事件發(fā)生時間等來實現(xiàn)。例如,在上述案例一中,我們可以設(shè)置區(qū)域 ID 號或者時間字段為關(guān)鍵字來融合從 1997 年到 2005 年的銀行分行分布數(shù)據(jù)和人口統(tǒng)計數(shù)據(jù)。
由于涉及空間地理位置,事件數(shù)據(jù)和空間數(shù)據(jù)的融合通常按照事件數(shù)據(jù)進行左外連接。在 IBM SPSS Modeler 中,這種左外連接還結(jié)合位置函數(shù)來獲得事件發(fā)生的地點和空間數(shù)據(jù)結(jié)構(gòu)之間的位置關(guān)系。例如,在上述案例二中,我們要融合犯罪事件文件和斯波坎市的地圖文件,可以選擇犯罪事件為主數(shù)據(jù)對犯罪事件和地圖文件進行左外連接,用位置函數(shù) close_to()來查找某種犯罪事件發(fā)生的地點和斯波坎市街道在某個特定范圍內(nèi)的臨近關(guān)系,或者用位置函數(shù) within()來定位某種犯罪事件是否發(fā)生在某個特定區(qū)域。
時空數(shù)據(jù)的展示
由于空間數(shù)據(jù)是一種特殊的數(shù)據(jù)類型,使得時空數(shù)據(jù)說起來比較抽象,本小節(jié)我們就將時空數(shù)據(jù)以圖形方式給出一個簡單的展示。