我們已經(jīng)知道,時(shí)空數(shù)據(jù)首先是基于一張地圖,包括不同的空間數(shù)據(jù)結(jié)構(gòu),比如多邊形(面),線,點(diǎn)等, 通常以.shp 格式存在。簡(jiǎn)單的理解,單獨(dú)的空間數(shù)據(jù)即使一張某地區(qū)的地圖。例如,在上述案例一中的亞特蘭大某地區(qū)的地圖用 IBM SPSS Modeler 中的圖形文件如圖 1 所示,其中多邊形表示不同區(qū)域。
圖 1:亞特蘭大某地區(qū)地圖

如果有多個(gè)地圖文件,并且經(jīng)過(guò)預(yù)處理之后,各個(gè)地圖文件有相同的坐標(biāo)系,則可迭加輸入從而得到多層次的地圖文件,比如多邊形上貫穿線串表示道路,河流等。如果已經(jīng)融合了事件數(shù)據(jù),我們還可以設(shè)置不同的符號(hào)和顏色分別表示不同的事件,比如在上述案例二中,用三角形表示吸毒,用圓圈表示搶劫,用方形表示車(chē)輛盜竊,如圖 2 所示。
圖 2:斯波坎市犯罪事件地圖

結(jié)束語(yǔ)
大數(shù)據(jù)時(shí)代下,隨著數(shù)據(jù)收集效率的不斷提高和時(shí)空數(shù)據(jù)挖掘的快速發(fā)展,很多不同來(lái)源的商業(yè)數(shù)據(jù)都包含有時(shí)間和空間信息,比如設(shè)備,建筑,機(jī)構(gòu)等的管理,能量的產(chǎn)生,分布及預(yù)測(cè)等。如何結(jié)合時(shí)空數(shù)據(jù)和其他商業(yè)數(shù)據(jù),并且通過(guò)對(duì)時(shí)間和空間屬性的觀測(cè)分析獲得決定性的認(rèn)知從而優(yōu)化決策就顯得至關(guān)重要。本文通過(guò)介紹面向大數(shù)據(jù)的時(shí)空數(shù)據(jù)挖掘的重要性及面臨的挑戰(zhàn),詳細(xì)描述了運(yùn)用數(shù)據(jù)挖掘工具 IBM SPSS Modeler 對(duì)時(shí)空數(shù)據(jù)的理解、預(yù)處理,融合及展示,為下一步進(jìn)行時(shí)空數(shù)據(jù)的建模預(yù)測(cè)以及關(guān)聯(lián)規(guī)則的挖掘奠定了基礎(chǔ)。
第 2 部分
面向大數(shù)據(jù)的時(shí)空數(shù)據(jù)挖掘現(xiàn)狀
隨著傳感器網(wǎng)絡(luò)、手持移動(dòng)設(shè)備等的普遍應(yīng)用,遙感衛(wèi)星和地理信息系統(tǒng)等的顯著進(jìn)步,人們獲取了大量地理科學(xué)數(shù)據(jù)。這些數(shù)據(jù)內(nèi)嵌于連續(xù)空間,并且隨時(shí)間動(dòng)態(tài)變化,具有很大程度的特殊性和復(fù)雜性。實(shí)際上,很多應(yīng)用領(lǐng)域,例如交通運(yùn)輸、氣象研究、地震救援、犯罪分析、公共衛(wèi)生與醫(yī)療等,在問(wèn)題求解過(guò)程中需要同時(shí)考慮時(shí)間和空間兩方面因素。而隨著信息技術(shù)的發(fā)展,人們已經(jīng)不滿足于單純的時(shí)空數(shù)據(jù)的存儲(chǔ)和展現(xiàn),而是需要更先進(jìn)的手段幫助理解時(shí)空數(shù)據(jù)的變化。如何從這些復(fù)雜、海量、高維、高噪聲和非線性的時(shí)空數(shù)據(jù)中挖掘出隱含的時(shí)空模式,并對(duì)這些模式進(jìn)行分析從而提取出有價(jià)值的信息并用于商業(yè)活動(dòng)是對(duì)時(shí)空數(shù)據(jù)挖掘及分析技術(shù)的一項(xiàng)極大的挑戰(zhàn)。
IBM SPSS Modeler 是參照行業(yè)標(biāo)準(zhǔn) CRISP-DM 模型設(shè)計(jì)而成的數(shù)據(jù)挖掘工具,可支持從數(shù)據(jù)到更優(yōu)商業(yè)成果的整個(gè)數(shù)據(jù)挖掘過(guò)程。通過(guò)結(jié)合時(shí)空數(shù)據(jù)和其他商業(yè)數(shù)據(jù),并且運(yùn)用數(shù)據(jù)挖掘工具 IBM SPSS Modeler 對(duì)時(shí)間和空間屬性進(jìn)行觀測(cè)分析,建立預(yù)測(cè)性模型,進(jìn)而獲得決定性的認(rèn)知,并將其應(yīng)用于商業(yè)活動(dòng),從而改進(jìn)決策過(guò)程。
面向大數(shù)據(jù)的時(shí)空預(yù)測(cè)簡(jiǎn)介
面向大數(shù)據(jù)的時(shí)空預(yù)測(cè)主要是基于時(shí)空對(duì)象的特征構(gòu)建預(yù)測(cè)模型進(jìn)而預(yù)測(cè)時(shí)空對(duì)象在未來(lái)特定時(shí)間范圍內(nèi)特定空間位置下的行為或者狀態(tài)。
時(shí)空預(yù)測(cè)的分類(lèi)
根據(jù)時(shí)空對(duì)象的不同,時(shí)空預(yù)測(cè)有不同的分類(lèi)。面向時(shí)空數(shù)據(jù)的位置和軌跡預(yù)測(cè)、密度和事件預(yù)測(cè)、結(jié)合空間的時(shí)間序列預(yù)測(cè)等研究都具有重要的應(yīng)用前景。
位置和軌跡預(yù)測(cè)
面向時(shí)空數(shù)據(jù)的位置預(yù)測(cè)主要是基于時(shí)空對(duì)象的特征構(gòu)建預(yù)測(cè)模型來(lái)預(yù)測(cè)時(shí)空對(duì)象所在的具體空間位置。對(duì)于實(shí)時(shí)物流、實(shí)時(shí)交通管理、基于位置的服務(wù)和 GPS 導(dǎo)航等涉及時(shí)空數(shù)據(jù)的應(yīng)用而言,預(yù)測(cè)單個(gè)或者一組對(duì)象未來(lái)的位置或目的地是至關(guān)重要的,它能使系統(tǒng)在延誤的情況下采取必要的補(bǔ)救措施,避免擁堵,提高效率。
除了位置預(yù)測(cè)之外,面向時(shí)空數(shù)據(jù)的軌跡預(yù)測(cè)可以推測(cè)移動(dòng)對(duì)象的出行規(guī)律。例如,社交網(wǎng)絡(luò)應(yīng)用借助 GPS 設(shè)備記錄用戶軌跡數(shù)據(jù),通過(guò)"簽到"應(yīng)用(如微信、微博等)分享位置信息。分析這些共享的 GPS 軌跡數(shù)據(jù),可以為用戶推薦感興趣的旅游景點(diǎn)和游覽次序。
密度、事件預(yù)測(cè)
某個(gè)區(qū)域的對(duì)象密度定義為在給定時(shí)間點(diǎn)該區(qū)域內(nèi)對(duì)象數(shù)與該區(qū)域大小之比。這是一些對(duì)象隨時(shí)間變化而呈現(xiàn)出的一個(gè)全局特征。面向時(shí)空數(shù)據(jù)的密度預(yù)測(cè)主要應(yīng)用于實(shí)時(shí)交通管理,會(huì)對(duì)及時(shí)改善交通擁堵帶來(lái)很大助益。例如,交通管理系統(tǒng)通過(guò)密度預(yù)測(cè)可以識(shí)別出道路中的密集區(qū)域,從而幫助用戶避免陷入交通阻塞,并采取有效措施及時(shí)緩解交通擁堵。此外,面向時(shí)空數(shù)據(jù)的事件預(yù)測(cè)可以根據(jù)歷史數(shù)據(jù)(時(shí)間序列),結(jié)合地理區(qū)域密度估計(jì)(發(fā)現(xiàn)重要特征和時(shí)空地點(diǎn))來(lái)預(yù)測(cè)給定時(shí)間范圍和空間位置的概率密度,譬如基于過(guò)去犯罪事件發(fā)生的地點(diǎn)、時(shí)間和城市經(jīng)濟(jì)等特征預(yù)測(cè)給定區(qū)域和時(shí)間段內(nèi)犯罪發(fā)生的概率,進(jìn)而檢測(cè)犯罪發(fā)展趨勢(shì),有效降低城市犯罪率。