時(shí)空推理和數(shù)據(jù)挖掘的深度結(jié)合
時(shí)空數(shù)據(jù)中的時(shí)間關(guān)系和空間關(guān)系通常比較復(fù)雜,尤其很多可度量的和不可度量的時(shí)間關(guān)系和空間關(guān)系都是隱含在時(shí)空數(shù)據(jù)中,這就需要在數(shù)據(jù)挖掘系統(tǒng)中結(jié)合時(shí)空推理加以考慮這些復(fù)雜的時(shí)空關(guān)系。時(shí)空推理和數(shù)據(jù)挖掘的深度結(jié)合,一方面可以發(fā)掘更多時(shí)空模式及信息,增強(qiáng)時(shí)空模式的可理解性;另一方面可以顯著提高挖掘的效率和質(zhì)量。但有利亦有弊:挖掘數(shù)據(jù)中隱含的時(shí)空關(guān)系必然會(huì)引入某種程度的不確定性和模糊性,這將很大程度上影響數(shù)據(jù)挖掘的結(jié)果。因此,結(jié)合時(shí)空推理和數(shù)據(jù)挖掘需要適當(dāng)折中模型表達(dá)能力和時(shí)空推理能力。
面向大數(shù)據(jù)的時(shí)空數(shù)據(jù)挖掘的應(yīng)用
如上所述,時(shí)空數(shù)據(jù)挖掘的應(yīng)用非常廣泛,如交通運(yùn)輸、地質(zhì)災(zāi)害監(jiān)測(cè)與預(yù)防、氣象研究、競(jìng)技體育、犯罪分析、公共衛(wèi)生與醫(yī)療及社交網(wǎng)絡(luò)應(yīng)用等。這里我們簡(jiǎn)單介紹兩個(gè)時(shí)空數(shù)據(jù)挖掘的應(yīng)用案例,借此了解一下時(shí)空數(shù)據(jù)挖掘在現(xiàn)實(shí)生活中的實(shí)際應(yīng)用。
案例一 - 時(shí)空數(shù)據(jù)分析預(yù)測(cè)
第一個(gè)案例是關(guān)于亞特蘭大某地區(qū)如何根據(jù) 1997 年到 2005 年的人口普查數(shù)據(jù)從而選擇 2006 年需要新建銀行分行的地點(diǎn)。我們收集的數(shù)據(jù)包括:1)該地區(qū)的地理信息(地圖文件);2)該地區(qū)從 1997 年到 2005 年已有銀行分行的位置分布情況,包括每個(gè)分行的具體地址等;3)該地區(qū)從 1997 年到 2005 年的人口統(tǒng)計(jì)信息,包括區(qū)域 ID,人口密度,家庭收入,男女比例,人種比例等。通過時(shí)空數(shù)據(jù)預(yù)測(cè)分析,我們可以根據(jù)往年銀行分行的發(fā)展趨勢(shì)預(yù)測(cè)出該城市銀行分行在下一年即 2006 年的分布密度,同時(shí)可以根據(jù)該城市家庭收入預(yù)測(cè)出 2006 年的客戶需求,從而得出基于時(shí)空數(shù)據(jù)的銀行分行的供求關(guān)系,繼而確定需要在下一年新建銀行分行的準(zhǔn)確地點(diǎn),即選擇供不應(yīng)求的地點(diǎn)進(jìn)行銀行新建。
案例二- 時(shí)空數(shù)據(jù)關(guān)聯(lián)規(guī)則
第二個(gè)案例是基于一件發(fā)生在美國華盛頓州斯波坎市的一個(gè)真實(shí)的犯罪歷史的犯罪模型分析。這則犯罪事故共發(fā)生犯罪事件 816 起,犯罪類型包括吸毒(167 起),搶劫(97 起)和車輛盜竊(552 起),發(fā)生時(shí)間從 2009 年 1 月到 2010 年 3 月,涉及斯波坎市的 10 個(gè)區(qū)和 23 條主要街道。我們得到的數(shù)據(jù)包括斯波坎市的部分地圖信息,三種犯罪類型的統(tǒng)計(jì)信息以及該地區(qū)的人口統(tǒng)計(jì)信息,包括人口密度,家庭收入,男女比例,人種比例等。通過時(shí)空數(shù)據(jù)關(guān)聯(lián)規(guī)則分析,我們可以根據(jù)每種犯罪事件發(fā)生的時(shí)間和地點(diǎn)得出該種犯罪類型和特定時(shí)間段和地理位置的關(guān)聯(lián)關(guān)系,比如周末在公路附近多發(fā)吸毒事件等。同時(shí)我們還可以從時(shí)空數(shù)據(jù)分析中得到非時(shí)空數(shù)據(jù)的關(guān)聯(lián)關(guān)系,比如人口密度小的地區(qū)多發(fā)搶劫事件等。
時(shí)空數(shù)據(jù)理解
與傳統(tǒng)的數(shù)據(jù)挖掘一樣,不管是時(shí)空數(shù)據(jù)分類預(yù)測(cè),時(shí)空數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘還是時(shí)空聚類,獲取足夠的時(shí)空數(shù)據(jù)并充分理解這些數(shù)據(jù)的特征及屬性是時(shí)空數(shù)據(jù)挖掘的先決條件。時(shí)空數(shù)據(jù),顧名思義,必然包括與時(shí)間序列相關(guān)的數(shù)據(jù)以及與空間地理位置相關(guān)的數(shù)據(jù),另外時(shí)空數(shù)據(jù)挖掘還必須包含將要分析預(yù)測(cè)或者尋找關(guān)聯(lián)規(guī)則的事件數(shù)據(jù),也就是在特定時(shí)間和空間下發(fā)生的具體事件。
時(shí)間數(shù)據(jù)的理解
時(shí)間數(shù)據(jù)是指和時(shí)間序列相關(guān)的數(shù)據(jù),表述了目標(biāo)事件隨時(shí)間的不同而發(fā)生的變化?,F(xiàn)實(shí)中的數(shù)據(jù)常常與時(shí)間有關(guān),按時(shí)間順序取得的一系列觀測(cè)值就被稱為時(shí)間序列數(shù)據(jù),這類數(shù)據(jù)反映了某一事物、現(xiàn)象等隨時(shí)間的變化狀態(tài)或程度。如我國國內(nèi)生產(chǎn)總值從 1949 到 2009 的變化就是時(shí)間序列數(shù)據(jù)。對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行更深一步的分析和處理,對(duì)人類社會(huì)、科技和經(jīng)濟(jì)的發(fā)展有重大意義。目前時(shí)間序列的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的重要研究熱點(diǎn)之一。時(shí)間序列數(shù)據(jù)可作年度數(shù)據(jù)、季度數(shù)據(jù)、月度數(shù)據(jù)等細(xì)分,甚至以周、天、時(shí)、分、秒為周期,其中很有代表性的季度時(shí)間序列模型就是因?yàn)槠鋽?shù)據(jù)具有四季一樣變化規(guī)律,雖然變化周期不盡相同,但是整體的變化趨勢(shì)都是按照周期變化的。
上述案例一中,該地區(qū)從 1997 年到 2005 年已有銀行分行的位置分布情況和人口統(tǒng)計(jì)信息就是時(shí)間序列數(shù)據(jù),找出該地區(qū)銀行分行從 1997 年到 2005 年之間隨時(shí)間的發(fā)展趨勢(shì),從而預(yù)測(cè)下一年的分布情況是時(shí)空數(shù)據(jù)分析預(yù)測(cè)的重點(diǎn)之一。在案例二中,從 2009 年 1 月到 2010 年 3 月發(fā)生的犯罪事件也包含了時(shí)間數(shù)據(jù),我們需要進(jìn)一步分析犯罪事件發(fā)生的時(shí)間周期(以月為周期,還是以周甚至以天為周期),從而更準(zhǔn)確地挖掘出該犯罪事件的發(fā)生和時(shí)間的關(guān)聯(lián)關(guān)系。