第 1 部分
早期的數(shù)據(jù)挖掘研究主要針對(duì)字符、數(shù)值型的商業(yè)數(shù)據(jù),隨著信息技術(shù)的不斷提高以及移動(dòng)設(shè)備和網(wǎng)絡(luò)的廣泛使用,數(shù)據(jù)產(chǎn)生的速度越來(lái)越快,數(shù)據(jù)收集的頻率越來(lái)越高,數(shù)據(jù)密度的增長(zhǎng)越來(lái)越顯著,這些因素都使得大數(shù)據(jù)問(wèn)題成為一種必然的趨勢(shì)。而在大數(shù)據(jù)時(shí)代下很多商業(yè)數(shù)據(jù)都包含有時(shí)間和空間信息,比如設(shè)備,建筑,機(jī)構(gòu)等的管理,能量的產(chǎn)生,分布及預(yù)測(cè)等。
IBM SPSS Modeler 是參照行業(yè)標(biāo)準(zhǔn) CRISP-DM 模型設(shè)計(jì)而成的數(shù)據(jù)挖掘工具,可支持從數(shù)據(jù)到更優(yōu)商業(yè)成果的整個(gè)數(shù)據(jù)挖掘過(guò)程。通過(guò)結(jié)合時(shí)空數(shù)據(jù)和其他商業(yè)數(shù)據(jù),并且運(yùn)用數(shù)據(jù)挖掘工具 IBM SPSS Modeler 對(duì)時(shí)間和空間屬性進(jìn)行觀測(cè)分析,進(jìn)而獲得對(duì)數(shù)據(jù)的充分理解,并將其應(yīng)用于商業(yè)活動(dòng),從而改進(jìn)決策過(guò)程。
面向大數(shù)據(jù)的時(shí)空數(shù)據(jù)挖掘的重要性
20世紀(jì)90年代中后期,數(shù)據(jù)挖掘領(lǐng)域的一些較成熟的技術(shù),如關(guān)聯(lián)規(guī)則挖掘、分類(lèi)、預(yù)測(cè)與聚類(lèi)等被逐漸用于時(shí)間序列數(shù)據(jù)挖掘和空間結(jié)構(gòu)數(shù)據(jù)挖掘,以發(fā)現(xiàn)與時(shí)間或空間相關(guān)的有價(jià)值的模式,并且得到了快速發(fā)展。信息網(wǎng)絡(luò)和手持移動(dòng)設(shè)備等的普遍應(yīng)用,以及遙感衛(wèi)星和地理信息系統(tǒng)等的顯著進(jìn)步,使人們前所未有地獲取了大量的地理科學(xué)數(shù)據(jù)。這些地理科學(xué)數(shù)據(jù)通常與時(shí)間序列相互關(guān)聯(lián),并且隱含許多不易發(fā)現(xiàn)的、又潛在有用的模式。從這些非線(xiàn)性、海量、高維和高噪聲的時(shí)空數(shù)據(jù)中提取出有價(jià)值的信息并用于商業(yè)應(yīng)用,使得時(shí)空數(shù)據(jù)挖掘具有額外的特殊性和復(fù)雜性。因此,尋找有效的時(shí)空數(shù)據(jù)分析技術(shù)對(duì)于時(shí)空數(shù)據(jù)中有價(jià)值的時(shí)空模式的自動(dòng)抽取與分析具有重要意義。
近年來(lái),時(shí)空數(shù)據(jù)已成為數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn),在國(guó)內(nèi)外贏得了廣泛關(guān)注。同時(shí),時(shí)空數(shù)據(jù)挖掘也在許多領(lǐng)域得到應(yīng)用,如交通管理、犯罪分析、疾病監(jiān)控、環(huán)境監(jiān)測(cè)、公共衛(wèi)生與醫(yī)療健康等。時(shí)空數(shù)據(jù)挖掘作為一個(gè)新興的研究領(lǐng)域,正致力于開(kāi)發(fā)和應(yīng)用新興的計(jì)算技術(shù)來(lái)分析海量、高維的時(shí)空數(shù)據(jù),發(fā)掘時(shí)空數(shù)據(jù)中有價(jià)值的信息。
面向大數(shù)據(jù)的時(shí)空數(shù)據(jù)挖掘的挑戰(zhàn)
盡管時(shí)空數(shù)據(jù)挖掘研究在近幾年引起了人們的廣泛關(guān)注并得到快速發(fā)展,但與傳統(tǒng)數(shù)據(jù)挖掘相比,時(shí)空數(shù)據(jù)挖掘研究還遠(yuǎn)未成熟。隨著時(shí)空數(shù)據(jù)采集效率的不斷提高,時(shí)空數(shù)據(jù)積累越來(lái)越大,時(shí)空數(shù)據(jù)挖掘也面臨諸多挑戰(zhàn)。
理論框架
相較于傳統(tǒng)的數(shù)據(jù)挖掘技術(shù),時(shí)空數(shù)據(jù)挖掘研究還遠(yuǎn)未成熟。對(duì)于結(jié)構(gòu)復(fù)雜且形式多樣的時(shí)空數(shù)據(jù),如何尋找合適的數(shù)據(jù)挖掘算法或者技術(shù),可以挖掘什么有價(jià)值的模式,如何對(duì)這些模式進(jìn)行分析?這些問(wèn)題的解決都迫切需要構(gòu)建一個(gè)時(shí)空數(shù)據(jù)挖掘的理論框架。清晰定義的理論框架將會(huì)給該研究領(lǐng)域帶來(lái)理論上的指導(dǎo),一方面可更好地理解時(shí)空模式需要具備的表達(dá)能力,另一方面有助于提出更有效的實(shí)現(xiàn)技術(shù)。
大數(shù)據(jù)管理
近年來(lái),傳感器網(wǎng)絡(luò)、移動(dòng)互聯(lián)網(wǎng)、射頻識(shí)別、全球定位系統(tǒng)等設(shè)備的快速發(fā)展和廣泛應(yīng)用,造成數(shù)據(jù)量的爆炸式增長(zhǎng),數(shù)據(jù)增加的速度遠(yuǎn)遠(yuǎn)超過(guò)現(xiàn)有的處理能力。雖然以 MapReduce 和 Hadoop 為代表的大規(guī)模并行計(jì)算平臺(tái)的出現(xiàn),為學(xué)術(shù)界提供了一條研究大數(shù)據(jù)問(wèn)題的新思路,但這些技術(shù)也有其固有的局限性。一方面,時(shí)空數(shù)據(jù)本質(zhì)上是非結(jié)構(gòu)化數(shù)據(jù),不僅包含時(shí)間序列模型,還存在地圖模型,例如城市網(wǎng)絡(luò)、道路網(wǎng)絡(luò)等。基于地圖模型的算法時(shí)間復(fù)雜度通常比較大,對(duì)時(shí)空數(shù)據(jù)的存儲(chǔ)管理和索引技術(shù)要求比較高。另一方面,MapReduce 計(jì)算模型的組織形式和數(shù)據(jù)處理方法不適合處理時(shí)空數(shù)據(jù)模型;Hadoop 技術(shù)也無(wú)法有效支持?jǐn)?shù)據(jù)挖掘中監(jiān)督學(xué)習(xí)所用的迭代式計(jì)算方法,因而無(wú)法完全滿(mǎn)足時(shí)空數(shù)據(jù)分析的需要。這些對(duì)學(xué)術(shù)界和工業(yè)界來(lái)數(shù)都是一項(xiàng)巨大的挑戰(zhàn)。因此,為了分析處理時(shí)空大數(shù)據(jù),迫切需要更可靠、更有效和更實(shí)用的數(shù)據(jù)管理和處理技術(shù)。
時(shí)空數(shù)據(jù)融合
社交網(wǎng)絡(luò)、遙感和傳感器等設(shè)備的普遍應(yīng)用產(chǎn)生了海量的時(shí)空數(shù)據(jù),且每種設(shè)備生成的數(shù)據(jù)和數(shù)據(jù)形式各不相同,形成了時(shí)空數(shù)據(jù)結(jié)構(gòu)復(fù)雜且來(lái)源多樣的特性。此外,互聯(lián)網(wǎng)的蓬勃發(fā)展,在文字、音頻和視頻等多媒體數(shù)據(jù)中同樣包含了豐富的時(shí)空數(shù)據(jù)。例如,廣泛覆蓋城市的監(jiān)控?cái)z像頭,記錄了道路車(chē)輛的軌跡信息,從視頻中可以還原出被監(jiān)控車(chē)輛的移動(dòng)軌跡。所以,對(duì)時(shí)空數(shù)據(jù)進(jìn)行有效整合、清洗、轉(zhuǎn)換和提取是時(shí)空數(shù)據(jù)預(yù)處理面臨的重要問(wèn)題。