多元數(shù)據(jù)的理論。融合過去起源于軍事領(lǐng)域,在傳感器、地理空間就是我們所說的硬數(shù)據(jù)里得到了應(yīng)用和發(fā)展,但是隨著社會網(wǎng)絡(luò)的發(fā)展,隨著人際交際數(shù)據(jù)獲取的越來越容易,所以注重軟數(shù)據(jù)的融合也開始走向了新的應(yīng)用和發(fā)展。我們通過形式表現(xiàn)方面,多元表示,工行叫機構(gòu)建行叫單位,指的同樣的事物,不同的數(shù)據(jù)融合的時候涉及到表示的問題,語法結(jié)構(gòu)層次做相關(guān)的分析和揭示。邏輯語義層,意義建構(gòu)理論解釋它的內(nèi)容。
現(xiàn)在的多源數(shù)據(jù)融合,包括三方面,多源、異構(gòu)、多語種,多語種現(xiàn)在說得比較少,真正做多源數(shù)據(jù)融合,我是搞科技情報的,所以我們經(jīng)常關(guān)注國外的文獻。昨天有人講到一帶一路,一帶一路一定會涉及到多源數(shù)據(jù),獲取土庫曼斯坦的數(shù)據(jù),無論是中文還是英文的數(shù)據(jù)非常少,像這些國家一定要把多語種的數(shù)據(jù)融合到一起,這里面帶來很多技術(shù)的問題。同型異源,比如都是消費的數(shù)據(jù)、存款的數(shù)據(jù)。還有異質(zhì)異構(gòu),比如理財產(chǎn)品。
科技情報里經(jīng)常用期刊論文、會議項目、著作專利、學(xué)術(shù)論文,電子商務(wù)文獻的發(fā)現(xiàn),發(fā)現(xiàn)電子商務(wù)最高的高峰是2000年,電子商務(wù)產(chǎn)業(yè)是2010年后才有爆發(fā)式的增長,通過文獻和產(chǎn)業(yè)有十年之久,通過學(xué)術(shù)論文的文獻來預(yù)測專利,通過專利來預(yù)測一些技術(shù)的市場,根據(jù)不同類型的信息的時間差的規(guī)律,去尋找這種規(guī)律,利用這種規(guī)律來進行預(yù)測。我用產(chǎn)業(yè)的數(shù)據(jù)去預(yù)測產(chǎn)業(yè)是預(yù)測不出來的,用同一個數(shù)據(jù)去預(yù)測同一個數(shù)據(jù)是很難的。數(shù)據(jù)的融合涉及到線上與線下,歷史的數(shù)據(jù)和實時的數(shù)據(jù),金融行業(yè)積累了大量的歷史數(shù)據(jù),和實時數(shù)據(jù)的融合也非常關(guān)鍵。
現(xiàn)在大家強調(diào)大數(shù)據(jù)的實時性,我突然感覺有時候歷史的數(shù)據(jù)特別重要,比如今天早上開車過來開會,我并不關(guān)心今天早上的路況,我更關(guān)心上一周今天早上的路況,因為我需要決定我?guī)c出發(fā)比較合適,6點多出門肯定是不堵的,但是來的太早了,8點出門有可能晚了,所以我需要關(guān)注上一周的今天的數(shù)據(jù)規(guī)律,從7點到8點半的時間段的路況如何,來換算時間的關(guān)系,計算出行需要花多少時間。我經(jīng)??聪轮芪逡ツ膬海@個周五去看一下路況,決定要花半小時還是四十五分鐘,歷史數(shù)據(jù)是非常重要的。實時數(shù)據(jù)比較容易獲取,但是歷史的數(shù)據(jù),看交通局的網(wǎng)站、百度、搜狗都是看不到的。外部和內(nèi)部的數(shù)據(jù)融合。
融合的層次,數(shù)據(jù)級、特征級、決策級,要看面向的應(yīng)用場景。融合問題,字段映射、字段拆分,有些地址分析,有區(qū)有路有門牌號,這樣的東西我們要做拆分,做分級管理,然后才能做一些融合。不同的數(shù)據(jù)庫里,不同的系統(tǒng)里,我們對于同一個地址的描述有時候是不一樣的。還有數(shù)據(jù)率重的問題,不同的數(shù)據(jù)融合到一起,有些數(shù)據(jù)是互補的,有些數(shù)據(jù)是重復(fù)的,重復(fù)的會涉及到這樣一些問題。異構(gòu)加權(quán)的問題,VIP數(shù)據(jù)跟普通用戶數(shù)據(jù)融合到一起需要加權(quán)的問題,這樣做產(chǎn)品的時候才會有更好的效果性。
融合清洗的時候會涉及到很多問題,數(shù)據(jù)統(tǒng)一標(biāo)識、數(shù)據(jù)脫敏處理、數(shù)據(jù)更新與同步、數(shù)據(jù)交換與共享、數(shù)據(jù)清洗與比對、數(shù)據(jù)記錄濾重、字段映射與互補?;谶@些多源數(shù)據(jù)可以做哪些分析?基于關(guān)聯(lián)關(guān)系的融合是空間的維度,基于時間關(guān)系的融合、基于關(guān)聯(lián)關(guān)系的融合?;陉P(guān)聯(lián)關(guān)系主要是通過相關(guān)性的分析,物與物的關(guān)聯(lián)、人與物的關(guān)聯(lián)、產(chǎn)品與需求的關(guān)聯(lián),現(xiàn)在是可以計算的,可以算出需求,產(chǎn)學(xué)研的分析、上下游的分析。
我們常用的企業(yè)有時候想找競爭對手的核心技術(shù),A企業(yè)和某個學(xué)校的教授合作,你不太方便再跟他合作,那我們招聘這個教授畢業(yè)帶的博士來工作,因為這個博士對博導(dǎo)的工作方式非常了解。通過這樣的非直接的方式,這個在大數(shù)據(jù)時代是可以的。通過論文預(yù)測專利,通過專利來預(yù)測市場。基于空間關(guān)系的融合,聚類分析,看用戶聚類與畫像、產(chǎn)品聚類、人員聚類。社會網(wǎng)絡(luò)分析,看合作網(wǎng)絡(luò)、關(guān)系網(wǎng)絡(luò)、引文網(wǎng)絡(luò)、鏈接網(wǎng)絡(luò)。異常分析,孤立點分析、突然消失分析。
就國家二胎的政策,這個經(jīng)過很多的計算,通過公安統(tǒng)計、民政、衛(wèi)生、財稅、教育、勞動與社會保障,把所有數(shù)據(jù)融合在一起,當(dāng)然現(xiàn)在這個政策的推出有一些詬病,本來是做社會的承受力壓力、教育、保障、人口老齡口等等一系列問題,我覺得這個系統(tǒng)做得沒有問題,但是少了一個因素,只是從行政者管理的角度,沒有考慮老百姓生孩子的意義,特別是在北上廣的城市很多人不想要那么多孩子,因為壓力太大了,所以沒有考慮用戶的需求。如果把這樣的數(shù)據(jù)融合在一起,我覺得政策推出得會更合適、更受歡迎,因為這個政策推出稍微晚了一些。