中國IDC圈4月12日報道,在大數(shù)據(jù)時代下,大數(shù)據(jù)與人工智能在具體領(lǐng)域中的應(yīng)用問題成為當(dāng)今的焦點話題。那么,目前大數(shù)據(jù)和人工智能領(lǐng)域還存在著哪些技術(shù)挑戰(zhàn)?如何找到大數(shù)據(jù)和人工智能的創(chuàng)業(yè)入口,利用數(shù)據(jù)挖掘和機器學(xué)習(xí)的能力創(chuàng)造出更大的商業(yè)價值?
大數(shù)據(jù)和人工智能領(lǐng)域的技術(shù)障礙
清華大學(xué)機算機系崔鵬教授表示不管是大數(shù)據(jù)還是人工智能,從學(xué)術(shù)研究的角度來講不是新的概念,核心基本都是圍繞在數(shù)據(jù)分析和挖掘、數(shù)據(jù)建模等工作。
目前在大數(shù)據(jù)的不同層面,都出現(xiàn)了一些提供標(biāo)準(zhǔn)化服務(wù)的公司。但大數(shù)據(jù)的核心部分,也就是數(shù)據(jù)的處理和分析,恰恰不容易用一個通用的框架來實現(xiàn)。
大數(shù)據(jù)有很多的數(shù)據(jù)來源,不同領(lǐng)域的數(shù)據(jù)也呈現(xiàn)出非常強的領(lǐng)域特性,我們不可能搞找到一個通用的數(shù)據(jù)模型,來解決所有的問題。
因此,大數(shù)據(jù)如果想真正地投入到產(chǎn)業(yè)應(yīng)用的話,一定是需要把懂大數(shù)據(jù)技術(shù)的人,與某一領(lǐng)域背景很強的人結(jié)合起來,才能夠使大數(shù)據(jù)的分析和處理層面實現(xiàn)比較大的突破。
其實硅谷現(xiàn)在有些公司正在試研發(fā)一些大數(shù)據(jù)的標(biāo)準(zhǔn)化工具,但是就我們了解到的情況來看,盡管能夠獲得投資,他們的存活狀態(tài)并不是太好。
因為從企業(yè)的角度來講,它并沒有很好的應(yīng)用場景。
規(guī)模比較大的企業(yè)完全有能力自己構(gòu)建一個數(shù)據(jù)分析團隊,不太可能把所有的數(shù)據(jù)都交給專門做數(shù)據(jù)分析的服務(wù)商
而小公司采用這些服務(wù),還是會面臨工具通用性上的問題。
另外,大數(shù)據(jù)技術(shù)本身的不可讀性,使它目前存在著技術(shù)風(fēng)險。目前幾乎所有大數(shù)據(jù)的分析,都是基于關(guān)聯(lián)算法進(jìn)行預(yù)測。
但這些所謂的預(yù)測是存在精確度方面的限制的,并且整個過程是一個黑盒子,我們沒有辦法控制。
因此,目前的大數(shù)據(jù)分析還不能實際應(yīng)用于某些領(lǐng)域的一些嚴(yán)肅決策之中。
2011年,Judea Pearl憑借因果推理模型拿到圖靈獎,這也預(yù)示著計算機技術(shù)的發(fā)展將有可能打開黑盒子模型,使大數(shù)據(jù)分析變成一種可解釋的行為。
這與目前的大數(shù)據(jù)完全是兩條線。
今年我們也看到一個標(biāo)志性的事件,就是2015年10月份《科學(xué)》雜志出現(xiàn)的文章
只需要非常少量的樣本,只用了幾百個樣本的數(shù)據(jù),加上人的推理能力在里邊,它的性能比用數(shù)十萬的樣本得到的效果還是好。
這預(yù)示著我們盡管目前大數(shù)據(jù)很熱,在很多領(lǐng)域已經(jīng)實現(xiàn)了實際應(yīng)用,但從技術(shù)的發(fā)展來講,目前的大數(shù)據(jù)技術(shù)并不是一個進(jìn)口
以前瞻性的投資視角來看,還是應(yīng)該關(guān)注更前沿的技術(shù)發(fā)展。
機器學(xué)習(xí)如何運用于數(shù)據(jù)治理
原英特爾中國研究院院長、馭勢科技CEO吳甘沙認(rèn)為,目前大數(shù)據(jù)與人工智能領(lǐng)域存在的技術(shù)障礙主要有以下兩點:
一是大數(shù)據(jù)工具與特定領(lǐng)域的結(jié)合。過去幾年大數(shù)據(jù)關(guān)注的是最底層的存儲,去解決分布式運算的基礎(chǔ)設(shè)施的問題。
現(xiàn)在是時候考慮如何進(jìn)入到具體運用的問題。太計算機化的工具,絕大多數(shù)用戶是不知道如何使用的。
從某種程度上來說,如何提供實際可用的工具給不同領(lǐng)域的用戶,有針對性地提取數(shù)據(jù)中的價值,這是現(xiàn)在很多廠商都要試圖解決的問題。
第二是數(shù)據(jù)治理問題。在傳統(tǒng)的數(shù)據(jù)分析流程中,數(shù)據(jù)清洗花費的時間可能占到整個流程的60%-70%,消耗了大量精力和資源。
現(xiàn)在,已經(jīng)有一些機器學(xué)習(xí)運用于數(shù)據(jù)治理方面的研究和產(chǎn)業(yè)化的嘗試出現(xiàn),機器學(xué)習(xí)可以從非結(jié)構(gòu)化的結(jié)構(gòu)中學(xué)習(xí)出結(jié)構(gòu)化的數(shù)據(jù),并通過不斷的學(xué)習(xí)把一些歧義消除。
未來大數(shù)據(jù)和人工智能將出現(xiàn)一個交匯點,大數(shù)據(jù)解決通古曉今、見微知著的問題,人工智能則解決認(rèn)知的問題,二者的結(jié)合會對一些重要領(lǐng)域的發(fā)展起到里程碑式的作用。
最近IBM提出了“認(rèn)知商業(yè)”的概念,某種程度上我們可以將其理解為人工智能和大數(shù)據(jù)的結(jié)合,相信這兩種技術(shù)的組合將會有非常好的發(fā)展前景。
深度學(xué)習(xí)很好地反映了技術(shù)上面的發(fā)展,但它未必是一種終極狀態(tài)。
如何把深度學(xué)習(xí)和推理、邏輯這些模型、算法結(jié)合起來,把人工智能與現(xiàn)代應(yīng)用的需求結(jié)合起來,對已有的技術(shù)進(jìn)行重新組合,搭出一些獨特的架構(gòu),將人工智能從傳統(tǒng)的感知帶入到擁有決策能力的階段,來實現(xiàn)工程上的創(chuàng)新,是未來非常值得期待的。