5月23日,2017UBDC全域大數(shù)據(jù)峰會(huì)在北京舉辦,大會(huì)以"DI的力量"為主題,全景展現(xiàn)數(shù)據(jù)驅(qū)動(dòng)下的新經(jīng)濟(jì)、新模式,邀請(qǐng)全球知名企業(yè)家分享數(shù)據(jù)應(yīng)用實(shí)踐案例。在主旨演講中,【友盟+】首席數(shù)據(jù)官李丹楓提出,數(shù)據(jù)如同AI的血液,是AI由弱走向強(qiáng)的關(guān)鍵點(diǎn)。
【友盟+】CDO 李丹楓
數(shù)據(jù)驅(qū)動(dòng)人工智能
李丹楓表示,數(shù)據(jù)驅(qū)動(dòng)人工智能,這里面包括最重要的兩個(gè)詞,一個(gè)是數(shù)據(jù)、一個(gè)是智能。
據(jù)了解,工業(yè)界40多年前開始使用模型,其中包含著參數(shù)(M),用一堆數(shù)據(jù)去訓(xùn)練模型。但訓(xùn)練模型沒有想象中那么簡(jiǎn)單,模型推算出的數(shù)據(jù)總是會(huì)出現(xiàn)偏差的,跟實(shí)際的差一點(diǎn)點(diǎn)。要衡量模型中的偏差,就要運(yùn)用模型使用技巧:首先是定義損失函數(shù),用最小的方差,在場(chǎng)景里頭加權(quán)重。其次是設(shè)置懲罰函數(shù),模型包含的參數(shù)有限。模型越多,訓(xùn)練的效果越好,樣本參數(shù)加起來上千萬或者上百萬集中相加,設(shè)置損失函數(shù)、懲罰函數(shù)后,可以從算法的維度里找到最佳參數(shù)。
李丹楓表示,模型訓(xùn)練的工作原理是輸入節(jié)點(diǎn)(模型的X),把連線權(quán)重參數(shù)找出來,輸入、輸出數(shù)據(jù)都有了,用訓(xùn)練的方法,讓模型根據(jù)定義的損失函數(shù)達(dá)到最優(yōu)。實(shí)際上,要搜索的權(quán)重的組合非常多,需要運(yùn)用的有效的方法找到參數(shù),模型本身是一個(gè)計(jì)算與記憶的機(jī)制。
當(dāng)前人工智能還很“弱”
譚鐵牛院士曾說過,“現(xiàn)在的人工智能是有智能沒有智慧、有智商沒有情商,會(huì)計(jì)算不會(huì)算計(jì),有通才無專才”。李丹楓對(duì)此深表認(rèn)同:“現(xiàn)階段的人工智只是弱人工智能。”所謂弱人工智能,就是需要完整的信息、完整的定義好的輸入和輸出,需要借助非常強(qiáng)的計(jì)算與記憶的能力。“跟弱人工智能對(duì)應(yīng)的是強(qiáng)人工智能,在信息不對(duì)稱的情況下,考驗(yàn)的是問題的推理和解決能力,這是做人工智能追求的極致的方向。”李丹楓說。
數(shù)據(jù)提供競(jìng)爭(zhēng)壁壘
競(jìng)爭(zhēng)的戰(zhàn)場(chǎng)是公平的,建模能力和計(jì)算能力是數(shù)據(jù)科學(xué)家的必備技能?,F(xiàn)階段計(jì)算和存儲(chǔ)越來越便宜,沒有什么太高的門檻。李丹楓表示,數(shù)據(jù)是驅(qū)動(dòng)人工智能的重要因素,也是競(jìng)爭(zhēng)的壁壘。大家要重視數(shù)據(jù),因?yàn)橛辛藬?shù)據(jù),才能做更多的事情。
李丹楓認(rèn)為,大數(shù)據(jù)企業(yè)只有獲取大規(guī)模數(shù)據(jù),再加上扎實(shí)的技術(shù)力量,搜集數(shù)據(jù)進(jìn)行分析,打通各個(gè)業(yè)務(wù)線,全面了解客戶,才能在新一輪的技術(shù)革命中保證自身的核心競(jìng)爭(zhēng)力。例如,谷歌有7個(gè)10億用戶俱樂部,客戶資源有10億人,其產(chǎn)品包括谷歌的搜索、Gmail、地圖、U2、安卓、Google play,谷歌因數(shù)據(jù)的支撐可以做好的搜索和廣告。淘寶有4億多深度用戶,淘寶依據(jù)數(shù)據(jù)做推送,能夠做到千人千面,提供個(gè)性化消費(fèi)體驗(yàn);今日頭條用戶規(guī)模大,用戶平均使用時(shí)長(zhǎng)76分鐘,使用深度非常深入,今日頭條可以做到非常好的內(nèi)容智能分發(fā)。