數(shù)據(jù)的規(guī)模效應(yīng)擴(kuò)大將我們帶入了大數(shù)據(jù)時(shí)代。在數(shù)據(jù)時(shí)代,廣告和大數(shù)據(jù)的關(guān)系是怎樣的?海量數(shù)據(jù)的爆發(fā)給安全課題帶來哪些挑戰(zhàn)?如何處理大數(shù)據(jù)技術(shù)和隱私之間的關(guān)系?
帶著這些問題,51cto記者采訪了360商業(yè)產(chǎn)品首席架構(gòu)師,從行業(yè)角度和宏觀領(lǐng)域深入解析這些問題。
劉鵬現(xiàn)任360商業(yè)產(chǎn)品首席架構(gòu)師,負(fù)責(zé) 360 商業(yè)化變現(xiàn)的產(chǎn)品和技術(shù)。曾任微軟亞洲研究院研究員、雅虎北京研究院高級科學(xué)家 ( 負(fù)責(zé)全球搜索廣告、受眾定向廣告、個(gè)性化內(nèi)容等項(xiàng)目 ) 、 MediaV 首席科學(xué)家 ( 負(fù)責(zé)算法和數(shù)據(jù)平臺 ) 、以及搜狐集團(tuán)研究院負(fù)責(zé)人,WOT 技術(shù)峰會特約講師。
計(jì)算廣告和大數(shù)據(jù)
如果說廣告是已經(jīng)十分成熟的規(guī)?;瘶I(yè)務(wù),大數(shù)據(jù)則正處在攻城略地的上揚(yáng)階段。談及此二者之間的關(guān)系,劉鵬認(rèn)為,相關(guān)行業(yè)對廣告的重視程度和其實(shí)際的行業(yè)地位是不匹配的,對于廣告的重視程度不足。實(shí)際上,大規(guī)模利用用戶行為數(shù)據(jù)進(jìn)行挖掘創(chuàng)造價(jià)值的,最早的行業(yè)就是廣告,計(jì)算廣告。他提到,我們今天看到的很多平臺比如說Hadoop,它最早的應(yīng)用領(lǐng)域也是搜索和廣告。
從實(shí)際行業(yè)規(guī)模來說,目前大數(shù)據(jù)落地的行業(yè)有若干個(gè),像個(gè)性化推薦、廣告、個(gè)人征信,還有一些政府應(yīng)用等。但是唯一形成規(guī)?;?、贏得利潤的行業(yè),就是廣告業(yè)。目前廣告行業(yè)對數(shù)據(jù)的利用、變現(xiàn)、交易等方面已經(jīng)有了非常多的實(shí)踐,并且也形成了自己的認(rèn)識。
劉鵬說:“我以前也強(qiáng)調(diào)過:不了解計(jì)算廣告,就難以深刻理解大數(shù)據(jù),至少會多走很多彎路。”同時(shí),他也提到,大數(shù)據(jù)行業(yè)的發(fā)展對廣告行業(yè)也起到相互促進(jìn)的作用。
國內(nèi)數(shù)據(jù)交易市場尚不成熟
“現(xiàn)在的廣告的服務(wù)模式交易模式已經(jīng)完全變成技術(shù)和數(shù)字驅(qū)動的產(chǎn)品模式,越來越程序化,通過算法來打交道來交易,技術(shù)已經(jīng)變成了主導(dǎo)了。”劉鵬說道。不過在他看來,個(gè)性化推薦是一個(gè)多方博弈的市場,意味著不是一個(gè)算法能夠決定一切,所有的問題都需要在博弈中尋求最優(yōu)解。
在他看來目前最大的問題是在中國市場數(shù)據(jù)加工和交易不夠成熟,沒有一個(gè)成熟的交易市場。他說:“比如我有一個(gè)算法,我可以通過用戶的行為特征來提高廣告點(diǎn)擊率或者廣告的效果。但是數(shù)據(jù)的來源從哪來呢?為此必須要有一個(gè)合法合理的數(shù)據(jù)交易市場,但是這個(gè)市場在中國不是很完善,算法可能有,但是數(shù)據(jù)來源的缺失可能導(dǎo)致很難把算法的作用發(fā)揮出來。”
大數(shù)據(jù)應(yīng)該指導(dǎo)機(jī)器而不是人的決策
在談及大數(shù)據(jù)對決策的指導(dǎo)意義時(shí),我們常常默認(rèn)數(shù)據(jù)分析的指導(dǎo)意義,而忽視了其指導(dǎo)的對象。對此,劉鵬提出了他的看法。他強(qiáng)調(diào),真正有價(jià)值的、或者說值得討論的是規(guī)模化分析的個(gè)體或者群體行為特征,應(yīng)把它用來指導(dǎo)機(jī)器的決策而不是人的決策。
從數(shù)據(jù)分析、數(shù)據(jù)加工再到數(shù)據(jù)分析是一個(gè)閉環(huán),這個(gè)閉環(huán)有算法來指導(dǎo),并不斷地優(yōu)化。如果將數(shù)據(jù)分析的報(bào)表交給一個(gè)人來做決策,相比機(jī)器,人的效率低,并且不確定性很大。
數(shù)據(jù)脫敏無法解決隱私問題
在信息時(shí)代,海量信息在不斷地生產(chǎn)擴(kuò)張。據(jù)統(tǒng)計(jì),在過去的一年中,全球數(shù)據(jù)中心的IP流量已經(jīng)達(dá)到了8.6 ZB,相當(dāng)于每月715EB,而這一數(shù)據(jù)在2013年還只有3.1ZB,可以說是翻了一倍還不止。如此激增的龐大數(shù)據(jù)量,相對應(yīng)地也給數(shù)據(jù)安全帶來了一定挑戰(zhàn)。
在劉鵬看來,數(shù)據(jù)安全和網(wǎng)絡(luò)安全是兩個(gè)課題。數(shù)據(jù)的安全有兩個(gè)層次,一是對個(gè)體而言,一是對企業(yè)而言。目前這兩個(gè)問題剛剛受到關(guān)注,他認(rèn)為,一定要有大規(guī)模的問題爆發(fā)出來才能引起大家的重視。目前來講,用戶對數(shù)據(jù)安全、隱私的重視程度還不夠。
比如數(shù)據(jù)脫敏,數(shù)據(jù)脫敏能不能解決用戶隱私問題呢?劉鵬認(rèn)為實(shí)際上二者差著十萬八千里。他拿熟人之間的隱私問題舉例:熟人很容易得到你的行為屬性,比如你最近看了什么電影,一般人在網(wǎng)絡(luò)上看到某某id看了什么電影,他可能不知道是誰,但是你的朋友很容易把這條記錄和你聯(lián)系起來,因?yàn)樗麑δ闶呛芰私獾摹J烊艘坏┯幸庾R地刺探隱私,他會有非常強(qiáng)的動力,并且不太計(jì)較成本。這樣前提下,熟人隱私問題會變得很復(fù)雜。