威廉·庫科爾斯基 William Cukierski
Kaggle 公司的數(shù)據(jù)科學(xué)家
效果最好的競賽有哪些?
我最看好的一場競賽叫“找鯨大賽”。競賽中要尋找的鯨是生活在大西洋中的一種瀕危種群。這些搜尋者擁有強(qiáng)大的網(wǎng)絡(luò),不間斷地記錄鯨發(fā)出的聲音,他們也擁有自己的算法,且效果非常好。他們說:“要不我們把這些數(shù)據(jù)交給 Kaggle,看 Kaggle 有沒有更好的解決方案。”他們最后實現(xiàn)了非凡的成果。目前,這些強(qiáng)大的網(wǎng)絡(luò)能夠以接近 99% 的準(zhǔn)確率來偵測出鯨的聲音。我認(rèn)為,如果有人坐在紐約的辦公桌前就可以從事與日常工作毫無相干且在萬里之遙的一項工作,并為我們的日常生活帶來巨大好處,這將是一項多么了不起的事情!
你們還在設(shè)法利用數(shù)據(jù)分析來進(jìn)行癌癥研究。Kaggle 是否組織過很多醫(yī)療相關(guān)領(lǐng)域的競賽?
Kaggle 尚未在醫(yī)療領(lǐng)域涉足過多,主要原因是涉及泄露患者信息這個問題。另一個難題是擁有這些數(shù)據(jù)的個人和機(jī)構(gòu)把數(shù)據(jù)囤積了起來,不愿分享。
制藥公司擁有制藥試驗的數(shù)據(jù),它們把這些數(shù)據(jù)壓在了箱底。人們?yōu)榱藬?shù)據(jù)分享作了一些初步努力,也承諾在這方面展開合作,但結(jié)果還是各自都想保留自己手中的數(shù)據(jù)。從某種程度上說,主要還是擔(dān)心隱私保護(hù)問題。你可能不會愿意把別人的基因組公開發(fā)布,然后大家都看出來這是家住主干道 232 號的薩利·斯密斯(Sally Smith)的基因組。不過,與此同時,這些擔(dān)心也有些過度。對于這種問題,人們好像都在玩花招,說什么除非把數(shù)據(jù)直接交給你,不然你怎么能夠遠(yuǎn)距離地利用數(shù)據(jù)解決問題呢?如果能消除這些顧慮,你就可以取得一些實質(zhì)性的進(jìn)展。
你們公司在舉辦人人都可以參與的競賽,而有些占有數(shù)據(jù)的機(jī)構(gòu)卻牢牢抓著數(shù)據(jù)不放手。這是否是一個矛盾?
我在日常工作中面臨的最大挑戰(zhàn)之一是說服人們分享數(shù)據(jù),并令其確信這么做不會威脅到其機(jī)構(gòu)的生存。
經(jīng)常情況下,不是說你占有了數(shù)據(jù),數(shù)據(jù)就成為與生俱來的無價之寶,數(shù)據(jù)是需要挖掘和分析的。如果我們從一個機(jī)構(gòu)拿到了一組數(shù)據(jù),并將其公開,問題的解決方式是公開的,這不會產(chǎn)生什么問題,因為沒有其他人有相同的數(shù)據(jù),也沒有人會再去獲得并利用這些數(shù)據(jù)。
你認(rèn)為,關(guān)于大數(shù)據(jù)的各種說法和觀點,哪方面的失控最嚴(yán)重?
我必須糾正一下你的問題,應(yīng)該是哪些方面沒有失控。在與人們談?wù)摯髷?shù)據(jù)時,很難避免失控這個問題,也很難避免其老板的介入,同樣難以獲得老板支持地說“好吧,我們也做大數(shù)據(jù)吧”。我認(rèn)為,人們在數(shù)據(jù)量方面有些失控。所以,經(jīng)常有人會說,“我們有 10 億兆的數(shù)據(jù),我們有百萬兆的數(shù)據(jù)。”許多問題可以在更小的數(shù)據(jù)規(guī)模上得到解決。比如,用輸送帶來篩選利馬豆。銷售利馬豆的公司希望利用照相機(jī)來發(fā)現(xiàn)輸送帶上變質(zhì)的利馬豆。你可以想象,如果你能夠發(fā)現(xiàn)一粒棕色利馬豆,你就可以發(fā)現(xiàn)所有的棕色利馬豆,而不需天文級別的數(shù)據(jù)來解決這一問題。我認(rèn)為,95% 的問題適用于這個模型。剩余 5% 的問題的算法需要大量的數(shù)據(jù),提供的數(shù)據(jù)越多,其方案的效果就越好。Netflix 向用戶推薦電影就是最好的例證。