在互聯(lián)網(wǎng)時代,大數(shù)據(jù)炙手可熱,許多人言必稱大數(shù)據(jù),但能夠真正說清大數(shù)據(jù)為何物的人并不多,更遑論如何借助大數(shù)據(jù)挖掘出巨大的商業(yè)價值。究竟如何定義大數(shù)據(jù)?大數(shù)據(jù)有哪些特征?本文旨在厘清大數(shù)據(jù)概念,闡明大數(shù)據(jù)應用方式及探究未來大數(shù)據(jù)發(fā)展之道。
Q1:大數(shù)據(jù)是商業(yè)炒作嗎?
業(yè)界給大數(shù)據(jù)的定義是4 個“V”:體量大(Volume)、種類多(Variety)、速度快(Velocity) 和真實性高(Veracity)。但這個定義其實并未抓住大數(shù)據(jù)本質(zhì)。如果僅僅看這幾個維度,大數(shù)據(jù)就是一種炒作,因為它們只是表面現(xiàn)象。
大數(shù)據(jù)的本質(zhì)應該是如何為企業(yè)帶來一種更新更好的商業(yè)運作模式,而大數(shù)據(jù)應用的成功,也是依靠決策者提出好的商業(yè)問題及與其相關(guān)的商業(yè)模式。這些商業(yè)問題可以非常簡單,但問題背后必須有一系列相關(guān)的商業(yè)模式。
比如,如何運用智能手機應用商城的數(shù)據(jù), 來提高對用戶APP 推薦的精度? 隨后,利用應用商城的大數(shù)據(jù),可以產(chǎn)生上百萬維的數(shù)據(jù)表,進而建立可靠準確的推薦模型,使得用戶體驗水平大幅提升。
大數(shù)據(jù)應用成功的關(guān)鍵也正取決于是否有一個明確的商業(yè)(或科學)目的,商業(yè)模式的定義是其前提條件。
Q2:數(shù)據(jù)越多越有用?
首先,如果收集大數(shù)據(jù)的目的是建立一個對位置數(shù)據(jù)的預測模型,那么,得到這一模型的訓練數(shù)據(jù)一定要包含所需的信息。但問題恰恰是,事前并不知道哪些特征是重要的,因此,需要把盡量多的數(shù)據(jù)整合起來,讓機器去尋找。
然而,這個問題為什么不能去咨詢該領(lǐng)域內(nèi)的專家們呢?事實證明,專家們雖然會自己解決問題,但大都說不清他們是如何解決這些問題的。這也就是為什么在大數(shù)據(jù)應用中,專家的作用更多體現(xiàn)在幫助連接、聚合盡量多的數(shù)據(jù)上。
除此之外,要建立一個好的預測模型, 用來訓練模型的數(shù)據(jù)總量也要足夠多。如果歷史數(shù)據(jù)少于一定規(guī)模,就會出現(xiàn)所謂“過擬合”(為了得到一致假設(shè)而使假設(shè)變得過度復雜)現(xiàn)象。例如,如果一個服裝品牌按照某一個模特的身材來設(shè)計,衣服很可能做得偏瘦,以至于絕大多數(shù)其他消費者無法使用。這種“過擬合”現(xiàn)象在建立大數(shù)據(jù)下的預測模型時也會發(fā)生。
那么,數(shù)據(jù)的總量越大,是不是預測模型需要學習的時間就一定越長呢?答案是否定的。研究成果表明,在一定條件下, 當數(shù)據(jù)變得越大,實際所需要的訓練時間反而越短。為什么會這樣呢?可以想象:如果一個學生在學習某種概念時,只有少數(shù)習題,那么這個學生想透徹學會這個概念,就需要把每一個習題翻來覆去地看, 加以擴展,這樣學習的過程會比較慢。相反,如果他有許多不同類的習題,只需要把每一個習題過一遍,即可應付未來的大部分情況。因此,習題多的學生,學到同樣水平的時間反而會短。
Q3:人工智能將超過人類大腦?
經(jīng)過幾十年的探索,可以相信:機器的智能只能從針對大數(shù)據(jù)的學習中得來,而大數(shù)據(jù)只能從人與人的交互、人與機器的交互中得來。如果想要這些交互產(chǎn)生足夠多的數(shù)據(jù),就一定要讓這些交互為人類提供有用的服務(wù)。
如今,什么數(shù)據(jù)最為充分?充分的數(shù)據(jù)首先是最容易被記錄的那一部分,比如語音、圖像、文字等。能不能直接獲取人類大腦活動信息,并以此來充實我們的智能呢?當今的這種技術(shù)(如磁共振腦圖成像技術(shù)) 還不夠精確,因此,通過學習得到的系統(tǒng)雖然在單方面可以超過人類大腦(如IBMWatson),但就通用性而言,現(xiàn)階段的人工智能比起人類大腦還差得很遠!
有沒有可能在不久之后的某天,具有人工智能的機器人成為人類的敵人呢?這是有可能的。但前提是:這些機器人的領(lǐng)袖一定是人類。
Q4:用戶隱私問題如何解決?
隱私問題的出現(xiàn)其實比大數(shù)據(jù)要早, 但隱私真正成為家喻戶曉的議題,卻是在大數(shù)據(jù)成為熱點之后。從斯諾登揭秘到蘋果數(shù)據(jù)上傳,隨著越來越多媒體的爆料,大家對隱私的關(guān)心程度也與日俱增。隱私問題的最大矛盾在于,一方面,數(shù)據(jù)被嚴嚴實實地包起來,另一方面,它又要被運用來發(fā)現(xiàn)有用的東西,不得不將之開放和上傳。