現(xiàn)在的社會(huì)是一個(gè)高速發(fā)展的社會(huì),科技發(fā)達(dá),信息流通,人們之間的交流越來越密切,生活也越來越方便,大數(shù)據(jù)就是這個(gè)高科技時(shí)代的產(chǎn)物。
有人把數(shù)據(jù)比喻為蘊(yùn)藏能量的煤礦。煤炭按照性質(zhì)有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數(shù)據(jù)并不在“大”,而在于“有用”。價(jià)值含量、挖掘成本比數(shù)量更為重要。對(duì)于很多行業(yè)而言,如何利用這些大規(guī)模數(shù)據(jù)是贏得競爭的關(guān)鍵。
大數(shù)據(jù)分析的困境
不過,“大數(shù)據(jù)”在經(jīng)濟(jì)發(fā)展中的巨大意義并不代表其能取代一切對(duì)于社會(huì)問題的理性思考,科學(xué)發(fā)展的邏輯不能被湮沒在海量數(shù)據(jù)中。著名經(jīng)濟(jì)學(xué)家路德維希·馮·米塞斯曾提醒過:“就今日言,有很多人忙碌于資料之無益累積,以致對(duì)問題之說明與解決,喪失了其對(duì)特殊的經(jīng)濟(jì)意義的了解。”這確實(shí)是需要警惕的。
然而,分析大數(shù)據(jù)集可能會(huì)產(chǎn)生問題。首先,大數(shù)據(jù)是大規(guī)模的,有時(shí)太大,不能通過常用的分析工具有效地處理。
麻省理工學(xué)院Andrew and Erna Viterbi電氣工程與計(jì)算機(jī)科學(xué)院的教授、人工智能實(shí)驗(yàn)室(CSAIL)的主任Daniela Rus、博士后Mikhail Volkov和曾在Rus科研小組的博士后、以色列海法大學(xué)機(jī)器人大數(shù)據(jù)實(shí)驗(yàn)室主任Dan Feldman針對(duì)這個(gè)問題,提出了一個(gè)解決方案,將大數(shù)據(jù)變成可管理的數(shù)據(jù)。InfoQ整理并分享出來,以饗讀者。
大數(shù)據(jù)困境破解之道
處理大數(shù)據(jù)的一種方法是縮減它。如果您可以確定大數(shù)據(jù)的一個(gè)子集,用于保留大數(shù)據(jù)最重要的數(shù)學(xué)關(guān)系,那么就可以進(jìn)行有用的分析,不然對(duì)整個(gè)大數(shù)據(jù)集來說將是非常耗時(shí),不實(shí)用。
然而,用于提取這樣的“核心集”的方法根據(jù)應(yīng)用程序而有所不同。研究人員提出了一種提取可由大量常用數(shù)據(jù)分析工具使用的核心集的新技術(shù),適合自然語言處理、推薦系統(tǒng)、天氣預(yù)報(bào)、金融和神經(jīng)科學(xué)等。
“這些都是在許多應(yīng)用程序中使用的非常通用的算法,”Danilla Rus表示,“它們是這么多問題的基礎(chǔ)。通過為這些工具確定出一個(gè)巨大矩陣的核心集,人們就可以進(jìn)行以前根本不可能的計(jì)算。”
例如,在他們的論文中,研究人員將他們的技術(shù)應(yīng)用于矩陣(也就是表格),它將英語版維基百科上的每篇文章映射到網(wǎng)站上出現(xiàn)的每一個(gè)單詞。這個(gè)矩陣,將有140萬篇文章和440萬列的單詞。
維基百科的這個(gè)矩陣實(shí)在太大了,以至于不能使用低秩近似來進(jìn)行分析,該算法可以識(shí)別自由格式文本的主題。但是一旦提取出來核心集,研究人員就能夠使用低秩近似來提取維基百科上最常見的100個(gè)主題的單詞集群。例如,包含“服裝”、“新娘”、“伴娘”和“婚禮”的集群表示婚禮的主題;包含“槍”、“開槍”、“卡住”、“手槍”和“槍擊”的集群顯示指定了槍擊事件的主題。
讓大數(shù)據(jù)可管理的思路
研究人員的核心集新技術(shù)對(duì)于一系列工具非常有用,如奇異值分解、主成分分析、潛在語義分析。但它們共同之處是縮減:它們采用具有大量的變量數(shù)據(jù)集,并且用更少的變量找到它們的近似值。
在這里,這些工具的作用與核心集類似。但是,核心集是特定應(yīng)用程序,而dimension-reduction工具是通用的。這種共性使它們的密集型計(jì)算比核心集更多:對(duì)于大型數(shù)據(jù)集的實(shí)際應(yīng)用來說計(jì)算量過于龐大。
研究人員認(rèn)為,他們的技術(shù)可以用于用例如從數(shù)百萬變量中嗅出數(shù)據(jù)集:例如根據(jù)他們使用的詞語對(duì)維基百科頁面的描述——只有幾千個(gè)單詞。在這一點(diǎn)上,諸如廣泛使用的主成分分析技術(shù)可以將變量的數(shù)量減少到幾百個(gè),甚至更少。
維基百科矩陣有440萬列,每列代表一個(gè)不同的單詞。維基百科上的任何文章只會(huì)使用幾千個(gè)不同的單詞。所以在任何給定的行:這意味著在任何一篇文章,只有幾千個(gè)矩陣插槽中的440萬將會(huì)有內(nèi)容。在稀疏矩陣中,大多數(shù)值為零。
至關(guān)重要的是,這項(xiàng)新技術(shù)保留了稀疏性,這使得它的核心集更容易進(jìn)行計(jì)算處理。如果它們涉及零的大量乘法和加法,計(jì)算將會(huì)變得更容易。
新的核心集技術(shù)使用所謂的合并和歸約過程,它開始取數(shù)據(jù)集中的20個(gè)數(shù)據(jù)點(diǎn),并選擇其中10個(gè)作為滿20個(gè)數(shù)據(jù)點(diǎn)的最具代表性的點(diǎn)。然后它對(duì)另外20個(gè)數(shù)據(jù)點(diǎn)執(zhí)行相同的過程,合并這兩個(gè)所減少的10個(gè)數(shù)據(jù)點(diǎn),形成新的20個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集,然后它進(jìn)行另一個(gè)縮減的過程,從20個(gè)下降到10個(gè)。