導(dǎo)讀:從投資者的角度,西蒙迪斯將討論數(shù)據(jù)分析的變革,認(rèn)知應(yīng)用的價(jià)值,以及最受風(fēng)投關(guān)注的大數(shù)據(jù)核心領(lǐng)域。
在我的之前的一些博客中,我提到了生成認(rèn)知的必要性和重要性,并提供了一個(gè)認(rèn)知應(yīng)用的例子。我始終認(rèn)為認(rèn)知應(yīng)用是對于希望通過挖掘大數(shù)據(jù)從而改進(jìn)決策和解決重要問題的公司的關(guān)鍵所在。為了更好的理解和領(lǐng)會開發(fā)這類應(yīng)用的必要性,考慮在大數(shù)據(jù)領(lǐng)域正在發(fā)生什么,并且評估我們在商業(yè)智能系統(tǒng)上的經(jīng)驗(yàn),及它應(yīng)該如何驅(qū)動(dòng)我們理解認(rèn)知應(yīng)用是十分重要的。
由于我認(rèn)為認(rèn)知應(yīng)用是大數(shù)據(jù)發(fā)展的下一個(gè)轉(zhuǎn)折(參見最近使用IBM Watson平臺建立的這類應(yīng)用舉例),我將要在一系列博客中進(jìn)一步探討這個(gè)話題。在這篇博客中,我對于數(shù)據(jù)分析在過去25年的演變進(jìn)行了觀察,特別是當(dāng)我們來到大數(shù)據(jù)時(shí)代,開發(fā)認(rèn)知應(yīng)用是必然之舉。在第二篇博客中,我將更為詳細(xì)地描述這類應(yīng)用,并且提供一些例子。在第最后的第三篇博客中,我將討論投資者對認(rèn)知應(yīng)用的興趣,并描述我最近對這一領(lǐng)域的創(chuàng)業(yè)公司的投資。在這些博客中,我的分析和理解均基于本人作為三十多年的企業(yè)家、量兩分析應(yīng)用創(chuàng)業(yè)公司的創(chuàng)始人以及在這一領(lǐng)域進(jìn)行了15年投資的風(fēng)險(xiǎn)投資人的經(jīng)驗(yàn)。
數(shù)據(jù)分析在過去25年
隨著過去25年中數(shù)據(jù)量的大幅增加,針對決策制定的數(shù)據(jù)理解都由兩個(gè)步驟組成:創(chuàng)建數(shù)據(jù)倉庫以及理解數(shù)據(jù)倉庫的內(nèi)容。
數(shù)據(jù)倉庫以及它的前身—企業(yè)數(shù)據(jù)倉庫、數(shù)據(jù)市場等,是構(gòu)造專業(yè)數(shù)據(jù)庫所必須的基礎(chǔ)架構(gòu)。這些數(shù)據(jù)可能來自于一個(gè)單獨(dú)的數(shù)據(jù)源(例如客戶關(guān)系管理應(yīng)用的數(shù)據(jù)庫)或者來自整合過的一系列不同的數(shù)據(jù)源(例如將一個(gè)客戶關(guān)系管理應(yīng)用的數(shù)據(jù)庫和一個(gè)包含每個(gè)客戶的社交媒體交互數(shù)據(jù)的數(shù)據(jù)庫整合起來)。這些數(shù)據(jù)可能是結(jié)構(gòu)化的(例如貨幣被描述為每個(gè)用戶支付的數(shù)量)、非結(jié)構(gòu)化的(例如一個(gè)客戶和一個(gè)服務(wù)專員之間以文本形式的交互內(nèi)容)。專業(yè)化數(shù)據(jù)是那些一旦被抓取,就是干凈的、有標(biāo)簽的、并且自動(dòng)地或被(比人們認(rèn)為更頻繁地進(jìn)行)人工描述的。
在過去幾年里,我們已經(jīng)通過大量使用開源軟件、云計(jì)算、商用硬件等來降低數(shù)據(jù)倉庫的開銷,并進(jìn)一步改進(jìn)我們管理更多樣、大量和高速產(chǎn)生的數(shù)據(jù)的能力。我們已經(jīng)從只有諸如金融服務(wù)的花旗銀行以及零售業(yè)的沃爾瑪之類的大公司才能負(fù)擔(dān)的、千萬美元開銷的數(shù)據(jù)倉庫轉(zhuǎn)向?qū)τ谥行⌒推髽I(yè)可以負(fù)擔(dān)得起的數(shù)據(jù)倉庫。最近,低開銷的服務(wù)提供方,諸如亞馬遜的Redshift,谷歌的BigQuery,甚至是微軟的Azure,已經(jīng)把數(shù)據(jù)倉庫移到云上。最終,數(shù)據(jù)倉庫對于普通企業(yè)來說都是可用的。
隨著數(shù)據(jù)倉庫的崛起,數(shù)據(jù)分析報(bào)告的交付已從打印轉(zhuǎn)向數(shù)字化
數(shù)據(jù)理解的第二步涉及到通過數(shù)據(jù)分析來理解數(shù)據(jù)倉庫的內(nèi)容。在商業(yè)環(huán)境中,這往往是通過報(bào)告和關(guān)聯(lián)的可視化來完成,有時(shí)候也會使用更加定制化的可視化和諸如神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法(機(jī)器學(xué)習(xí)雖然并不是新概念,但幾乎從數(shù)據(jù)倉庫作為數(shù)據(jù)存儲和管理工具出現(xiàn)開始就被使用)。
隨著數(shù)據(jù)倉庫被更多的各行各業(yè)的公司所采用,我們見證了可以創(chuàng)建的報(bào)告的形式的逐漸改變,報(bào)告被展現(xiàn)給分析師和決策者,以及準(zhǔn)備報(bào)告的人。在早期(80年代末90年代早期),商務(wù)智能報(bào)告由技術(shù)專員創(chuàng)建,他們也是通過向數(shù)據(jù)倉庫提供函數(shù)和查詢來得到報(bào)告。這些報(bào)告被封裝(例如,它們可以被修改,但是有很大難度,且只能被同一個(gè)創(chuàng)建報(bào)告的技術(shù)專員所修改),并在計(jì)算機(jī)打印紙上呈現(xiàn)。后來,盡管這些報(bào)告仍然被封裝,它們可以在電腦上通過專門的報(bào)告程序來呈現(xiàn),再后來,可以呈現(xiàn)在包括智能電話和手持終端運(yùn)行的網(wǎng)絡(luò)瀏覽器上。近年來,查詢創(chuàng)建和報(bào)告撰寫的任務(wù)從技術(shù)專員轉(zhuǎn)交給了商業(yè)用戶。然而,盡管查詢和關(guān)聯(lián)的報(bào)告變得更快、更靈活、被更廣泛的使用,這些報(bào)告的主要用戶——商業(yè)分析師們,仍然困擾于在大量信息中發(fā)現(xiàn)在報(bào)告中存在的最簡單的模式。最重要的是,這些用戶糾結(jié)于基于報(bào)告所包含的信息應(yīng)該決定采取什么行動(dòng)(參見圖1的例子)。
圖1 關(guān)于復(fù)雜的數(shù)據(jù)模式和可視化的一些常見的例子