Optimizely存儲A/B測試數(shù)據(jù),
Zendesk存儲顧客滿意度,諸如此類。
為什么這是相關的呢?如今每個商業(yè)部門都有強大的數(shù)據(jù)庫,由數(shù)據(jù)專家分析并用于預測分析。數(shù)據(jù)量很大,卻零散地分布在多個應用之中。比如說你在SugarCRM 中查看某個消費者的信息,但是當你想知道這名顧客的服務記錄時,需要去ZenDesk中查看。而如果你想要知道他是否支付了最近的賬單,則要去查Xero。所有的數(shù)據(jù)都被存放在不同的地點,網(wǎng)站和數(shù)據(jù)庫中。 商業(yè)數(shù)據(jù)被轉移到了云端,可以存放更多的數(shù)據(jù)了,但是這些數(shù)據(jù)被零散地存放在全世界的不同服務器的不同應用里。
3,第三方數(shù)據(jù)
第三方數(shù)據(jù)出現(xiàn)得比結構化和非結構化數(shù)據(jù)庫都早得多。Dun & Bradstreet從1841年就開始賣數(shù)據(jù)了。隨著數(shù)據(jù)對每個機構都愈發(fā)重要,這個領域也將會獲得長足的發(fā)展。 在數(shù)據(jù)庫生態(tài)系統(tǒng)圖中,我大體把第三方數(shù)據(jù)分成四個領域,分別是
商業(yè)信息數(shù)據(jù),
社交媒體數(shù)據(jù),
網(wǎng)頁爬蟲和
公開數(shù)據(jù)。
3.1,商業(yè)信息數(shù)據(jù)
商業(yè)信息數(shù)據(jù)開始最早。 我上面提到了Dun & Broadstreet,商業(yè)數(shù)據(jù)購買對許多商業(yè)機構來說都至關重要。商業(yè)數(shù)據(jù)能回答所有B2B公司至關重要的問題:我們的銷售團隊該找誰談?如今,這些數(shù)據(jù)更被擴展應用至網(wǎng)上地圖和高頻交易等領域。
新創(chuàng)的數(shù)據(jù)賣方如Factual,不僅售賣商業(yè)數(shù)據(jù),更傾向于從這些高盈利的新型領域起步。
3.2,社交媒體數(shù)據(jù)
社交媒體數(shù)據(jù)雖然是新興產(chǎn)物,但發(fā)展很快。
通過智能PR公司對社交媒體中的文本作情感分析,營銷人員能夠切實地了解到品牌熱度與影響力,并有效評估品牌價值。
你可以從Radian6 和DatSift里看到全部細節(jié)。
3.3,網(wǎng)絡爬蟲
接下來我們來看看網(wǎng)絡爬蟲,我個人認為這是一個很有發(fā)展?jié)摿Φ念I域。如果能夠把所有網(wǎng)站都作為數(shù)據(jù)源,由數(shù)據(jù)科學團隊發(fā)展和分析,真不知道還有多少新型商業(yè)和技術會由此而生。如今從事網(wǎng)絡爬蟲的重要公司包括 import.io和kimono,我認為這個領域將在接下來幾年呈現(xiàn)爆炸式的增長。
3.4,公眾數(shù)據(jù)
最后,當然還要提及公眾數(shù)據(jù)。如果沒有數(shù)據(jù)專家團隊的支持, 不知道奧巴馬總統(tǒng)是否還能夠贏得2004年的大選,這可能也是后來奧巴馬大力推動 Data.gov 的原因。許多地方政府也緊隨其后。
亞馬遜網(wǎng)絡服務 存放了許多驚人的公眾數(shù)據(jù),囊括從衛(wèi)星圖像到安然公司的郵件等各個方面。這些龐大的數(shù)據(jù)系列可以幫助擴大新型商業(yè),訓練更智能的算法,并解決許多實際問題。
這個領域發(fā)展快速,甚至出現(xiàn)了 Enigma.io 這種專門幫助企業(yè)使用公眾數(shù)據(jù)的公司。
3.5,開源工具
開源數(shù)據(jù)儲存的種類激增,尤其是在非結構化數(shù)據(jù)的存儲方面, Cassandra ,redistribute , Riak , Spark , CouchDB 和 MongoDB 等都大受歡迎。它們多數(shù)專注于公司應用,另外也著重于數(shù)據(jù)工程的生態(tài)系統(tǒng)。通過這個 交互式地圖 你將可以一睹最受歡迎的開源數(shù)據(jù)存儲及開采工具的概貌。