正如福特公司大數(shù)據(jù)主管John Ginder和其他一些企業(yè)的高管所描述的一樣,業(yè)內(nèi)缺乏簡單的工具來解決大數(shù)據(jù)問題。
“我們正在走向大數(shù)據(jù)這一偉大的終點(diǎn)。”John Ginder在接受媒體采訪時(shí)說,“盡管福特有專家來研發(fā)工具以及針對(duì)一些特殊應(yīng)用的具體問題進(jìn)行開發(fā),但是面對(duì)未來所有數(shù)據(jù)都將被挖掘的現(xiàn)狀,我們沒有足夠的人手和工具。數(shù)據(jù)專家而不是計(jì)算機(jī)科學(xué)家,要對(duì)數(shù)據(jù)進(jìn)行審查并發(fā)覺之前沒有被挖掘出的關(guān)系。這顯然是一個(gè)很美好的未來,但可惜的是現(xiàn)在我們還沒有這樣的能力。”
美國7家大數(shù)據(jù)工具企業(yè)(產(chǎn)品大多測試階段)
換句話說,運(yùn)行Hadoop集群或執(zhí)行分析需要具有特殊技能的專業(yè)人員。但如果想進(jìn)行大數(shù)據(jù)革命,最先面臨的挑戰(zhàn)就是如何像當(dāng)年網(wǎng)景(Netscape)簡化上網(wǎng)體驗(yàn)一樣簡化大數(shù)據(jù)處理。美國已經(jīng)有7家創(chuàng)新企業(yè)正在從事這一工作,這些企業(yè)的獨(dú)特產(chǎn)品會(huì)幫助你拋棄你的“數(shù)據(jù)科學(xué)家”。
Datahero:關(guān)于可視化的創(chuàng)新型企業(yè)??梢詫?shù)據(jù)變成漂亮的圖片,進(jìn)而幫助客戶或者其他人更好地認(rèn)識(shí)和理解數(shù)據(jù),以帶來新的合作。用戶可以將他們的數(shù)據(jù)文件直接交給Datahero來做。
Prior Knowledge:相對(duì)較新,2011年8月成立,是麻省理工學(xué)院畢業(yè)生所創(chuàng)立的。其核心是讓非數(shù)據(jù)科學(xué)家玩轉(zhuǎn)數(shù)據(jù)。其提供的服務(wù)可以讓人們上傳數(shù)據(jù)并與Prior Knowledge的數(shù)據(jù)庫API相關(guān)聯(lián),從而提供相關(guān)性信息評(píng)估,并幫助應(yīng)用開發(fā)者建立預(yù)測模型。其已經(jīng)獲得來自創(chuàng)始人基金和天使投資的14000000美元的資金。
P(K)的數(shù)據(jù)庫做幕后的數(shù)學(xué)分組的視覺例子
Platfora:在Hadoop,每個(gè)人都喜歡大數(shù)據(jù)批處理平臺(tái),但其并不那么容易使用。Platfora的目的是通過一個(gè)擁有先進(jìn)數(shù)據(jù)科學(xué)功能而非查詢功能的直觀的用戶界面幫助你處理大數(shù)據(jù)。已經(jīng)募集57000000美元,預(yù)計(jì)明年推出產(chǎn)品。
ClearStory:響當(dāng)當(dāng)?shù)囊患覄?chuàng)新企業(yè),提供與軟件相抗衡的服務(wù)。Google、 Andreeseen Horowitz和Khosla都有投資。其目的將各類來源的數(shù)據(jù)(也包含Hadoop)匯總到一個(gè)地方,在那里,客戶可以通過GUI來交互和可視化數(shù)據(jù)。
Karamasphere:karmasphere產(chǎn)品的目的是在工作量和應(yīng)用甚至桌面上,減少開發(fā)過程。其可以讓用戶編寫類似于SQL查詢語句時(shí)可以連接到他們最喜愛的智能工具和分析軟件,并進(jìn)行相關(guān)分析。
Datameer:與其他企業(yè)相同,Datameer也是希望可以使化Hadoop應(yīng)用更簡便。其通過創(chuàng)造一個(gè)更為用戶所熟悉的可覆蓋的電子表格,企業(yè)可以利用這個(gè)表格來分析Hadoop的工作,創(chuàng)建可視化以及繪制關(guān)系。其比較接近Karamasphere,但也有新功能,比如允許某人在一臺(tái)機(jī)器上運(yùn)行多個(gè)分區(qū)。
BigML:就像Prior Knowledge,BigML是一家將數(shù)據(jù)與機(jī)器相結(jié)合以幫助使用者獲得解決他們是數(shù)據(jù)問題的方法的初創(chuàng)企業(yè)。BigML希望使用者通過以下四個(gè)步驟實(shí)現(xiàn):建立一個(gè)數(shù)據(jù)源,創(chuàng)建一個(gè)數(shù)據(jù)集,建立模型以及生成預(yù)測。其在private-beta模式上實(shí)現(xiàn)。
BigML的數(shù)圖文件處理