中國IDC圈2月7日報道:事實上,如果企業(yè)能夠搞清楚圍繞著大數(shù)據(jù)的一些誤解,可能能夠幫助他們避免制定錯誤的業(yè)務發(fā)展方向,進而化險為夷,防止浪費大量的時間和金錢,耗費企業(yè)的市場競爭地位,或者損害企業(yè)的聲譽。
如下,是一些關于圍繞大數(shù)據(jù)理解的最大的誤區(qū)。
誤解1:只有數(shù)據(jù)科學專家才能處理大數(shù)據(jù)
事實上,僅僅依靠數(shù)據(jù)科學專家本身是遠遠不夠的。
“如果企業(yè)自身從一開始都不知道他們希望通過大數(shù)據(jù)分析中尋找到什么,那么,您企業(yè)所聘請的數(shù)據(jù)科學專家們對于能夠從大數(shù)據(jù)分析中獲取怎樣的信息也是愛莫能助的。” 賓夕法尼亞大學醫(yī)學院數(shù)據(jù)分析高級主管帕特。法雷爾說。“企業(yè)所需要的是那些熟悉本行業(yè)領域的相關知識,了解行業(yè)內存在什么樣的問題,能夠從大數(shù)據(jù)分析中獲得怎樣的特定行業(yè)價值洞察力的專業(yè)人士。”
例如,賓夕法尼亞大學醫(yī)學院包括衛(wèi)生系統(tǒng)和醫(yī)學院。其衛(wèi)生系統(tǒng)已經(jīng)花費了很長一段時間在數(shù)據(jù)倉庫中進行臨床數(shù)據(jù)采集方面的工作。而與此同時,其醫(yī)學院利用新技術進行人類基因組測序方面的研究過程中需要大量的數(shù)據(jù)。
“我們知道我們所收集的海量大數(shù)據(jù)中肯定蘊含著相當有價值的東西,并且我們最終能夠通過一定的計算能力來訪問到這些有價值的信息。”法雷爾說。結合醫(yī)學專業(yè)知識進行數(shù)據(jù)分析為他們的醫(yī)療保健預測開辟了一個全新的領域,他說。
誤解2:更大的數(shù)據(jù)量意味著更大的價值
收集、存儲數(shù)據(jù),并對其進行分類編目,需要花費相當?shù)臅r間和資源,法雷爾說。而如果不加區(qū)別地僅僅是單純的收集大量的數(shù)據(jù)信息通常會使得更有價值的項目轉移。
法雷爾建議,企業(yè)在開始收集數(shù)據(jù)之前,必須對具體的指標或關鍵績效指標有一個清晰的認識。
“企業(yè)需要明白,必須要通過智慧,對收集到的海量數(shù)據(jù)信息進行分析,進而從中挖掘出價值點。”他說。“僅僅是進行數(shù)據(jù)收集本身的工作是遠遠不夠的。 ”
誤解3:大數(shù)據(jù)僅僅只對大企業(yè)才有用
大公司可能有更多來自企業(yè)內部的數(shù)據(jù)源,但即使是小企業(yè)也可以充分利用來自社交媒體平臺,政府機構,以及數(shù)據(jù)供應商的數(shù)據(jù)。
“不管您企業(yè)的規(guī)模大小是怎樣的,當您在做出相關的業(yè)務發(fā)展戰(zhàn)略決策時最好是基于數(shù)據(jù)信息分析進行的,而非僅僅是單純依靠直覺。” 戴爾軟件信息管理解決方案產(chǎn)品管理執(zhí)行董事Darin Bartik說。
較之規(guī)模更大的企業(yè)而言,規(guī)模較小的企業(yè)可能會比同行的大企業(yè)較少的利用數(shù)據(jù)來做出企業(yè)決策,但是,一旦小企業(yè)這樣做了,他們可以更快的制定出更好的企業(yè)決策。
“小企業(yè)可以利用最佳實踐解決方案成為更為數(shù)據(jù)信息驅動的企業(yè),實際上超過或智勝那些規(guī)模更大,對數(shù)據(jù)驅動反應緩慢的競爭對手。”他說。
誤解4:現(xiàn)在收集,之后在分類整理
現(xiàn)如今的存儲的確是越來越便宜了,但其畢竟不是免費的。而且對于許多企業(yè)來說,他們存儲數(shù)據(jù)胃口擴大的速度遠遠超過了存儲成本下降的速度??偛课挥谂f金山的云計算商務智能供應商Birst公司的首席執(zhí)行官Brad Peters說。
那些認為僅僅只是單純的收集數(shù)據(jù)的企業(yè),以后會為如何處理這些海量數(shù)據(jù)而發(fā)愁的,他說。“我曾經(jīng)看到過一些大公司收集了海量的數(shù)據(jù)信息,其收集和存儲費用不斷上漲,但企業(yè)并沒有從中得到任何有價值的分析洞察。 ”
事實上,對于一些數(shù)據(jù)集而言,其已經(jīng)開始適用收益遞減的規(guī)律了。例如,您需要根據(jù)某個選舉的投票人的數(shù)量來預測選舉結果,這樣您就需要一定數(shù)量的投票人,以獲得具有代表性的樣本。但在您收集的投票人數(shù)量超過某一個點之后,增加更多的投票人并不會顯著影響對于選舉結果判斷誤差的程度。
Brad Peters問:“您企業(yè)僅僅靠收集更多的數(shù)據(jù)信息,就可能帶給您更精準的預測分析度嗎?”或者說收集更多的數(shù)據(jù)信息難道不是意味著您企業(yè)需要雇傭更多的人手嗎?您能夠確保您企業(yè)的網(wǎng)絡會更好嗎?我們收集數(shù)據(jù)信息的速度不能太快,不能超過了企業(yè)經(jīng)濟狀況和預算增加的速度。“
而且,這不僅僅只是存儲成本的問題,位于舊金山專門從事非結構化數(shù)據(jù)分析的Recommind公司的大數(shù)據(jù)管理兼信息管理全球負責人Dean Gonsowski說。例如,如果數(shù)據(jù)失控,可能會讓企業(yè)的成本花費超出控制,他說。并且,企業(yè)數(shù)據(jù)倉庫中存儲更多的數(shù)據(jù)信息就意味著企業(yè)需要承擔更多的遵守數(shù)據(jù)監(jiān)管法律的責任。最后,企業(yè)收集的數(shù)據(jù)越多,就越需要對這些數(shù)據(jù)進行排序整理。“當數(shù)據(jù)庫達到數(shù)十億的搜索記錄時,搜索時間勢必會延長,這樣,那些從來沒有經(jīng)過很好處理的信息量真的會造成系統(tǒng)堵塞。”