大數(shù)據(jù)在當前的科技新聞中占據(jù)了主導地位,它被吹捧為一切問題的可能的解決方案,從入侵檢測與預防欺詐,到治療癌癥和設(shè)置最優(yōu)的產(chǎn)品價格。
但我們定義大體量、多格式、高速度的大數(shù)據(jù),并不是能夠搞定每一個問題的靈丹妙藥。事實上,如果公司迷信周圍的一些大數(shù)據(jù)的神話,可能在錯誤的方向越走越遠,浪費大量的時間和金錢,影響公司的市場競爭地位,或者損害公司的聲譽。
以下是企業(yè)應當知道的圍繞大數(shù)據(jù)的十個最大的誤區(qū),了解他們將有助于有效地避免大數(shù)據(jù)的消極影響,并真正獲得大數(shù)據(jù)帶來的商業(yè)價值。
避免投資浪費,認清大數(shù)據(jù)的10大誤區(qū)
誤區(qū)1:只有數(shù)據(jù)科學家可以處理大數(shù)據(jù)
事實上,只有數(shù)據(jù)科學家是不夠的。
“數(shù)據(jù)科學家本身不能獲取大數(shù)據(jù)的信息,如果你不知道你尋求的首要問題,”Penn Medicine數(shù)據(jù)分析高級總監(jiān)Pat Farrell說。“你需要熟悉的行業(yè)、領(lǐng)域知識的人,了解存在什么樣的問題,有什么見解對這個特定的行業(yè)才是有價值的。”
例如,Penn Medicine包括衛(wèi)生系統(tǒng)和一所醫(yī)學學校。長期以來,衛(wèi)生系統(tǒng)一直在數(shù)據(jù)倉庫收集臨床數(shù)據(jù)。同時,在醫(yī)學院,新技術(shù)允許人類基因組的測序,這需要一個龐大的數(shù)據(jù)量。
“我們知道有值在哪里,并且我們終于有計算能力來訪問它,”Farrell說,結(jié)合數(shù)據(jù)分析和醫(yī)學專業(yè)知識,開辟了預測醫(yī)療保健的一個全新的領(lǐng)域。
誤區(qū)2 :數(shù)據(jù)越大,價值越大
Farrell表示,收集、貯存數(shù)據(jù)并對其進行編目需要時間和資源,不加區(qū)別地收集大量的數(shù)據(jù)可能使得更有價值的項目與這些資源無源。
Farrell建議,公司在開始收集數(shù)據(jù)之前,要對它們的具體指標或關(guān)鍵績效指標有清晰的認識。
誤區(qū)3 :大數(shù)據(jù)為大公司服務(wù)
大公司可能有更多的數(shù)據(jù)來源,但即使是小公司,也可以利用從社交媒體平臺,政府機構(gòu),以及數(shù)據(jù)供應商獲得的數(shù)據(jù)。
“不管組織規(guī)模的大小,基于數(shù)據(jù)的決策總比單純依靠直覺進行決策更加靠譜。” 戴爾軟件信息管理解決方案部門的產(chǎn)品管理高級總監(jiān) Darin Bartik說。
小型公司往往比同行的大企業(yè)更少地使用數(shù)據(jù)驅(qū)動的決策,但如果他們這樣做,他們可以更快地修正策略。
誤區(qū)4:現(xiàn)在收集,以后整理
存儲越來越便宜,但它不是免費的。總部位于舊金山、基于云計算的商業(yè)智能廠商Birst的首席執(zhí)行官Brad Peters表示,對于許多公司來說,數(shù)據(jù)增長的速度超過了存儲成本下降的速度。
一些公司認為,如果他們只是收集數(shù)據(jù),他們以后會找出這些數(shù)據(jù)的利用之道,但付出大量成本卻毫無價值。事實上,一些數(shù)據(jù)集適用收益遞減規(guī)律。例如,你進行民意測試來預測選舉結(jié)果。你需要一定數(shù)量的投票人以獲得具有代表性的樣本。但這個數(shù)量達到某個點之后,增加更多的人不會顯著影響誤差幅度。
而且這不僅涉及存儲成本,Recommind公司信息治理和大數(shù)據(jù)管理全球主管Dean Gonsowski說,該公司總部位于舊金山,專注于非結(jié)構(gòu)化數(shù)據(jù)分析。
例如,數(shù)據(jù)越多,進行排序的時間就越長。“當數(shù)十億條記錄入庫,搜索需要花費數(shù)小時或數(shù)周。”他說。
誤區(qū)5 :所有數(shù)據(jù)的都平等
弗吉尼亞州在過去20年一直在收集有關(guān)學生注冊人數(shù),財政援助和獎勵程度的數(shù)據(jù)。但是,這并不意味著,20年前收集并存儲在相同的數(shù)據(jù)字段中的數(shù)據(jù)一定是相同的數(shù)據(jù)。
“我處理的最大問題是,僅僅因為它是在數(shù)據(jù)字典中,研究人員認為這是公平的比賽,”弗吉尼亞州議會高等教育政策研究和數(shù)據(jù)倉庫主管Tod Massa說。“例如,ACT和SAT的學生的考試成績數(shù)據(jù),最初只對本州的學生收集,然后有一個缺口,然后收集本州和其他州的學生數(shù)據(jù)。”同樣,不同種族在K - 12級別和在高等教育的數(shù)據(jù)也有所不同。
事實上,任何特定的數(shù)據(jù),由不同的機構(gòu),或不同的人,或在不同的時間點報告的,都可能有所不同。
因此,分析師需要具備的不只是統(tǒng)計技能,而且還要熟悉數(shù)據(jù)的當?shù)刂R,和行業(yè)的整體發(fā)展趨勢,如SAT和ACT成績被重新標定。
“你不能編程所有這些東西放到一個數(shù)據(jù)倉庫。”Tod Massa說。
這同樣適用于外部的數(shù)據(jù)源,也就是說,很好地使用任何數(shù)據(jù),確實需要了解這些數(shù)據(jù)收集的文化和背景。
誤區(qū)6 :更具體的預測更好