開展實地試驗,得出正確的結(jié)論,采取恰當(dāng)?shù)膽?yīng)對措施,都不是輕而易舉的事。但是成功的公司已經(jīng)有能力來設(shè)計、開展重要的實地試驗,并對其結(jié)果評估,采取針對性措施。正是這種“試驗加學(xué)習(xí)”的環(huán)境,以及對其能否加以推廣的理解和認(rèn)識之上采取行動的能力,才讓大數(shù)據(jù)有價值。
只是,由于越來越多的數(shù)據(jù)樣本收益遞減,這樣的試驗并不一定需要大數(shù)據(jù)。比如:谷歌透露說其往往用有效數(shù)據(jù)的0.1%中的隨機樣本來進行數(shù)據(jù)分析。確實,近日刊登的一篇文章顯示大數(shù)據(jù)的大實際上是不利的,因為“數(shù)據(jù)庫越大,就越容易支持你提出的假設(shè)。”換句話說,因為大數(shù)據(jù)提供重疊的信息,公司能從整個數(shù)據(jù)集,也能從其千分之一的數(shù)據(jù)集中獲取同樣的信息。
錯誤四:低估了勞動力技術(shù)需求
開展試驗不是公司從大數(shù)據(jù)推測有價值信息的唯一途徑。另一個可行的方法是公司可以培養(yǎng)算法技能,來更好的處理數(shù)據(jù)。推薦系統(tǒng)便是此類算法的一個范例。推薦系統(tǒng)通過針對關(guān)聯(lián)數(shù)據(jù)的算法向客戶推薦最相關(guān)的產(chǎn)品。只是,它不是依靠背后規(guī)模龐大的數(shù)據(jù),而是依賴識別關(guān)鍵信息碎片來預(yù)測客戶偏好的能力。的確,往往不是數(shù)據(jù)的規(guī)模,而是計算機學(xué)習(xí)的算法來確定結(jié)果的質(zhì)量。盡管預(yù)測能力可能增加可用數(shù)據(jù)的規(guī)模,但是在大多數(shù)情況中,預(yù)測的提升說明規(guī)模收益隨著數(shù)據(jù)集增加而遞減不過,要建立好的算法就需要好的數(shù)據(jù)分析師。一些公司以為不同聘請員工來分析數(shù)據(jù)中的因果聯(lián)系就能將大量的數(shù)據(jù)轉(zhuǎn)化為信息,他們可能要失望了。
數(shù)據(jù)本身是沒有價值的。只有與管理、構(gòu)建和分析技能結(jié)合來,明確對其進行試驗和算法,才能對公司有用。當(dāng)你把價格信息看做是對價格信息處理的技能時就清楚了。很多情況下,相對于數(shù)據(jù)成本,留住數(shù)據(jù)處理人才成本更高。這說明對于一個公司而言,數(shù)據(jù)處理能力比數(shù)據(jù)本身更重要。