誤解5:所有數(shù)據(jù)均與有同等的重要性
在過(guò)去的20年里,弗吉尼亞州一直在收集有關(guān)學(xué)生入學(xué)率、財(cái)政援助和學(xué)位授予等相關(guān)數(shù)據(jù)信息。但是,這并不意味著20年前收集的數(shù)據(jù)與存儲(chǔ)在同一個(gè)數(shù)據(jù)字段的必須是相同的數(shù)據(jù)。
“目前,我所需要處理的最大問(wèn)題是,在數(shù)據(jù)字典中,研究人員認(rèn)為所有數(shù)據(jù)信息的重要性都是平等的。” 弗吉尼亞州的州高等教育委員會(huì)政策研究和數(shù)據(jù)倉(cāng)庫(kù)主任托德馬薩表示。“例如,我們關(guān)于學(xué)生的ACT和SAT考試成績(jī)數(shù)據(jù)收集,最初只收集了本州內(nèi)的學(xué)生的信息,然后我們覺(jué)得這存在數(shù)據(jù)缺口,就開(kāi)始同時(shí)收集本州內(nèi)外學(xué)生的數(shù)據(jù)。”類似的,我們還收集不同種族學(xué)生K-12水平測(cè)試的數(shù)據(jù),并跟蹤其高等教育情況。
事實(shí)上,對(duì)于不同的機(jī)構(gòu),或在不同的時(shí)間點(diǎn),或?qū)τ谶@些機(jī)構(gòu)內(nèi)的不同的人而言,任何特定的數(shù)據(jù)可能具有不同的重要性。“如果一個(gè)孤立的存儲(chǔ)或企業(yè)需要對(duì)其收集的數(shù)據(jù)全權(quán)負(fù)責(zé),那么您可能有遇到許多不同的情況。”他說(shuō)。“但,數(shù)據(jù)的重要性會(huì)隨時(shí)間的推移而改變。”
“因此,分析師需要具備不僅僅只是統(tǒng)計(jì)技能,而且還需要具備將數(shù)據(jù)和行業(yè)趨勢(shì)作為一個(gè)整體進(jìn)行分析的能力,如重新校準(zhǔn)SAT和ACT分?jǐn)?shù)。”他說(shuō)。
您不能將所有這些數(shù)據(jù)信息都放到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。這同樣適用于外部數(shù)據(jù)源,他補(bǔ)充說(shuō)。“在過(guò)去的50年中,聯(lián)邦一級(jí)的數(shù)據(jù)集已經(jīng)發(fā)生了巨大的變化,了解數(shù)據(jù)采集的文化背景是利用數(shù)據(jù)的必要性前提。”
誤解6:預(yù)測(cè)越具體就越好
認(rèn)為某些東西越具體就越準(zhǔn)確是人的本性。例如:“下午3:12 ”就比“下午的某個(gè)時(shí)候”更準(zhǔn)確。同樣,預(yù)測(cè)“星期天早晨一定會(huì)下雨”就比“本周末有百分之五十的下雨機(jī)率”更準(zhǔn)確的。
事實(shí)上,情況正好相反。在許多情況下,更精確的預(yù)測(cè)不太可能是準(zhǔn)確的。
誤解7:大數(shù)據(jù)就等于Hadoop
Hadoop是一款非常流行的非結(jié)構(gòu)化數(shù)據(jù)的開(kāi)源數(shù)據(jù)庫(kù),在最近已經(jīng)得到了很多的關(guān)注。但企業(yè)其實(shí)也有其他的選擇。
“有一個(gè)整體的NoSQL可供企業(yè)選擇。”SAP大數(shù)據(jù)總經(jīng)理兼高級(jí)副總裁Irfan Khan說(shuō)。“同時(shí),還有MongoDB、Cassandra等其他技術(shù)的整體機(jī)架。” 其中某些技術(shù)可能會(huì)比其他的技術(shù)更適合一個(gè)特定的大數(shù)據(jù)項(xiàng)目。
特別是,Hadoop的工作原理是將數(shù)據(jù)劃分成塊,并同時(shí)在多個(gè)數(shù)據(jù)塊上工作。此方法適用于許多大數(shù)據(jù)的問(wèn)題,但非所有的問(wèn)題。
“雖然YARN框架和Hadoop 2能夠解決其中某些問(wèn)題,但有時(shí)候,您需要處理問(wèn)題的方式,Hadoop并不是最理想的。” 一家大數(shù)據(jù)咨詢公司LucidWorks的CTO Grant Ingersoll說(shuō)。“人們需要保持冷靜,決定怎樣的技術(shù)對(duì)他們來(lái)說(shuō)是最好的,而不是單純的靠什么技術(shù)是當(dāng)下最時(shí)髦的技術(shù)來(lái)進(jìn)行判斷。”
誤解8 :最終用戶不需要直接訪問(wèn)大數(shù)據(jù)
隨著企業(yè)從各種各樣的來(lái)源高速收集大量的大數(shù)據(jù)信息,似乎對(duì)于企業(yè)的正式員工而言,處理這些大數(shù)據(jù)信息都變得相當(dāng)復(fù)雜了。但事實(shí)并非如此。
舉個(gè)例子來(lái)說(shuō),在重癥監(jiān)護(hù)病房中,全部設(shè)備所產(chǎn)生的數(shù)據(jù),包括心臟速率,呼吸數(shù)據(jù),心電圖讀數(shù)。很多時(shí)候,醫(yī)生和護(hù)士就只能看到病人當(dāng)前的讀數(shù)。
“我無(wú)法看到10分鐘前的讀數(shù)是怎樣的,或者繪制出一幅趨向圖,了解從現(xiàn)在開(kāi)始到一個(gè)小時(shí)后將是怎樣的走勢(shì)。”飛利浦醫(yī)療保健患者護(hù)理和臨床信息的首席營(yíng)銷官安東尼。瓊斯表示。但能夠了解病人的歷史數(shù)據(jù)信息,對(duì)于醫(yī)生做出相關(guān)的醫(yī)療方案決定是非常有價(jià)值的。
現(xiàn)在的問(wèn)題是,我們需要讓所有不同的設(shè)備所產(chǎn)生的數(shù)據(jù)進(jìn)行相互的交互,即使他們最初不是這樣設(shè)計(jì)的。并且甚至使用的是不同的操作平臺(tái),操作系統(tǒng)和編程語(yǔ)言。但是,一旦您這樣做了,就能夠幫助醫(yī)生和護(hù)士在需要時(shí)獲得更有價(jià)值的數(shù)據(jù)。
誤解9:大數(shù)據(jù)是個(gè)大問(wèn)題
一些主要的大銀行的首席信息官最近紛紛開(kāi)始討論關(guān)于大數(shù)據(jù)的話題,并詢問(wèn)關(guān)于最終用戶的自助服務(wù)。
一些高管認(rèn)為大數(shù)據(jù)只能夠解答某些特定類型的問(wèn)題。他們的態(tài)度可以概括為: “我們的大數(shù)據(jù)目標(biāo)是通過(guò)一組核心數(shù)據(jù)科學(xué)家解決極少數(shù)且高價(jià)值的問(wèn)題。我們不希望數(shù)據(jù)變得混亂,讓一般的人也能夠訪問(wèn)和使用這些新的信息,我不認(rèn)為一般的人需要這些數(shù)據(jù)。”