一、引言
最近各種客戶咨詢項(xiàng)目中,往往涉及大數(shù)據(jù)引入必要性和價(jià)值意義的深層次挖掘,客戶有數(shù)據(jù),有平臺(tái),但是不知到底要不要上大數(shù)據(jù),為何要上大數(shù)據(jù)和大數(shù)據(jù)可以帶來哪些價(jià)值和意義。本文關(guān)于大數(shù)據(jù)的必要性進(jìn)行闡述,來源實(shí)際項(xiàng)目,算是分享吧。
二、突破技術(shù)瓶頸
互聯(lián)網(wǎng)技術(shù)催生了大數(shù)據(jù)時(shí)代的來臨,大數(shù)據(jù)時(shí)代的數(shù)據(jù)形態(tài)有四大特點(diǎn):首先數(shù)據(jù)體量巨大,非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)占總數(shù)據(jù)量的80%至90%,比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10到50倍;其次、大數(shù)據(jù)的異構(gòu)和多樣性,比如圖片、新聞、博客、微博、微信等,比大更重要的是數(shù)據(jù)的復(fù)雜性,有時(shí)甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價(jià)值;第三,價(jià)值密度低,大量的不相關(guān)信息,需要沙里淘金;第四,傳播速度快,因此,需要實(shí)時(shí)分析而非批量式分析。
在大數(shù)據(jù)時(shí)代,面對(duì)如此海量快速的信息,純?nèi)斯けO(jiān)測(cè)互聯(lián)網(wǎng)已經(jīng)不可行了。自動(dòng)化輿情軟件成為大數(shù)據(jù)環(huán)境下輿情監(jiān)測(cè)和分析的引擎。監(jiān)測(cè)輿情可以設(shè)立一些關(guān)鍵詞,首先要與自己機(jī)構(gòu)相關(guān),可以包括競(jìng)爭(zhēng)者或者是合作伙伴,然后要放在特定網(wǎng)絡(luò)媒體進(jìn)行搜集。所有“信息碎片”搜集完之后,我們開始聚合信息,判斷哪些和產(chǎn)品相關(guān),哪些跟區(qū)域相關(guān),哪些跟自己相關(guān)。把這些信息進(jìn)行精確地采集和過濾、煉化分析,包括傳播統(tǒng)計(jì)和分析(媒介分析、主體傳播分布、傳播路徑分析、傳播源頭追蹤)、敏感(負(fù)面)輿情、輿情信息傳播趨勢(shì)分析,預(yù)判所收集到輿情信息的未來走勢(shì)。在此基礎(chǔ)上生成輿情簡(jiǎn)報(bào),輿情簡(jiǎn)報(bào)由系統(tǒng)自動(dòng)生成,以日或周為單位,對(duì)本階段監(jiān)測(cè)到的輿情進(jìn)行統(tǒng)計(jì)和分析,包括輿情分布、熱點(diǎn)輿情排行、負(fù)面輿情分析、正面輿情排行等情況。
大數(shù)據(jù)時(shí)代自身的特點(diǎn)決定了我們既面臨數(shù)據(jù)體量巨大的存儲(chǔ)壓力,同時(shí)面臨海量數(shù)據(jù)信息過濾,數(shù)據(jù)加工、數(shù)據(jù)分析和平臺(tái)運(yùn)算瓶頸。要想突破傳統(tǒng)技術(shù)瓶頸的約束,我們必須引入大數(shù)據(jù)技術(shù)。
三、擺脫成本枷鎖
基于傳統(tǒng)模式的輿情分析和歷史數(shù)據(jù)存儲(chǔ),是建立在高性能服務(wù)器硬件和昂貴的關(guān)系型數(shù)據(jù)基礎(chǔ)之上的。一方面硬件技術(shù)掌握在幾大IT巨頭手中,服務(wù)器的性能是以高昂的成本為支撐的;另外一方面硬件基礎(chǔ)之上操作系統(tǒng)、應(yīng)用軟件和關(guān)系型數(shù)據(jù)庫(kù)同樣掌握在幾大巨頭手中,其價(jià)格同樣不菲。此外規(guī)模的擴(kuò)展、軟件的升級(jí)和每年的服務(wù)費(fèi)用也是非常昂貴。
基于互聯(lián)網(wǎng)技術(shù)發(fā)展起來的大數(shù)據(jù),以開源框架Hadoop、HBase為基礎(chǔ),以Hive、Sqoop、Pig、Flume等軟件為工具,建立在X86-PC服務(wù)器和開源Linux操作系統(tǒng)之上。一方面硬件成本得以降低、另外一方面再無(wú)須為操作系統(tǒng)和應(yīng)用軟件支付高昂的Licence費(fèi)用。可以說大數(shù)據(jù)技術(shù)將使我所在很大程度上擺脫傳統(tǒng)IT廠商巨額的成本依賴。
四、促進(jìn)業(yè)務(wù)創(chuàng)新
這部分涉及具體應(yīng)用,視行業(yè)而定。在此制作一個(gè)方向說明:大數(shù)據(jù)的應(yīng)用可以衍生新的服務(wù),新的產(chǎn)品。
作者:張子良
更多詳細(xì)信息,請(qǐng)您微信關(guān)注“計(jì)算網(wǎng)”公眾號(hào):