現(xiàn)在的數(shù)據(jù)不再整齊劃一地按行和列排列,而是大規(guī)模地以非結(jié)構(gòu)化形式堆放在數(shù)據(jù)庫中。企業(yè)創(chuàng)建、收集、訪問、分享和分析這些不同類型的數(shù)據(jù)以提高經(jīng)營業(yè)績。曾經(jīng)用于進行數(shù)據(jù)分析的商業(yè)智能已經(jīng)不再適用于目前的異構(gòu)數(shù)據(jù)類型,包括電子郵件、字處理文檔、協(xié)作網(wǎng)站和機器生成的數(shù)據(jù)等。
與此同時,繁瑣和昂貴的專有企業(yè)搜索產(chǎn)品不能處理現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)存儲,并且不能以具有成本效益的方式來測量數(shù)據(jù)的規(guī)模和速度?,F(xiàn)在我們的目的是找到一種能夠?qū)λ袛?shù)據(jù)存儲進行搜索、發(fā)現(xiàn)和分析(SDA)的解決方案,很多公司試圖尋求開源方面的搜索功能應(yīng)用程序,例如Apache Solr,以及大數(shù)據(jù)解決方案,例如Apache Hadoop,能夠為他們提供及時和具有成本效益的對不斷增長的數(shù)據(jù)總體的訪問能力和洞察力。
數(shù)據(jù)現(xiàn)狀
企業(yè)比以往任何時候都更加需要數(shù)據(jù)分析,但是數(shù)據(jù)的性質(zhì)已經(jīng)發(fā)生了變化。在不久前,企業(yè)需要分析的數(shù)據(jù)主要位于結(jié)構(gòu)化數(shù)據(jù)庫和電子表格中。但是,在過去幾年中,一切都改變了。我們現(xiàn)在越來越多的(有時候是完全)依賴于數(shù)字形式的溝通。除了電子文件外,我們還有電子郵件、短信、博客及其評論、互動式網(wǎng)站(包括wikis和其他協(xié)作網(wǎng)站以及資料庫等)。
再有就是機器生成的數(shù)據(jù)。你的汽車、手機、電度表都在產(chǎn)生數(shù)據(jù),很快你的冰箱和咖啡機也會開始產(chǎn)生數(shù)據(jù)。事實上,人類和數(shù)字數(shù)據(jù)間的每個互動已經(jīng)成熟到可以被捕捉和分析,這些信息并不整齊,但是這些信息是極其寶貴的。目前的企業(yè)搜索解決方案能夠提供對這種非結(jié)構(gòu)化數(shù)據(jù)的洞察力,但是它們并不能很好的進行測量,并且它們并不提供對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)必須的分析。
執(zhí)行和測量分析以及利用ad-hoc訪問能力的需要頗為引人注目。企業(yè)想要保持靈活性和競爭力,員工必須能夠執(zhí)行更快和更強大的搜索以提供對數(shù)據(jù)更好的洞察力,使他們能夠發(fā)現(xiàn)之前隱藏的或者無法訪問的數(shù)據(jù)中的連接。
很多企業(yè)對于用戶和這片數(shù)據(jù)海洋(不只是原始數(shù)據(jù))之間的相互作用變得越來越感興趣,因為他們相信對這些互動作用的分析能夠幫助他們更好地對客戶做出響應(yīng),更快地認識業(yè)務(wù)和客戶趨勢,并作出更好的業(yè)務(wù)決策。這通常也是在這個時候“大數(shù)據(jù)”一詞被大多數(shù)企業(yè)意識到。
在運營方面,企業(yè)需要確保他們能夠成功地駕馭日益復(fù)雜的法律、法規(guī)和合規(guī)環(huán)境。這需要企業(yè)識別、存儲、搜索和生成相關(guān)文件的能力。如果沒有能夠經(jīng)濟有效地分析內(nèi)容的搜索和發(fā)現(xiàn)工具,預(yù)算將不堪重負,業(yè)務(wù)也將逐漸缺乏對員工和客戶對企業(yè)的意義的真正性質(zhì)失去洞察力。