結(jié)構(gòu)化數(shù)據(jù) vs. 非結(jié)構(gòu)化數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù)由明確定義的數(shù)據(jù)類型組成,其模式可以使其易于搜索。而非結(jié)構(gòu)化數(shù)據(jù)通常由不容易搜索的數(shù)據(jù)組成,其中包括音頻、視頻和社交媒體發(fā)布等格式。
結(jié)構(gòu)化數(shù)據(jù) vs. 非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)并不表示兩者之間存在真正的沖突??蛻舨皇腔谒麄兊臄?shù)據(jù)結(jié)構(gòu)選擇,而是在使用他們的應(yīng)用程序中選擇:關(guān)系數(shù)據(jù)庫(kù)用于結(jié)構(gòu)化數(shù)據(jù),大多數(shù)其他類型的應(yīng)用程序用于非結(jié)構(gòu)化數(shù)據(jù)。
然而,結(jié)構(gòu)化數(shù)據(jù)分析的難易程度與非結(jié)構(gòu)化數(shù)據(jù)的分析難度之間的關(guān)系日益緊張。結(jié)構(gòu)化數(shù)據(jù)分析是一個(gè)成熟的流程和技術(shù)。非結(jié)構(gòu)化數(shù)據(jù)分析是一個(gè)新興行業(yè),在研發(fā)方面需投入大量的資金,但這不是一項(xiàng)成熟的技術(shù)。企業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)問(wèn)題決定了他們是否應(yīng)該投資于非結(jié)構(gòu)化數(shù)據(jù)的分析,以及將這二者結(jié)合是否成為一種更好的商業(yè)智能?
什么是結(jié)構(gòu)化數(shù)據(jù)?
結(jié)構(gòu)化數(shù)據(jù)通常駐留在關(guān)系數(shù)據(jù)庫(kù)(RDBMS)中。其字段存儲(chǔ)長(zhǎng)度顯示數(shù)據(jù)電話號(hào)碼,社會(huì)安全號(hào)碼或郵政編碼。甚至像名稱這樣的可變長(zhǎng)度的文本字符串也包含在記錄中,這使得它很容易搜索。只要數(shù)據(jù)是在RDBMS結(jié)構(gòu)內(nèi)創(chuàng)建的,數(shù)據(jù)就可以是人工或機(jī)器生成的。這種格式是搜索與人類產(chǎn)生的查詢和使用的數(shù)據(jù)和字段名稱類型的算法,如字母或數(shù)字、貨幣、日期。數(shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)的普通關(guān)系數(shù)據(jù)庫(kù)應(yīng)用程序包括航空預(yù)訂系統(tǒng)、庫(kù)存控制、銷售事務(wù)和ATM活動(dòng)。結(jié)構(gòu)化查詢語(yǔ)言(SQL)允許在關(guān)系數(shù)據(jù)庫(kù)中查詢這種類型的結(jié)構(gòu)化數(shù)據(jù)。
一些關(guān)系數(shù)據(jù)庫(kù)確實(shí)存儲(chǔ)或指向非結(jié)構(gòu)化數(shù)據(jù),例如客戶關(guān)系管理(CRM)應(yīng)用程序。由于備忘錄字段不會(huì)將自己放到傳統(tǒng)的數(shù)據(jù)庫(kù)查詢中,因此其集成可能不理想。盡管如此,大部分客戶關(guān)系管理(CRM)數(shù)據(jù)都是結(jié)構(gòu)化的。
什么是非結(jié)構(gòu)化數(shù)據(jù)?
非結(jié)構(gòu)化數(shù)據(jù)本質(zhì)上是結(jié)構(gòu)化數(shù)據(jù)之外的一切數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)具有內(nèi)部結(jié)構(gòu),但不通過(guò)預(yù)定義的數(shù)據(jù)模型或模式進(jìn)行結(jié)構(gòu)化。它可能是文本的或非文本的,也可能是人為的或機(jī)器生成的。它也可以存儲(chǔ)在像NoSQL這樣的非關(guān)系數(shù)據(jù)庫(kù)中。
典型的人為非結(jié)構(gòu)化數(shù)據(jù)包括:
文本文件:文字處理、電子表格、演示文稿、電子郵件、日志。
電子郵件:由于其元數(shù)據(jù),電子郵件具有一些內(nèi)部結(jié)構(gòu),人們有時(shí)將其稱之為半結(jié)構(gòu)化。但是,其消息字段是非結(jié)構(gòu)化的,傳統(tǒng)的分析工具無(wú)法解析它。
社交媒體:來(lái)自Facebook、Twitter和LinkedIn的數(shù)據(jù)。
網(wǎng)站:YouTube、Instagram、照片分享網(wǎng)站。
移動(dòng)數(shù)據(jù):短信、地點(diǎn)。
通信:聊天、即時(shí)消息、電話錄音、協(xié)作軟件。
媒體:MP3、數(shù)碼照片、音頻文件、視頻文件。
業(yè)務(wù)應(yīng)用程序:MS Office文檔、生產(chǎn)力應(yīng)用程序。
典型的機(jī)器生成的非結(jié)構(gòu)化數(shù)據(jù)包括:
衛(wèi)星圖像:天氣數(shù)據(jù)、地形、軍事活動(dòng)。
科學(xué)數(shù)據(jù):石油和天然氣勘探、空間勘探、地震圖像、大氣數(shù)據(jù)。
數(shù)字監(jiān)控:監(jiān)控照片和視頻。
傳感器數(shù)據(jù):交通、天氣、海洋傳感器。
最具包容性的大數(shù)據(jù)分析可以使用結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù):有什么區(qū)別?
除了存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)和存儲(chǔ)在一個(gè)關(guān)系數(shù)據(jù)庫(kù)之外的明顯區(qū)別之外,最大的區(qū)別在于分析結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的便利性。針對(duì)結(jié)構(gòu)化數(shù)據(jù)存在成熟的分析工具,但用于挖掘非結(jié)構(gòu)化數(shù)據(jù)的分析工具正處于萌芽和發(fā)展階段。
用戶可以通過(guò)文本非結(jié)構(gòu)化數(shù)據(jù)運(yùn)行簡(jiǎn)單的內(nèi)容搜索。但是,缺乏有序的內(nèi)部結(jié)構(gòu)使得傳統(tǒng)數(shù)據(jù)挖掘工具的目標(biāo)失敗,企業(yè)從富有價(jià)值的數(shù)據(jù)源(如媒體、網(wǎng)絡(luò)、博客、客戶交互,以及社交媒體數(shù)據(jù))獲得的價(jià)值很小。即使非結(jié)構(gòu)化數(shù)據(jù)分析工具在市場(chǎng)上出現(xiàn),但沒(méi)有任何一個(gè)供應(yīng)商或工具集是明確的贏家。許多客戶不愿意投資于具有不確定發(fā)展路線圖的分析工具。
除此之外,非結(jié)構(gòu)化數(shù)據(jù)比結(jié)構(gòu)化數(shù)據(jù)要多得多。非結(jié)構(gòu)化數(shù)據(jù)占企業(yè)數(shù)據(jù)的80%以上,并且以每年55%和65%的速度增長(zhǎng)。如果沒(méi)有工具來(lái)分析這些海量數(shù)據(jù),組織會(huì)在商業(yè)智能表上留下大量有價(jià)值的數(shù)據(jù)。
傳統(tǒng)上,結(jié)構(gòu)化數(shù)據(jù)對(duì)大數(shù)據(jù)應(yīng)用程序來(lái)說(shuō)更容易消化,但如今的數(shù)據(jù)分析解決方案正在這方面取得重大進(jìn)展。