半結(jié)構(gòu)化數(shù)據(jù)如何適用于結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)
半結(jié)構(gòu)化數(shù)據(jù)維護(hù)用于識(shí)別單獨(dú)數(shù)據(jù)元素的內(nèi)部標(biāo)記和標(biāo)簽,從而實(shí)現(xiàn)信息分組和層次結(jié)構(gòu)。文檔和數(shù)據(jù)庫(kù)都可以是半結(jié)構(gòu)化的。這種類型的數(shù)據(jù)只代表結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)的5%-10%,但具有關(guān)鍵的業(yè)務(wù)用例。
電子郵件是半結(jié)構(gòu)化數(shù)據(jù)類型的一個(gè)非常常見(jiàn)的例子。而更高級(jí)的分析工具對(duì)于線程跟蹤,近似重復(fù)數(shù)據(jù)刪除和概念搜索是必需的。電子郵件的本地元數(shù)據(jù)可以實(shí)現(xiàn)分類和關(guān)鍵字搜索,無(wú)需任何其他工具。
電子郵件是一個(gè)巨大的用例,但大多數(shù)半結(jié)構(gòu)化的開發(fā)中心都在緩解數(shù)據(jù)傳輸問(wèn)題。與基于Web的數(shù)據(jù)共享和傳輸一樣,共享傳感器數(shù)據(jù)也是一個(gè)不斷增長(zhǎng)的用例:電子數(shù)據(jù)交換(EDI),許多社交媒體平臺(tái),文檔標(biāo)記語(yǔ)言和NoSQL數(shù)據(jù)庫(kù)。
半結(jié)構(gòu)化數(shù)據(jù)的例子
標(biāo)記語(yǔ)言XML這是一種半結(jié)構(gòu)化的文檔語(yǔ)言。XML是一組定義人機(jī)可讀格式的文檔編碼規(guī)則(雖然說(shuō)XML是人類可讀的,但并沒(méi)有帶來(lái)太大的好處,因?yàn)槿藛T閱讀XML文檔都會(huì)讓他們更加耗費(fèi)時(shí)間。)其價(jià)值在于它的標(biāo)簽驅(qū)動(dòng)結(jié)構(gòu)非常靈活,編碼人員可以使其適應(yīng)在Web上普及數(shù)據(jù)結(jié)構(gòu)、存儲(chǔ)和傳輸。
開放標(biāo)準(zhǔn)JSON(JavaScript Object Notation)是另一種半結(jié)構(gòu)化數(shù)據(jù)交換格式。Java隱含在名稱中,但其他類似C語(yǔ)言的編程語(yǔ)言可以識(shí)別它。其結(jié)構(gòu)由名稱/值對(duì)(或?qū)ο蟆⑸⒘斜淼龋┖陀行蛑盗斜恚ɑ驍?shù)組、序列、列表)組成。由于結(jié)構(gòu)在各種語(yǔ)言之間可以互換,JSON擅長(zhǎng)在Web應(yīng)用程序和服務(wù)器之間傳輸數(shù)據(jù)。
NoSQL半結(jié)構(gòu)化數(shù)據(jù)也是許多NoSQL(不僅是SQL)數(shù)據(jù)庫(kù)的重要組成部分。NoSQL數(shù)據(jù)庫(kù)與關(guān)系數(shù)據(jù)庫(kù)不同,因?yàn)樗鼈儾粫?huì)將組織(模式)與數(shù)據(jù)分開。這使得NoSQL成為存儲(chǔ)不容易適應(yīng)記錄和表格格式的信息(比如長(zhǎng)度不同的文本)的更好選擇。它還允許數(shù)據(jù)庫(kù)之間進(jìn)行更容易的數(shù)據(jù)交換。一些較新的NoSQL數(shù)據(jù)庫(kù)(如MongoDB和Couchbase)也通過(guò)將它們以JSON格式本地存儲(chǔ)來(lái)包含半結(jié)構(gòu)化文檔。
在大數(shù)據(jù)環(huán)境中,NoSQL不需要管理員將運(yùn)營(yíng)和分析數(shù)據(jù)庫(kù)分離為單獨(dú)的部署。NoSQL是可操作的數(shù)據(jù)庫(kù),并托管用于商業(yè)智能的本地分析工具。在Hadoop環(huán)境中,NoSQL數(shù)據(jù)庫(kù)攝取并管理傳入數(shù)據(jù)并提供分析結(jié)果。
這些數(shù)據(jù)庫(kù)在大數(shù)據(jù)基礎(chǔ)架構(gòu)和LinkedIn等實(shí)時(shí)Web應(yīng)用程序中很常見(jiàn)。在LinkedIn網(wǎng)站上,數(shù)以億計(jì)的商業(yè)用戶可以自由分享職位、地點(diǎn)、技能等等。LinkedIn以半結(jié)構(gòu)化格式捕捉海量數(shù)據(jù)。當(dāng)求職用戶創(chuàng)建搜索時(shí),LinkedIn會(huì)將查詢與其大規(guī)模的半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)相匹配,將數(shù)據(jù)交叉引用到招聘趨勢(shì)中,并與求職者分享結(jié)果推薦。 Salesforce等高級(jí)LinkedIn服務(wù)中的銷售和營(yíng)銷查詢也采用相同的流程。亞馬遜還將讀者推薦建立在半結(jié)構(gòu)化數(shù)據(jù)庫(kù)上。
結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù):下一代工具是游戲規(guī)則改變者
可以使用新工具分析非結(jié)構(gòu)化數(shù)據(jù),特別是給定用例參數(shù)。大多數(shù)這些工具都基于機(jī)器學(xué)習(xí)。結(jié)構(gòu)化數(shù)據(jù)分析也可以使用機(jī)器學(xué)習(xí),但海量數(shù)據(jù)和許多不同類型的非結(jié)構(gòu)化數(shù)據(jù)都需要它。
幾年前,使用關(guān)鍵字和關(guān)鍵短語(yǔ)的分析人員可以搜索非結(jié)構(gòu)化數(shù)據(jù),并對(duì)數(shù)據(jù)涉及的內(nèi)容有一個(gè)清晰的概念。電子發(fā)現(xiàn)是這種方法的主要例子。但是,非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)速度非常快,以至于用戶不僅需要采用計(jì)算工作的分析,而且還要自動(dòng)從他們的活動(dòng)和用戶決策中學(xué)習(xí)。自然語(yǔ)言處理(NLP)、模式感知和分類以及文本挖掘算法都是常見(jiàn)的例子,文檔相關(guān)性分析、情感分析和過(guò)濾器驅(qū)動(dòng)的網(wǎng)頁(yè)收集也是常見(jiàn)的例子。
使用機(jī)器學(xué)習(xí)智能進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)分析可使組織:
1.分析數(shù)字通信的合規(guī)性。違反合規(guī)性將會(huì)使企業(yè)損失數(shù)百萬(wàn)美元的費(fèi)用、訴訟和業(yè)務(wù)損失。模式識(shí)別和電子郵件線程分析軟件可以搜索海量的電子郵件和聊天數(shù)據(jù),以防潛在的不合規(guī)情況。最近的一個(gè)例子就是大眾汽車公司可能通過(guò)使用分析來(lái)監(jiān)控可疑消息的通信,從而避免了巨額罰款和聲譽(yù)損失。
2.跟蹤社交媒體中的大量客戶對(duì)話。文本分析和情緒分析可讓分析師檢查營(yíng)銷活動(dòng)的積極和負(fù)面結(jié)果,甚至識(shí)別在線威脅。這種級(jí)別的分析是一種更為復(fù)雜的簡(jiǎn)單關(guān)鍵字的搜索,它只能報(bào)告基本知識(shí),例如海報(bào)在新廣告系列中提及企業(yè)名稱的頻率。新的分析還包括以下場(chǎng)景:提及的是積極還是負(fù)面?海報(bào)是否有更好的宣傳作用?用戶對(duì)行政公告的反應(yīng)是什么?例如汽車行業(yè)大量參與社交媒體的分析,因?yàn)橘?gòu)車者往往會(huì)轉(zhuǎn)向其他海報(bào)來(lái)衡量他們的購(gòu)車體驗(yàn)。分析師使用文本挖掘和情感分析相結(jié)合的方式來(lái)跟蹤Twitter和Facebook上與自動(dòng)相關(guān)的用戶帖子。