中國IDC圈12月28日報道:看一看所有與大數(shù)據(jù)相關的活動,我們應該問一個問題:究竟有多少大數(shù)據(jù)在實際上是有用的。根據(jù)常識稍微思考一下,我們就會發(fā)現(xiàn)只有一小部分。
我已經(jīng)與數(shù)據(jù)打交道超過40年。在前互聯(lián)網(wǎng)的時代,我們經(jīng)歷了所謂的數(shù)據(jù)過載(dataoverload)。結果后來我們發(fā)現(xiàn)數(shù)據(jù)本身其實是沒有價值的,只有一小部分被證明對實際商業(yè)決策有直接影響。銘記歷史教訓,現(xiàn)在最關鍵的問題已經(jīng)變成了找到真正有用的數(shù)據(jù)。數(shù)據(jù)的量的確增加了,但值得注意的是:大部分的增長都來源于非結構化數(shù)據(jù)。
讓我先根據(jù)Webopedia的定義來解釋什么是非結構化數(shù)據(jù)。非結構化數(shù)據(jù)是指沒有任何相同結構的數(shù)據(jù)。例如,圖片、視頻、電子郵件、文件和文本都被認為是一個數(shù)據(jù)集內的非結構化數(shù)據(jù)。
盡管每個單獨的文檔可能都包含基于其創(chuàng)建程序的特定結構或格式,非結構化數(shù)據(jù)也可以被認為是“結構松散的數(shù)據(jù)”,因為數(shù)據(jù)源其實是具有結構的,但數(shù)據(jù)集內的所有數(shù)據(jù)包含的結構可能不盡相同。與此相反,數(shù)據(jù)庫則是一種常見的“結構化”數(shù)據(jù)。
所以回顧歷史,我們現(xiàn)在討論的除了數(shù)據(jù)超載還加上了一個新的變數(shù)——代表了大部分新增數(shù)據(jù)量的非結構化數(shù)據(jù)。非結構化數(shù)據(jù)代表著新的量的產(chǎn)生。我認為,具有強大的數(shù)據(jù)分析能力同時能很好地把握行業(yè)標準并遵守規(guī)則的公司可以提供精確的過濾解決方案,從而為用戶鑒別出最有價值的數(shù)據(jù)。
多剝一點洋蔥(Onion)
盡管有眾多關于過濾和分析結構化數(shù)據(jù)的解決方案不斷出現(xiàn),例如Splunk企業(yè)版,它可收集、索引和處理所有應用程序、服務器和設備(物理、虛擬和云中)生成的可轉移操作的機器數(shù)據(jù)。在討論“Hadoop會帶來什么”時,有很多人在爭論其優(yōu)缺點,在這里我就不多加討論了。
我的觀點是,真正的挑戰(zhàn)是提供價格可取的,關于更復雜的過濾和實時分析非結構化數(shù)據(jù)的解決方案。雖然所有類型的數(shù)據(jù)總量預計在未來五年中將增長800%,其中80%將是非結構化數(shù)據(jù)。
我建議具備數(shù)據(jù)建模、分析、OCL、本體模型的數(shù)據(jù)挖掘等能力的公司,可以通過提供既針對結構化又針對非結構化數(shù)據(jù)的解決方案來獲得一定優(yōu)勢。時至今日,仍然沒有公司可以真正提供能在海量大數(shù)據(jù)中精確定位和尋找的“神器”。
本體論在大數(shù)據(jù)中扮演什么角色?
本體論
正規(guī)來說,本體論將知識表示為在一個領域內的分層結構,并通過一個共享的詞匯表來表示這些概念的類型、性質和相互關系。
本體論是用于組織信息的結構框架,可作為一種知識展現(xiàn)用于人工智能、語義網(wǎng)、系統(tǒng)工程、軟件工程、生物信息學、圖書館學、企業(yè)書簽和信息架構。領域本體的創(chuàng)建也定義本體論和其企業(yè)組織架構方面應用的基礎。
本體論為什么重要?
因為它使我們在尋找關鍵數(shù)據(jù)或趨勢時不需要整合系統(tǒng)和應用程序。它是如何應用的,哪些是實現(xiàn)它功能的重要元素?
本體論結合了一個本質上非常靈活、基于圖形的語義模型和語義搜索,從而降低復雜數(shù)據(jù)集成的時間尺度和成本。本體論正在重新思考后谷歌世界中數(shù)據(jù)采集、數(shù)據(jù)關聯(lián)和數(shù)據(jù)遷移的項目。
為什么會有人想要發(fā)展本體論?
開發(fā)本體的最常見的目標之一是共享人們或軟件代理之間的對信息結構的相同理解。例如,假設幾個不同的網(wǎng)站都包含醫(yī)療信息或提供醫(yī)療電子商務服務。如果這些網(wǎng)站共享和發(fā)布信息時所使用的術語背后潛在的本體論是相同的,那么計算機代理可以從這些不同的網(wǎng)站中提取和聚合信息。代理也可以使用這些聚合信息來回答用戶查詢或將其作為其他應用程序的輸入數(shù)據(jù)。
以一些明確的域假設作為具體實施的基礎使我們可以在關于域的知識發(fā)生改變時很容易地改變這些假設。關于編程語言代碼的硬編碼假設使得這些假設不僅很難找到和理解,更加難以被改變,特別是對沒有編程經(jīng)驗的人。此外,對于領域知識的明確闡述對于必須學會這些術語在領域內代表什么意思的新用戶也是很有幫助的。
通常一個領域的本體本身并不是一個目標。開發(fā)一個本體就類似于定義一組數(shù)據(jù)以及供其他程序使用時的結構。解決問題的方法、域獨立應用程序和軟件代理都是將本體和基于本體的知識庫作為數(shù)據(jù)來使用的。