我們期望得到的是更輕一點的開發(fā)方法,能夠使你付出一些成本就可以拿到一定的回報。這是理想,現(xiàn)實不一定做得到。我們能夠降低成本的一個核心就是,我們能不拘泥于傳統(tǒng)的這些方法往前走。從現(xiàn)在的創(chuàng)業(yè)領域我們借鑒一個概念,大家可能聽過的一個詞,叫 Lean Startup ,就是精益創(chuàng)業(yè)這個想法。在實踐中,我們會發(fā)現(xiàn),成功的公司基本上都遵循了這樣一種方法往前走,一步一步地,從一開始不清楚應該怎么做,從一開始只有很少的資源做很少的事情, 然后慢慢資源越來越多,做更多的事情,所以我們希望有這樣一條曲線,up-front cost,就是初始投資,盡可能小一點,然后就能拿到一些結(jié)果,這個結(jié)果能夠?qū)τ脩舢a(chǎn)生一定的價值,但不是所有的價值。然后能夠讓我們bootstrapping(步步為營,逐步提升),往前走,拿到更多的錢拿到更多的人,然后滿足更高的要求。
但實際中的曲線可能是一個波浪的,甚至有可能某個階段變成負的價值,都有可能。我們希望能夠讓各種失敗盡可能快點,這樣發(fā)現(xiàn)錯誤就能快一點。就是有這樣一個loop(循環(huán)),Build-Measure- Learn,大家在其他地方可能也看到過。我們?nèi)嬙煲粋€系統(tǒng),去發(fā)現(xiàn),去做快速的驗證,它是不是有可能是成功的。其中大部分實驗都失敗了,只有少數(shù)告訴我們一些道理。然后,我們反饋回去改變我們的系統(tǒng)。
我今天主要講的,是在知識圖譜這個大系統(tǒng)構造的過程中的幾個子領域上,我們有沒有可能去用這樣的方法,依托于成熟技術,在成熟技術上面做一些迭代,幫助我們降低成本。這里我提到5個領域,其實也可以合并成4個領域,就是知識提取、知識存儲、知識表示,后面兩個信息檢索和人機交互可以統(tǒng)稱為知識檢索。我覺得這4個領域在一起才能夠構造好一個完整的知識圖譜的應用。僅僅只看一個領域肯定是不行的。這也是我們早期犯的一個重大的錯誤,就是在我們2001年前后的時候,我們當時想做語義網(wǎng),我們覺得知識表示就可以解決所有問題,但是我們想錯了?,F(xiàn)在到了2015年的時候,可能我們走到另外一個極端上去,不相信知識表示,我們非常相信知識提取,非常相信深度學習或者分布式表示,這可能也不見得對。一個完整的知識圖譜的應用一定是多種方法的運用。從工業(yè)上來講看,我希望能夠把這些成熟的技術盡可能地組合好。這就跟SpaceX發(fā)射火箭一樣,它每個組成技術(Component)其實不見得是非常先進的,很多都是NASA很多年前就做出來,但是它把這些技術組合得很好,創(chuàng)造出一個非常神奇的系統(tǒng)。把知識圖譜技術拆開來看,也是一樣,每一個組件都不是那么神奇,但怎么把它組合在一起,這是很神奇的。
另一點我想強調(diào)的是我們以前做知識工程的時候,進入了一個誤區(qū),就是我們覺得我們服務的對象是機器,更多想的是做更好的推理機讓它更好地發(fā)現(xiàn)知識,或者做一個更好的索引讓機器更好地做數(shù)據(jù)庫的查詢,或者做更好的知識提取。但實際上不是這樣子。當你去真正去做一個項目的時候,發(fā)現(xiàn)最主要的成本是人,是你的用戶、你的合伙人、你的投資人,然后更多是我們自己、員工。所以怎么能夠讓人能夠更好地去閱讀知識、產(chǎn)生知識,這才是我們應該學習的教訓。不光是知識工程的教訓也是軟件工程的教訓。
所以這里我引用了軟件工程的兩位大師,他們以前說的話:
傻子都能寫出計算機可讀懂的代碼,優(yōu)秀的程序員寫出的是人能讀懂的代碼— Martin Fowler
程序是寫給人讀的,只是碰巧能被機器執(zhí)行— Abelson and Sussman
其實知識圖譜或者其他的知識表現(xiàn)方式也一樣,它們并不是為機器準備的。它的維護成本更多是人的成本,要更多考慮對人友好來做這些事情。
我首先講一下知識提取的成本,再對其他4個領域一一介紹。
知識提取的成本
關于知識提取方面,我講這3個方面,就是人工和算法,統(tǒng)計和規(guī)則,還有知識提取的粒度。
提到人工和算法,這也是一句名言,我已經(jīng)忘了是誰說的了。我最近在很多talk中都會提到,就是: 有多少人工就有多少智能 ?;旧衔覀兛匆姷哪切┳屛覀冄矍耙涣恋臇|西,都是人做出來的,不是機器做出來的。各種各樣的規(guī)則,各種各樣的ontology,Siri那些讓你笑的小笑話,都是人做出來的。算法真的很難去做高質(zhì)量的結(jié)構。即使算法做出來,一定也要人工去進行驗證、確認。算法能做什么?當原始的結(jié)構都已經(jīng)很好,有高質(zhì)量的時候,算法可能轉(zhuǎn)移這個結(jié)構,從一種格式轉(zhuǎn)移成另一種格式,從Wikipedia的Infobox變成DBPedia,這是算法能夠做好的事情。但要把文本里面的關系提取出來,Open IE,這些東西從研究角度是非常有意義的,但是它們離實用還有相當遠的距離。