
本文發(fā)布于2016年4月21日
小公司和大公司有一個(gè)很大的區(qū)別,就是我是要為了生存的。不可能一個(gè)項(xiàng)目做上3年時(shí)間,然后結(jié)題,然后再評(píng)估。通常說(shuō),如果6個(gè)月沒(méi)出成果的話,你這個(gè)公司就死掉了。所以從資金,從人員、從工程上來(lái)講,都是非常緊迫的。過(guò)去這4年里我們一直在這樣高壓力的情況下,資源非常有限的情況下,怎么能夠把活干出來(lái)。不考慮任何條條框框,只要能把活兒干出來(lái)就可以了。所以今天我講的東西,我想有一個(gè)副標(biāo)題叫“窮人的知識(shí)圖譜”。就是說(shuō)我沒(méi)有那么多錢,怎么把這個(gè)東西做出來(lái)。
成本和質(zhì)量的矛盾
大家提到知識(shí)圖譜的時(shí)候,可能更多想到的是,它是RDF啊,或者是圖數(shù)據(jù)庫(kù)啊,Neo4j等等。再往上走,本體啊,邏輯啊,把這樣一些東西稱為知識(shí)圖譜。實(shí)際上,我們?cè)趯?shí)際工作中用的時(shí)候不見得要這么教條。我們通常從原始數(shù)據(jù)開始,那種臟的數(shù)據(jù),比如從網(wǎng)上扒來(lái)的數(shù)據(jù),或者我們做股票知識(shí)圖譜的時(shí)候,從股轉(zhuǎn)中心抓來(lái)的數(shù)據(jù)、從證監(jiān)會(huì)抓來(lái)的數(shù)據(jù),這都是非常骯臟的數(shù)據(jù),各種各樣的噪聲,里面可能還有掃描的,完全沒(méi)有辦法做自然語(yǔ)言處理。我們要把骯臟的數(shù)據(jù)清理成干凈的數(shù)據(jù)。這一步做完可能百分之八十的工作就做完了,后面的東西都是錦上添花的東西。
我們拿到干凈的數(shù)據(jù),不是一步就跳到知識(shí)圖譜上面去的。很多時(shí)候,我們的應(yīng)用場(chǎng)景并不需要我們做這么深度的挖掘發(fā)現(xiàn)。在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間我們會(huì)做一個(gè)平衡,有的時(shí)候進(jìn)來(lái)的數(shù)據(jù)都是非結(jié)構(gòu)化的,我們要對(duì)它進(jìn)行一定程度上的結(jié)構(gòu)化。至于這個(gè)結(jié)構(gòu)化要做到什么程度,是由應(yīng)用決定的。結(jié)構(gòu)化的結(jié)果可能是JSON的,也可能是excel表格,也可能是其他的格式。這種不太完美的結(jié)構(gòu)化就可以說(shuō)是知識(shí)圖譜了。再往后,我們通過(guò)實(shí)體的提取、關(guān)系的提取、實(shí)體的對(duì)齊、實(shí)體的消歧、實(shí)體的鏈接,把它變成一個(gè)圖譜。再往上是本體、邏輯,各種不同的階段,一步一步往上走,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的提升。
如果我們能夠不計(jì)成本的話,我們可以把數(shù)據(jù)的質(zhì)量一步步往上提升,提升到邏輯那個(gè)最高的程度。這也是70年代的時(shí)候,我們做知識(shí)工程的那種理想:所有的東西全都是邏輯的。其實(shí)在五六年之前,還有很多工程是這樣做的。比如說(shuō)在美國(guó)有一個(gè)高考(機(jī)器人做高考題)項(xiàng)目,韓老師(韓先培)今天也講了中國(guó)搞的高考項(xiàng)目,美國(guó)那邊有個(gè)類似的項(xiàng)目也是這樣的。他們當(dāng)時(shí)就完全是用邏輯的方法來(lái)做,完全用人工來(lái)寫邏輯表達(dá)式。但那個(gè)項(xiàng)目最終因?yàn)槌杀镜膯?wèn)題失敗了。
所以我們?cè)谧鲞@件事時(shí),必須非常認(rèn)真地考慮成本,這對(duì)工業(yè)界特別是初創(chuàng)公司最關(guān)鍵。因?yàn)檫@件事情特別重要,所以我要把這兩個(gè)字放得大大的。如果今天回去以后,大家把我說(shuō)的所有話都忘掉的話,也請(qǐng)記住這兩個(gè)字。這兩個(gè)字決定了項(xiàng)目成敗最關(guān)鍵的一件事,就是你能不能活下來(lái)。
這是一些很不幸的前輩們,他們?cè)跊](méi)有辦法控制成本的情況下,因?yàn)榉N種原因犧牲了。我們這里默哀一下。我們?cè)趺茨軌虮苊馑麄兊南聢?chǎng)?上面的圖最后這里有個(gè)點(diǎn)點(diǎn)點(diǎn),可能現(xiàn)在大多數(shù)做知識(shí)圖譜的公司在3年或5年之后也會(huì)到它們里面去。我們?cè)趺茨軌蜃屪约翰贿M(jìn)去呢?
降低成本的基本思路
這里我給一個(gè)“重”的知識(shí)圖譜項(xiàng)目的示意。下面有七步,叫斯坦福七步法,這是一個(gè)以前叫本體開發(fā)的方法。是一種比較經(jīng)典的、瀑布式的開發(fā)方法。當(dāng)然了,傳統(tǒng)的本體工程里面也會(huì)說(shuō),這個(gè)并不是瀑布,是迭代。但是這種方法首先強(qiáng)調(diào),還是要有一個(gè)類,先有類然后再有屬性,再有實(shí)體,然后有實(shí)體上的各種約束。還是要一步一步走。它的假設(shè)是,可以預(yù)先知道很多東西。但大多數(shù)情況下,我們根本不知道。我們甚至連用戶的需求是什么都不知道:用戶總是要一匹更快的馬。所以你聽他的肯定是錯(cuò)的。像這種方法,之所以在以前能夠成功,因?yàn)樗钦捻?xiàng)目,通常幾百萬(wàn)到幾千萬(wàn)美元的,3年、5年、10年時(shí)間做完的項(xiàng)目,會(huì)有很多的大學(xué)啊,大公司啊,一起做。一開始光定下這個(gè)schema,可能需要一個(gè)工作組花一年時(shí)間來(lái)做。這樣一種“重”的開發(fā)的方法,今天在web上面,在初創(chuàng)公司里面,這樣是不行的,熬不過(guò)critical mass。我們要是這樣做,就會(huì)死掉。