第二個(gè)是統(tǒng)計(jì)和規(guī)則。在工業(yè)界,大家都不會(huì)說一個(gè)秘密就是正則表達(dá)式是最重要的一件事情。你現(xiàn)在要寫文章,正則表達(dá)式是發(fā)不出去的。但正則表達(dá)式重要到什么程度呢?最近Micron公司已經(jīng)開發(fā)了一個(gè)正則表達(dá)式的(硬件)處理器,就是真正工業(yè)界非常重視正則表達(dá)式一個(gè)很重要的標(biāo)志。正則表達(dá)式只是其中一種啊,還有各種各樣的規(guī)則,其實(shí)是非常關(guān)鍵的,林老師(林德康)剛剛也說了。
我們能夠應(yīng)用到統(tǒng)計(jì)的時(shí)候,我們要考慮很多前提。
樣本有多大?樣本量很小的話統(tǒng)計(jì)就不管用了。
我們有沒有訓(xùn)練集?對(duì)于大公司而言,比如說做Distant Supervision,或者做那些分布式表示學(xué)習(xí),它還需要一些準(zhǔn)備的工作,人工的工作。對(duì)于初創(chuàng)公司或者小團(tuán)隊(duì)而言,未必能這樣。
準(zhǔn)確率要求有多高?搜索引擎正常情況下,它的正確率能夠達(dá)到30%。但是我們覺得ok。對(duì)于問答引擎我們的要求有多高呢?對(duì)于不同的應(yīng)用場(chǎng)景,比如說像這個(gè)小冰機(jī)器人陪聊的,錯(cuò)一點(diǎn)沒什么,但如果是在醫(yī)療和法律領(lǐng)域就完全不一樣了,你不能錯(cuò)。金融領(lǐng)域呢99%都不可以,正確率必須要有百分之百。在很多問題上面,這個(gè)時(shí)候要考慮到統(tǒng)計(jì)能不能做到百分之百?肯定做不到。
還有一個(gè)就是源數(shù)據(jù)的質(zhì)量,決定了你最后能夠拿到多少東西。源數(shù)據(jù)的質(zhì)量如果很高的話,統(tǒng)計(jì)方法的效果就會(huì)很好。如果不行的話,就得花很多時(shí)間做data cleaning(數(shù)據(jù)清洗),這也是要成本的。
最后一點(diǎn)就是粒度。大家看到經(jīng)典的教科書的知識(shí)圖譜的定義的時(shí)候,會(huì)說是一堆實(shí)體,實(shí)體之間有關(guān)系,然后實(shí)體有屬性。但實(shí)際上在工程應(yīng)用當(dāng)中未必一定要達(dá)到這樣的粒度,因?yàn)橐_(dá)到這種實(shí)體的粒度,是需要非常多的成本的。在每一個(gè)環(huán)節(jié),我們都要付出巨大的代價(jià),都是幾十萬、幾百萬、幾千萬的錢,往里面扔進(jìn)去。所以從一開始的文檔,到篇章,到段落(可能是圖表),到句子、詞,然后到實(shí)體,根據(jù)自己的應(yīng)用場(chǎng)景,我們可能到某一個(gè)階段可以停下來了。比如說用戶他關(guān)心這個(gè)公司的商業(yè)模式是什么,這個(gè)商業(yè)模式通常是一段話,我們只要把這段話給定位出來,我們不需要到實(shí)體層面。所以這個(gè)“實(shí)體”是可以打引號(hào)的。在圖上面的商業(yè)模式本身就可以作為一個(gè)實(shí)體,大概跟我們平常意義上的實(shí)體不太一樣。所以在不同的使用場(chǎng)景下,我們不需要拘泥于說一定要實(shí)體,或者屬性這種東西,夠用就行。
下面一句話是我說的: 最低成本的結(jié)構(gòu)依靠中學(xué)語文 。控制成本最核心的問題就是如何能夠接近于人的認(rèn)知,大多數(shù)人的認(rèn)知。大多數(shù)人的認(rèn)知水準(zhǔn)是什么呢?就是中學(xué)語文嘛。高中是一個(gè)人的智力的最高點(diǎn),高考過去最后那一天,在那之后大家都在走下坡路嘛。高中語文告訴我們,怎么去寫作,分段落,分句,每段第一個(gè)句子是最重要的。在這里面有豐富的結(jié)構(gòu),豐富的信息,這種語義信息其實(shí)是最容易挖掘出來的。其實(shí)有很多人已經(jīng)發(fā)現(xiàn)了也在用了。比如說以前我跟另外一組人合作,做一個(gè)Purple Semantic Mediawiki,它的用途就是這個(gè)wiki上每一段話我都可以在另外的wiki頁面里引用。它每一個(gè)段落有自動(dòng)生成的purple number,這是一個(gè)自動(dòng)生成的URI,然后可以在另一個(gè)頁面,只要你引用了這個(gè)URI,它自動(dòng)就過來了,也是動(dòng)態(tài)的。因?yàn)檫@是metadata(元數(shù)據(jù)),所以你可以查詢,你可以把幾個(gè)段落自由的組合在一起,就是有所謂的語義在這里頭。
知識(shí)表示的成本
下面我們講一下知識(shí)表示的成本。知識(shí)表示分成幾個(gè)層次來講,從最低層的就是我們有一個(gè)東西,給它起名字(命名),然后把這些東西關(guān)聯(lián)在一起(元組),最終我們要發(fā)現(xiàn)這個(gè)關(guān)系背后的關(guān)系(本體)。
我覺得 降低知識(shí)表示的成本的核心就是怎么適應(yīng)人類的認(rèn)知的惰性 。因?yàn)槲覀兇蠖鄶?shù)人其實(shí)都不想動(dòng)腦子,包括每一個(gè)人在大多數(shù)時(shí)間也是不想動(dòng)腦子的。而且人的智力的分布的不均衡性是遠(yuǎn)遠(yuǎn)大于人的體力的分布不均衡性的。這個(gè)有非常多慘痛的教訓(xùn),包括以前我們做知識(shí)系統(tǒng)的可用性實(shí)驗(yàn)的時(shí)候,發(fā)現(xiàn)了大量反面的例子。就是專家開發(fā)出來的系統(tǒng),哪怕是那種大學(xué)生級(jí)別的用戶,都完全沒有辦法用,因?yàn)檫€是有認(rèn)知的gap在那里頭。我們?cè)趺茨軌虮M可能地降低這種不適應(yīng)性?
另外我們每一個(gè)人都有自己的世界觀。這種認(rèn)知惰性、還有不一致性的核心,是我們大家的世界觀是相互沖突的,我們能不能盡可能地隔離這種世界觀發(fā)生沖突?我們能不能盡可能降低必須的、開始的投入?