然后再往上走,我們現(xiàn)在有了元組以后,我們就想知道能夠產(chǎn)生元組的元組,就是本體。本體,這是一種世界觀,因為我們對事情如何分類如何命名,其實是一種政治的考慮。所以引用另外一句名言就是“ 語言是有軍隊的方言 ”, 本體是有錢的偏見,這就是為什么這些本體都很難被其他組織利用。所以我們盡可能的在設計的時候啊,要避免這種沖突。
知識存儲的成本
最后我們再提一下存儲。因為時間有限,可能會跳過一些。在存儲的過程中要考慮到,知識圖譜里面其實還是會有大量的非結構化數(shù)據(jù),所以我們需要一個混合的解決方案。另外還要考慮到維護成本和效率的問題。綜合來講,如果我們不是特別需要一些推理的功能,其實一些現(xiàn)代的關系數(shù)據(jù)庫就夠用了,比如說PostgreSQL,它本身也支持JSON。需要圖的時候可能Neo4j也是挺好的選擇。
知識檢索的成本
最后一個講知識檢索,知識檢索主要是兩方面的成本。今天有很多老師提到了這個問答,其實從關鍵詞檢索,到這個問答檢索中間有很多步,詞聯(lián)想、同意詞,上下位,屬性和短關系,長程關系,我們把這些東西都可以稱為語義檢索,取決于我們需要付出多大的成本。
最后一個可能大家一般不太會注意的問題,就是在知識檢索的過程中,其實除了機器的成本,人的成本也是非常重要的一件事情。可能更多時候人的比機器的成本還要高,因為人是有有限的注意力、記憶力和時間的。有一些新的工具可以幫助我們做,比如說像分面瀏覽器就是Faceted Browser,我認為這個技術也很值得探討,它可以有效地幫助我們減少探索的時間。就相當于當年為什么有數(shù)據(jù)庫的時候還要有電子表格呢?因為電子表格解決的是人的問題,數(shù)據(jù)庫解決機器的問題。探索引擎可以幫助我們解決人的問題,它是有可能創(chuàng)造一個像電子表格那樣巨大市場的一種工具。
總結
最后總結一下就是我們要 迭代 ,知識庫是給人設計的。 降低成本的核心是考慮人的因素 。