背景——前所未有的創(chuàng)新時代
我們生活在一個創(chuàng)新的時代。在這個時代,互聯(lián)網(wǎng)顛覆了人們的生活和工作方式。社交網(wǎng)絡(luò)與移動終端的普及、大數(shù)據(jù)的產(chǎn)生與匯聚,催生出越來越多的新需求。這些需求必將推動更多創(chuàng)新應(yīng)用(如微博、微信、語音助手、網(wǎng)絡(luò)購物、手機打車、PM2.5指數(shù)、手機錢包、互聯(lián)網(wǎng)理財、交友、移動學(xué)習(xí)、在線課程等)的問世。由于創(chuàng)新所依賴的基礎(chǔ)設(shè)施日趨完善,多種云計算服務(wù)及開源平臺前所未有地降低了創(chuàng)新的成本,使得人們可以將精力集中到創(chuàng)新本身。
得益于網(wǎng)絡(luò)和云計算所支持的令人驚嘆的計算能力,以及從大數(shù)據(jù)洞察到的良機,還有機器學(xué)習(xí)所帶來的算法進步,人工智能獲得了新生。人工智能,是指計算機系統(tǒng)具備從聽說讀寫到搜索、推理、決策、回答問題等類人智能的能力。
最近,很多互聯(lián)網(wǎng)公司提出了“大腦”計劃,就是試圖在大數(shù)據(jù)和互聯(lián)網(wǎng)的背景下,提升各種應(yīng)用的智能水平。在大數(shù)據(jù)的支持下,新一代人工智能與自然語言處理技術(shù)的大規(guī)模應(yīng)用將成為科技創(chuàng)新的重大機遇。
數(shù)據(jù)智能、知識智能與社會智能
數(shù)據(jù)智能、知識智能和社會智能是智能應(yīng)用的三種典型模式。
數(shù)據(jù)智能是在大規(guī)模、多樣化、新鮮的數(shù)據(jù)支持下,在云計算的支撐下,采用機器學(xué)習(xí)的方法進行分類、聚類和排序,進而基于各類數(shù)據(jù)驅(qū)動實現(xiàn)的智能應(yīng)用系統(tǒng)。這里的數(shù)據(jù)是指存在于萬維網(wǎng)(Web)或者企業(yè)內(nèi)部的海量、無結(jié)構(gòu)或者半結(jié)構(gòu)的數(shù)據(jù)集合。這類數(shù)據(jù)具有重復(fù)性、冗余性和多樣性等特點,對搜索系統(tǒng)、問答系統(tǒng)、推理系統(tǒng)和預(yù)測系統(tǒng)具有重要意義。為了利用數(shù)據(jù)智能,我們須經(jīng)過數(shù)據(jù)獲取、去噪、抽取信息、建立索引等若干步驟形成可檢索的數(shù)據(jù)集合。我們也可以利用搜索引擎的返回結(jié)果進行實時信息抽取,以避免存儲和索引全網(wǎng)而付出的代價。
知識智能是指利用知識庫、詞典和規(guī)則進行推理的智能系統(tǒng)。目前很多搜索公司都建立了大型知識庫。Freebase, Yago2和DEPEDIA等知識庫可供免費研究和使用。結(jié)構(gòu)化、半結(jié)構(gòu)化和無結(jié)構(gòu)化的數(shù)據(jù)經(jīng)過信息抽取技術(shù)可獲取實體、實體的屬性和實體之間的關(guān)系來構(gòu)成一個知識圖譜。知識圖譜隨著數(shù)據(jù)的更新而演進,帶動知識智能不斷提升。
社會智能是指利用網(wǎng)友在互聯(lián)網(wǎng)上直接貢獻的內(nèi)容(包括網(wǎng)頁錨文本、用戶標簽、用戶日志、用戶反饋、社區(qū)問答、社會關(guān)系網(wǎng)絡(luò)等)實現(xiàn)用戶參與的智能應(yīng)用。在社區(qū)問答中,用戶提出問題,其他網(wǎng)友回答問題。久而久之形成的問答對庫可以用來回答新的問題。這些問題和答案蘊含著豐富的社會智能。
值得注意的是,在企業(yè)里也存在著這樣三種形態(tài)的智能信息。企業(yè)的網(wǎng)頁、文檔、電子郵箱、新聞、交易數(shù)據(jù)等可以看作是數(shù)據(jù)智能;企業(yè)的知識庫、本體、產(chǎn)品目錄、地址簿、客戶關(guān)系等可以看作是知識智能;企業(yè)內(nèi)部的QQ, LINC, YAMMER, Wiki的數(shù)據(jù)可以視作社會智能。利用這三種類型的智能信息,可以很好地支持商業(yè)活動,提高企業(yè)的運行效率。
以搜索引擎為例,給定一個查詢表達式,搜索引擎進行排序時,會用到TF-IDF1,體現(xiàn)關(guān)鍵詞和文檔的匹配(數(shù)據(jù)智能),會用到page rank2(社會智能),也會用到實體、實體之間的關(guān)系(知識智能)。而且很多搜索引擎在展示結(jié)果的時候,會提供網(wǎng)頁搜索、知識圖譜以及社會關(guān)系網(wǎng)絡(luò)等的結(jié)果。
多智能自然語言處理系統(tǒng)
自然語言處理研究的基本任務(wù)是理解句子和文章的要點,推斷其意圖,進行人機自然交互,實現(xiàn)搜索、文摘、自動問答、聊天機器人、機器翻譯等多種應(yīng)用。
搜索引擎的成功啟發(fā)我們在創(chuàng)新的時候,要綜合考慮數(shù)據(jù)智能、知識智能和社會智能。本專題以自然語言處理為例,邀請多位專家對相關(guān)科學(xué)研究方法與應(yīng)用創(chuàng)新進行具體闡述。
在數(shù)據(jù)智能方面,建立安全可靠的云計算平臺,實現(xiàn)對互聯(lián)網(wǎng)和授權(quán)企業(yè)數(shù)據(jù)的及時獲取、更新。根據(jù)應(yīng)用的需要,對數(shù)據(jù)進行聚類、分類和主題抽取。利用數(shù)據(jù)的特點獲取有標注信息的數(shù)據(jù),比如有翻譯標注的雙語對照數(shù)據(jù)、有分詞標注信息的數(shù)據(jù)、有地理位置信息的數(shù)據(jù)。同時,對數(shù)據(jù)的可靠性進行有效估計,對數(shù)據(jù)的質(zhì)量進行自動評定。然后,利用數(shù)據(jù)建立適合于特定應(yīng)用問題的模型,比如機器翻譯和輸入法中使用的語言模型。利用深度學(xué)習(xí)獲得詞匯的向量化表示,來計算詞匯之間的語義距離,并訓(xùn)練更加強大的語言模型。