國內(nèi)可用免費(fèi)語料庫(凡沒有標(biāo)注不可用的鏈接均可用)
(一) 國家語委
1.國家語委現(xiàn)代漢語語料庫http://www.cncorpus.org/
現(xiàn)代漢語通用平衡語料庫現(xiàn)在重新開放網(wǎng)絡(luò)查詢了。重開后的在線檢索速度更快,功能更強(qiáng),同時(shí)提供檢索結(jié)果下載?,F(xiàn)代漢語語料庫在線提供免費(fèi)檢索的語料約2000萬字,為分詞和詞性標(biāo)注語料。
2.古代漢語語料庫http://www.cncorpus.org/login.aspx
網(wǎng)站現(xiàn)在還增加了一億字的古代漢語生語料,研究古代漢語的也可以去查詢和下載。同時(shí),還提供了分詞、詞性標(biāo)注軟件、詞頻統(tǒng)計(jì)、字頻統(tǒng)計(jì)軟件,基于國家語委語料庫的字頻詞頻統(tǒng)計(jì)結(jié)果和發(fā)布的詞表等,以供學(xué)習(xí)研究語言文字的老師同學(xué)使用。
(二) 北京大學(xué)計(jì)算語言學(xué)研究所
《人民日?qǐng)?bào)》標(biāo)注語料庫http://www.icl.pku.edu.cn/icl_res/
《人民日?qǐng)?bào)》標(biāo)注語料庫中一半的語料(1998年上半年)共1300萬字已經(jīng)通過《人民日?qǐng)?bào)》新聞信息中心公開提供許可使用權(quán)。其中一個(gè)月的語料(1998年1月)近200萬字在互聯(lián)網(wǎng)上公布,供自由下載。
(三) 北京語言大學(xué)
漢語國際教育技術(shù)研發(fā)中心:HSK動(dòng)態(tài)作文語料庫http://202.112.195.192:8060/hsk/login.asp
語言研究所:北京口語語料查詢系統(tǒng)(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
(四)臺(tái)灣中央研究院
中研院語料庫WWW版所有功能均開放使用,但為防主機(jī)資源耗用過劇及顧及數(shù)據(jù)傳輸之實(shí)際限制,暫以檢索結(jié)果為限制的條件:院內(nèi)檢索限兩萬行數(shù)據(jù),院外檢索限兩千行數(shù)據(jù)。
1.現(xiàn)代漢語平衡語料庫http://www.sinica.edu.tw/SinicaCorpus
專門針對(duì)語言分析而設(shè)計(jì)的,每個(gè)文句都依詞斷開,并標(biāo)示詞類。語料的搜集也盡量做到現(xiàn)代漢語分配在不同的主題和語式上,是現(xiàn)代漢語無窮多的語句中一個(gè)代表性的樣本。現(xiàn)有語料庫主要針對(duì)語言分析而設(shè)計(jì),由中央研究院信息所、語言所詞庫小組完成,內(nèi)含有簡介、使用說明,現(xiàn)行的語料庫是4.0的版本。
2.古漢語語料庫http://www.sinica.edu.tw/ftms-bin/ftmsw
古漢語語料庫包含以下五個(gè)語料庫: 上古漢語、中古漢語(含大藏經(jīng))、近代漢語、其他、出土文獻(xiàn)。部分?jǐn)?shù)據(jù)取自史語所漢籍全文數(shù)據(jù)庫,故兩者間略有重迭。此語料庫之出土文獻(xiàn)語料庫,全部取自史語所漢簡小組所制作的數(shù)據(jù)庫。
3.近代漢語標(biāo)記語料庫http://www.sinica.edu.tw/Early_Mandarin/
為應(yīng)漢語史研究需求而建構(gòu)的語料庫。目前素語料庫所搜集的語料已含蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)大部分的重要語料,并己陸續(xù)開放使用;在標(biāo)記語料庫方面,上古漢語及近代漢語都已有部分語料完成標(biāo)注的工作,并視結(jié)果逐步提供上線檢索。
4.樹圖數(shù)據(jù)庫http://treebank.sinica.edu.tw/
「中文句結(jié)構(gòu)樹資料庫」(Sinica Treebank Version 3.0) 包含了6個(gè)檔案,61,087個(gè)中文樹圖,361,834個(gè)詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經(jīng)由電腦剖析成結(jié)構(gòu)樹,並加以人工修正、檢驗(yàn)後所得的成果。在中文句結(jié)構(gòu)樹中,我們標(biāo)示了中文句語意和語法的訊息。此一「中文句結(jié)構(gòu)樹資料庫」目前開放網(wǎng)上檢索及資料移轉(zhuǎn),以供學(xué)者專家在中文句法、語意關(guān)係研究參考之用。另有1000個(gè)句結(jié)構(gòu)樹開放下載。
5.中英雙語知識(shí)本體詞網(wǎng)http://bow.sinica.edu.tw/
結(jié)合詞網(wǎng),知識(shí)本體,與領(lǐng)域標(biāo)記的詞匯知識(shí)庫。
6.搜文解字http://words.sinica.edu.tw/
包含「搜詞尋字」、「文學(xué)之美」、「游戲解惑」、「古文字的世界」四個(gè)單元,可由部件、部首、字、音、詞互查,并可查詢?cè)谒臅?、老、莊、唐詩中的出處,及直接連結(jié)到出處,閱讀原文。