5. SKETCHENGINE多語言語料庫
每個(gè)郵箱可以注冊一次,免費(fèi)期是一個(gè)月,免費(fèi)期過了就再注冊一個(gè)郵箱,再注冊一次。其中漢語語料庫是沒有加工的生語料庫,使用價(jià)值不大。關(guān)鍵是其中的英語語料庫實(shí)際上是原來要付費(fèi)才能使用的BNC,可以好好利用。
6. COCA———美國當(dāng)代英語語料庫(Corpus of Contemporary A2merican English)
http://www.americancorpus.org/
由美國B righam Young University的M ark Davies教授開發(fā)的高達(dá)3.6億詞匯的美國最新當(dāng)代英語語料庫,是當(dāng)今世界上最大的英語平衡語料庫。與其它語料庫不同的是它是免費(fèi)在線供大家使用,給全世界英語學(xué)習(xí)者帶來了福音,是不可多得的一個(gè)英語學(xué)習(xí)寶庫,也是觀察美國英語使用和變化的一個(gè)絕佳窗口。
(以上來自:http://blog.sina.com.cn/gjxyxkgy)
國內(nèi)外語料庫建設(shè)一覽
北京大學(xué)語言信息工程系捷譯雙語語料庫Web對齊工具(自動+手動)開放注冊
訪問地址在 http://aligner.pkucat.com
文檔:http://aligner.pkucat.net/doc/html/
如果有需要者可以給 yjs@pkucat.com 老師寫信申請,說明身份和理由即可。
http://bbs.pkucat.com/modcp.php?action=moderate&op=members
已證實(shí)可用的英漢平行語料庫(部分)
–TEC
http://www.umist.ac.uk/ctis/research/research-overview.htm
翻譯語料庫方面則以英國曼徹斯特大學(xué)科技學(xué)院(UMIST) 翻譯研究中心1995年創(chuàng)建的世界上第一個(gè)翻譯語料庫( Translational EnglishCorpus , TEC) 最為著名。該語料庫主要收集從各國語言翻譯成英語的文本,目前已有上千萬詞的語料(目標(biāo)是5 千萬詞) ,分小說(約占80 %) 傳記、報(bào)紙和期刊4 個(gè)子庫。它并不要求必須雙語對齊。
該庫不僅對語料進(jìn)行了附碼標(biāo)注,還帶有許多超語言信息的標(biāo)注,如對譯者情況(包括譯者姓名、性別、民族、職業(yè)、翻譯方向等) 、翻譯方式、翻譯類型、源語、原書情況、出版社等等均一一予以標(biāo)注。
–北大雙語語料庫
北大計(jì)算語言學(xué)研究所的雙語語料庫,英漢對齊的句子已有5萬多對,并開發(fā)了相應(yīng)的對齊工具和雙語語料庫管理軟件。正在此基礎(chǔ)上做漢英對照短語庫,預(yù)計(jì)規(guī)模將達(dá)數(shù)十萬條。
–中英雙語在線(CEO)測試開通
網(wǎng)址為 http://www.fleric.org.cn/ceo/
–紅樓夢漢英平行語料庫
http://score.crpp.nie.edu.sg/hlm/index.htm
— The Babel English-Chinese Parallel Corpus
http://www.lancs.ac.uk/fass/projects…abel/babel.htm
The Babel English-Chinese Parallel Corpus,which was created on our research project Contrasting English and Chinese (ESRC Award Reference RES-000-23-0553),consists of 327 English articles and their translations in Mandarin Chinese. Of these 115 texts (121,493 English tokens plus 135,493 Chinese tokens) were collected from the World of English between October 2000 and February 2001 while the remaining 212 texts (132,140 English tokens plus 151,969 Chinese tokens) were collected from Time from September 2000 to January 2001. The corpus contains a total of 544,095 words (253,633 English words and 287,462 Chinese tokens). Here is a list of the titles of the articles included in the corpus.
The corpus is tagged for part of speech and aligned at the sentence level. The English texts were tagged using the CLAWS C7 tagset while Chinese texts were tagged using the Peking University tagset. Sentence alignment was done automatically and corrected by hand. The corpus is also marked for paragraph and sentence. But different markup systems were adopted for the two subcorpora. For the component of the World of English, sentences were marked consecutively throughout whereas for Time, sentences were marked within each paragraph.