Очень трудно создавать корпус древних текстов. Начнем с того, что сканировать древние рукописи очень сложно и даже опасно (для самих рукописей). Лингвистические сложности начинаются уже на первом этапе обработки: слово может писаться разными способами. Например: фельдмаршалъ – фелд-маршалъ – фелтъ маршалъ и т. д. Какой вариант считать правильным? И – главное – как искать лексему независимо от всех орфографических вариантов?
В любом случае современная лингвистическая работа часто невозможна без перевода текстов в электронную форму, что автоматически превращает их в, так сказать, «корпус первого порядка». И это прекрасно, что старые корпуса не умирают, а продолжают жить, наполняясь аннотациями, расширяясь и углубляясь. Как поется в одной старой песенке, «работа есть работа, работа есть всегда».
Задания
1. Прочитайте в Википедии статью про Панини на русском и на любом иностранном языке. Какая из статей оказалась более информативной?
2. Существуют ли конкордансы священных книг основных религий мира? С помощью Яндекса или Гугла попробуйте найти конкордансы Корана, Торы (Пятикнижия Моисея), Трипитака.
3*. По вашему мнению, кого из русских лингвистов «доцифровой» эпохи (условно говоря, до 1970-х годов) можно назвать «корпусным» лингвистом в докорпусную эру? Почему?
Глава 3. Самые известные корпуса
Два крупнейших специализированных каталога CLARIN (www.clarin.eu/ (http://www.clarin.eu/)) и ELRA (http://www.elra.info/ (http://www.elra.info/)) содержат информацию о более чем трех тысячах корпусов. Каждый год появляются новые корпуса, новые форматы и новые типы данных. Значительное число корпусов создается и уже создано для многих языков. Они активно используются как для лингвистических исследований, так и в прикладных целях. Вы можете сами посмотреть, сколько ресурсов создано для английского языка, сколько для русского или для любого другого. Ниже я подробно опишу самые известные и крупные корпуса (список основных корпусов для множества языков можно найти по адресу: www.aclweb.org/aclwiki (http://www.aclweb.org/aclwiki)).
Иноязычные корпуса
1. Британский национальный корпус (British National Corpus, BNC)
http://www.natcorp.ox.ac.uk/ (http://www.natcorp.ox.ac.uk/); corpus.byu.edu/bnc (http://corpus.byu.edu/bnc)
100-миллионый корпус разговорных и письменных текстов британского варианта английского языка, охватывающий период конца XX – начала XXI века. Содержит морфологическую разметку.
2. Американский национальный корпус (American National Corpus, ANC)
http://www.anc.org/ (http://www.anc.org/)
22-миллионный корпус разговорных и письменных текстов американского варианта английского языка, охватывающий период конца XX – начала XXI века. Содержит морфологическую, частично синтаксическую разметку и разметку составных имен собственных.
3. Несколько корпусов испанского языка:
Корпус испанского языка (Сorpus del espa?ol)
http://www.corpusdelespanol.org/ (http://www.corpusdelespanol.org/)
Содержит тексты XIII–XX веков объемом ок. 100 млн слов. Есть частеречная и металингвистическая разметки.
Корпус современного испанского языка (Corpus del espa?ol actual, CEA)
sfn.uab.es:8080/SFN/tools/cea/english (http://sfn.uab.es:8080/SFN/tools/cea/english)
Содержит около 540 млн лемматизированных и морфологически аннотированных слов, извлеченных из Википедии и юридических документов (резолюции ООН и документы Европарламента).
4. Итальянский корпус (Corpus di Italiano Scritto)
corpora.dslo.unibo.it (http://corpora.dslo.unibo.it/)
Содержит современные письменные итальянские тексты объемом около 130 млн слов. Содержит частеречную разметку.
5. Корпус немецкого языка Cosmas II (das Projekt COSMAS II)
http://www.ids-mannheim.de/cosmas2/ (http://www.ids-mannheim.de/cosmas2/)
Вторая версия немецкого национального корпуса, объединяющая свыше 100 разных подкорпусов общим объемом свыше 8,7 млрд слов. Содержит морфологическую и синтаксическую разметки.
6. Лексическая база данных французского языка FRANTEXT (le corpus Frantext)
artfl-project.uchicago.edu (http://artfl-project.uchicago.edu/)
К сожалению, хорошего национального корпуса французского языка не существует. Доступно только неразмеченное собрание текстов XVIII–XX веков общим объемом более 200 млн слов.
7. Греческий национальный корпус (??????? ???????? ????????? ???????)
hnc.ilsp.gr/en (http://hnc.ilsp.gr/en/)
Корпус объемом более 47 млн слов разных жанров второй половины XX – начала XXI века. Разметка содержит леммы и части речи.
8. Ланкастерский корпус китайского языка (LCMC, Lancaster Corpus of Mandarin Chinese)
www.lancaster.ac.uk/fass/projects/corpus/LCMC (http://www.lancaster.ac.uk/fass/projects/corpus/LCMC)
Корпус объемом около 1 млн единиц представляет тексты, написанные на современном мандаринском диалекте китайского языка. Тексты содержат метаразметку и указание на часть речи.
9. Корпус современного украинского языка (Корпус сучасноi украiнськоi мови)
www.mova.info/corpus.aspx (http://www.mova.info/corpus.aspx)
Корпус объемом 13 млн единиц состоит из четырех подкорпусов (художественные, официально-деловые, поэтические, фольклорные тексты). Существует возможность поиска по токенам, леммам и морфологической разметке.
10. Национальный корпус польского языка (Narodowy Korpus Jezyka Polskiego, NKJP).
nkjp.pl (http://nkjp.pl/)
Корпус объемом в миллиард слов разговорных и письменных текстов современного польского языка. Содержит неполную морфологическую разметку.
11. Чешский национальный корпус (Cesk? nаrodn? korpus, CNK)
ucnk.ff.cuni.cz (http://ucnk.ff.cuni.cz/)
Содержит как современные, так и диахронические подкорпуса, устные и письменные тексты. Часть подкорпусов имеет морфологическую и синтаксическую разметки. Общий объем корпуса – более 500 млн единиц.
12. Словацкий национальный корпус (Slovensk? nаrodn? korpus)
korpus.juls.savba.sk (http://korpus.juls.savba.sk/)
Объем корпуса – более миллиарда употреблений, часть корпуса морфологический размечена.
13. Болгарский национальный корпус (Български национален корпус)