Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ
http://aranea.juls.savba.sk/
Мы будем работать с семейством корпусов Aranea – зайдите по ссылке Guest Access и выберите English Araneum Anglicum Minus (120 млн слов).
Aranea Web Corpora - семейство сравнимых веб-корпусов. Есть для большого количества языков:
Что значит сравнимых?
Очевидно, что мы не можем сравнивать данные художественных текстов на английском языке 19 века и устную речь на русском языке 21 века. Однако иногда нужно проводить кросс-лингвистические исследования, и тогда нужны корпуса на разных языках не с одинаковыми (как в параллельном корпусе), а с похожими текстами. С помощью корпусов семейства Aranea можно проводить такие исследования. Все эти корпуса содержат тексты примерно с примерно одинаковым распределением текстов по времени (в основном современные тексты), стилям и тематикам (например, мы можем предположить, что тематики новостей примерно одинаковы в разных странах).
Что значит веб-корпус?
Эти корпуса были созданы посредством обкачивания Интернет-ресурсов на соответствующих языках. Что хорошо - много данных! Что плохо - нужно уделить особое внимание предобработке текстов. Основные проблемы: дублирующиеся тексты и опечатки, включая те, что возникли во время скачивания текста с веб-страниц.
Вот тут отлично написано. Ключевые моменты:
[]
.[word="mothers"]
ищет все случаи употребления словоформы mothers
, а [lemma="mother"]
ищет все слова с леммой mother
(предыдущий запрос тоже сюда попадёт).[word="every"] [word="so"] [word="often"]
. Квадратные скобки лучше отделить пробелом.[word="test" & tag!="V.*"]
[word="test" & !tag="V.*"]
[!(word="test" & tag="V.*")]
[word="test.*" & (tag="VVN" | tag="VP")]
"confuse.*" []{0,10} [tag="IN" | tag="PP"]
- от 0 до 10 слов может стоять между словом, начинающимся с confuse
и предлогом или личным местоимением.View options
: настраивать видимость тегов разметки, менять формат выдачи - KWIC (Key Word In a Context = конкорданс), по предложениямSort
: сортировать - по правому контексту, по левому контексту, по найденной форме (Node), случайным образом (Shuffle)Frequency
: смотреть данные о частотности и распределении найденных элементов в корпусе - какой части речи больше, какой формы больше и т.д.Collocation
: искать коллокацииSample
и Filter
- делать выборки и фильтровать выдачуSave
: сохранять выдачу к себе на компьютерЗадание для самостоятельной работы: В отличие от русского глагола подтвердить, английский глагол support не может присоединять изъяснительную клаузу с that непосредственно, он требует прямого дополнения (ср. to support an idea that…).
P
(positive examples) слева, вы можете увидеть все примеры выдачи, соответствующие элементу частотного списка.)Существительные в позиции прямого дополнения support.
Как вам нравятся такие предложения:
I hope to succeed the goal.
The tailor operated on my sleeves.
I highly disagree with the opinion.
Что-то не то, правда?
Ещё парочка примеров:
Можно сказать | Нельзя сказать |
---|---|
|
|
Коллокацией называется словосочетание, имеющее признаки синтаксически и семантически целостной единицы, в которой выбор одного слова диктует выбор другого. Коллокации - не идиомы!
Разные лингвистические свойства коллокаций
Не совсем понятно, почему именно эти два (или больше) слова объединяются в целостную единицу. Это может быть продиктовано даже простой традицией. Однако совершенно ясно, как можно искать коллокации! Нужно искать два слова, которые часто встречаются вместе. Но так ли всё просто?
Предположим, что слова в языке стоят в случайном порядке и их сочетаемость имеет случайный характер. Давайте ссыплем все слова из корпуса в большой мешок, перемешаем, распределим случайным образом по мешочкам-текстам, а далее выложим по канавкам-предложениям. Оценим вероятность того, что два слова окажутся рядом. Если гипотеза верна, то вероятность появления биграмма on in окажется весьма велика, да и сочетание also suggest будет вполне предсказуема, так как каждое из слов встречается с большой частотой. Вместе с тем, вероятность случайного появления рядом слов heartily и endorse (да еще именно в таком порядке) чрезвычайно мала - ведь каждое слово довольно редкое. Можно понять, что сочетаемость слов имеет разную “цену”, или значимость.
Некоторые слова встречаются рядом чаще, чем другие, но не всякий N-gram является лингвистически интересным (ср. at the). Для того, чтобы показать, что связь между словами не случайна, придуманы разные формулы, они по-разному ранжируют коллокации, см. подробнее:
🤔 Можно ли по корпусной выдаче понять, в чём между ними разница?
Полезные функции:
Задание для самостоятельной работы: Cравните сочетаемость слов aware и familiar – например, какие глаголы употребляются непосредственно слева от них.
SkELL – открытые корпуса SketchEngine для изучающих иностранный язык. Основные функции:
British Academic Written English Corpus (BAWE)
Полезные функции:
Большие корпуса SketchEngine – enTenTen, ruTenTen, deTenTen, arTenTen – в платном доступе (пробный бесплатный доступ на 30 дней). Также есть опция создавать свои корпуса, в том числе параллельные.
Дополнительные задания: https://docs.google.com/document/d/1DEzUg6ugAJB6lVk-CplARI6w3qBBqK-UPWRdRPPiURM/edit
Другие платформы для работы в веб-корпусами: