lingdata

Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ

View the Project on GitHub olesar/lingdata

Web-корпуса. Aranea, SkELL, SketchEngine. Коллокации. Совместная встречаемость.

http://aranea.juls.savba.sk/
Мы будем работать с семейством корпусов Aranea – зайдите по ссылке Guest Access и выберите English Araneum Anglicum Minus (120 млн слов).

Aranea Web Corpora - семейство сравнимых веб-корпусов. Есть для большого количества языков:

Что значит сравнимых?

Очевидно, что мы не можем сравнивать данные художественных текстов на английском языке 19 века и устную речь на русском языке 21 века. Однако иногда нужно проводить кросс-лингвистические исследования, и тогда нужны корпуса на разных языках не с одинаковыми (как в параллельном корпусе), а с похожими текстами. С помощью корпусов семейства Aranea можно проводить такие исследования. Все эти корпуса содержат тексты примерно с примерно одинаковым распределением текстов по времени (в основном современные тексты), стилям и тематикам (например, мы можем предположить, что тематики новостей примерно одинаковы в разных странах).

Что значит веб-корпус?

Эти корпуса были созданы посредством обкачивания Интернет-ресурсов на соответствующих языках. Что хорошо - много данных! Что плохо - нужно уделить особое внимание предобработке текстов. Основные проблемы: дублирующиеся тексты и опечатки, включая те, что возникли во время скачивания текста с веб-страниц.

Типы поиска

Как делать запросы на CQL

Вот тут отлично написано. Ключевые моменты:

Что можно делать?

Задание для самостоятельной работы: В отличие от русского глагола подтвердить, английский глагол support не может присоединять изъяснительную клаузу с that непосредственно, он требует прямого дополнения (ср. to support an idea that…).

Существительные в позиции прямого дополнения support.

Что такое коллокации?

Как вам нравятся такие предложения:

I hope to succeed the goal.

The tailor operated on my sleeves.

I highly disagree with the opinion.

Что-то не то, правда?

Ещё парочка примеров:

Можно сказатьНельзя сказать
  • do homework
  • long lengths
  • cause problems
  • provide care
  • make homework
  • lengthy legs
  • cause solutions
  • provide harm

Коллокацией называется словосочетание, имеющее признаки синтаксически и семантически целостной единицы, в которой выбор одного слова диктует выбор другого. Коллокации - не идиомы!

Разные лингвистические свойства коллокаций

Откуда берутся коллокации?

Не совсем понятно, почему именно эти два (или больше) слова объединяются в целостную единицу. Это может быть продиктовано даже простой традицией. Однако совершенно ясно, как можно искать коллокации! Нужно искать два слова, которые часто встречаются вместе. Но так ли всё просто?

Предположим, что слова в языке стоят в случайном порядке и их сочетаемость имеет случайный характер. Давайте ссыплем все слова из корпуса в большой мешок, перемешаем, распределим случайным образом по мешочкам-текстам, а далее выложим по канавкам-предложениям. Оценим вероятность того, что два слова окажутся рядом. Если гипотеза верна, то вероятность появления биграмма on in окажется весьма велика, да и сочетание also suggest будет вполне предсказуема, так как каждое из слов встречается с большой частотой. Вместе с тем, вероятность случайного появления рядом слов heartily и endorse (да еще именно в таком порядке) чрезвычайно мала - ведь каждое слово довольно редкое. Можно понять, что сочетаемость слов имеет разную “цену”, или значимость.

Разные оценки связи

Некоторые слова встречаются рядом чаще, чем другие, но не всякий N-gram является лингвистически интересным (ср. at the). Для того, чтобы показать, что связь между словами не случайна, придуманы разные формулы, они по-разному ранжируют коллокации, см. подробнее:

🤔 Можно ли по корпусной выдаче понять, в чём между ними разница?

BNC на платформе NoSketchEngine

British National Corpus

Полезные функции:

Задание для самостоятельной работы: Cравните сочетаемость слов aware и familiar – например, какие глаголы употребляются непосредственно слева от них.

SkELL

Russian SkELL

SkELL – открытые корпуса SketchEngine для изучающих иностранный язык. Основные функции:

Открытые корпуса Sketch Engine

British Academic Written English Corpus (BAWE)

Полезные функции:

Большие корпуса SketchEngine – enTenTen, ruTenTen, deTenTen, arTenTen – в платном доступе (пробный бесплатный доступ на 30 дней). Также есть опция создавать свои корпуса, в том числе параллельные.

Дополнительные задания: https://docs.google.com/document/d/1DEzUg6ugAJB6lVk-CplARI6w3qBBqK-UPWRdRPPiURM/edit

Другие платформы для работы в веб-корпусами: