lingdata

Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ

View the Project on GitHub olesar/lingdata

Конкордансеры. Практикум AntConc

AntConc – корпусный менеджер

Знакомство с основными функциями

Работа с размеченными файлами

Ключевые слова (лексические маркеры - токены)

Чтобы определить характерные для некоторого корпуса слова, мы должны сравнить их частоты в данном корпусе с частотами в другом корпусе - reference corpus.

Частотные списки лемм и списки ключевых слов (леммы)

Чтобы построить частотный список лемм, ваш корпус должен быть лемматизирован (reference corpus, естественно, тоже). Мы будем использовать версии корпусов с подстановкой вместо токена метки леммы и части речи (в формате lemma_POS).

Коллокаты

Во вкладке Collocates укажите слово, сочетаемость которого вы хотите изучить. Справа укажите контекстное окно поиска коллокатов (например, 0 слов слева, 2 слова справа - 2R) и частотный порог (Min. Collocate Frequency). Start!
Списки коллокатов можно сортировать по абсолютной частоте, метрике коллокационной связи (Stat) и алфавиту.
В Settings > Tool Preferences > Collocates можно выбрать метрики MI, Log-Likelihood, T-Score.

Поиск с использованием регулярных выражений

э+ (второй символ - плюсик, третий - пробел) позволит найти э, ээ, эээ (AntConc по умолчанию считает пробел маркером конца слова).

Материал для работы на семинаре

зеркало со всеми материалами

Анна Каренина: plain text, xml, lemma_POS

Война и Мир, т. 1: plain text

Тихий Дон: plain text

СинТагРус: tokens lemma_POS

LiveCorpus: tokens lemma_POS

LiveCorpus 2021:
tokens: см. файлы livecorpus2021-text-1.txt … livecorpus2021-text-10.txt в архиве по ссылке выше. lemma_POS: см. livecorpus2021_lemma_pos.1.txt там же.

Полезное

Дополнительные материалы

Voyant Tools

Еще одно полезное онлайн-приложение, которое используется гуманитариями - Voyant Tools.