lingdata2020

Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)

View the Project on GitHub olesar/lingdata2020

Конкордансеры. Практикум AncConc

AntConc – корпусный менеджер

Материал для работы на семинаре

Анна Каренина: plain text, xml

Война и Мир, т. 1: plain text

Тихий Дон: plain text

СинТагРус: tokens lemma_POS

LiveCorpus: tokens lemma_POS

Знакомство с основными функциями

Работа с регулярными выражениями

Работа с размеченными файлами

Ключевые слова (лексические маркеры)

Чтобы определить характерные для некоторого корпуса слова, мы должны сравнить их частоты в данном корпусе с частотами в другом корпусе - reference corpus.

Частотные списки лемм и списки ключевых слов-леммы

Чтобы построить частотный список лемм, ваш корпус должен быть лемматизирован (reference corpus, естественно, тоже). Мы будем использовать версии корпусов с подстановкой вместо токена метки леммы и части речи (в формате lemma_POS).

Самостоятельное исследование корпуса устной спонтанной речи.

С помощью AntConc постройте частотные списки словоформ и лемм корпуса LiveCorpus. Определите лексические маркеры этого корпуса. (Для сравнения мы снова возьмем SynTagRus).

Дополнительные материалы

Voyant Tools

Еще одно полезное онлайн-приложение, которое активно используют литературоведы и историки - Voyant Tools.

Полезное