lingdata

Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ

View the Project on GitHub olesar/lingdata

Подготовка к контрольной работе

Контрольная работа охватывает теоретический материал лекций и практическую работу с корпусами (в NoSketchEngine, Aranea), конкордансерами (AntConc), обработку данных в табличном редакторе (текстовые функции, функции подсчета, сводные таблицы).
Разрешается пользоваться конспектами и любыми другими материалами. Однако, имейте в виду, что на выполнение заданий даётся ограниченное время (одна пара), поэтому лучше повторить материал заранее. Контрольная сдается через гугл-форму (ответы на вопросы) и GitHub. В ваш личный репозиторий курса в папку test нужно будет загрузить обработанные вами файлы.
Для работы понадобится заранее установить AntConc на компьютер (ноутбук), с которого она будет выполняться.

Примерные задания:

Задания из старых контрольных

Пример варианта контрольной работы: https://docs.google.com/forms/d/e/1FAIpQLSdn0Gg53UWyPigE46Bvi537z4kxKNagfTGY2uB-4wzUYQ2ApQ/viewform

Воспользуйтесь текстовыми (для регулярных выражения) и табличными редакторами (Excel, Google Spreadsheets, для остальной части работы). Вы можете фильтровать и сортировать данные как угодно, если вам понадобится. Ссылка на файл для работы: https://drive.google.com/open?id=1nnFi37YQ8rxcrjX-gpRzFv6ApXbDhemj

1.1 Подготовка данных

Файл представляет собой результаты выдачи корпуса Aranea по двум запросам: I’d rather + verb и I’d rather not + verb. Ключевые элементы запроса выделены угловыми скобками, в выдаче сохранены грамматические теги для каждого токена. На первом этапе вам понадобится изучить структуру выдачи и представить данные так, чтобы их можно было поместить в таблице в следующих колонках:

Удалите строки, в которых после not следует не-глагол, если такие найдутся (в том числе и если это глагол, он он размечен неправильно — сейчас мы не будем исправлять ошибки автоматической разметки). Грамматические теги нужно также удалить. Давайте сравним контексты употребления конструкции с отрицанием и без отрицания.

1.2 Сводные таблицы

Постройте сводную таблицу по полям Target2 и Target3. Узнайте количество конструкций с not и без not. Для каждого из этих типов выясните количество употреблений каждого из глаголов.

1.3 Частотный ранг

На каком месте в частотном списке глаголов в конструкции I’d rather not + verb идет глагол, который чаще всего употребляется в конструкции без отрицания I’d rather + verb? Укажите ниже этот глагол и его частотный ранг (место в частотном списке).

1.4 Относительная частота

Рассчитайте в таблице для этого слова относительную частоту в ipm в обеих конструкциях. Укажите ниже оба числа с точностью до одного знака после запятой. Напомним, что imp рассчитывается по формуле Occurrences / CorpusSize * 1 000 000, где CorpusSize равен 120 миллионам словоупотреблений.

1.5 Сравнение списков

Какие глаголы, встречающиеся в конструкции без отрицания, не встречаются в конструкции с отрицанием в вашей выдаче? Чтобы ответить на этот вопрос, скопируйте частотные списки глаголов в каждой конструкции на новый лист и воспользуйтесь функцией ПОИСКПОЗ (MATCH). Ниже укажите тот из этих глаголов, который чаще всего встречается в конструкции без отрицания, и его абсолютную частоту в этой конструкции.

Другие полезные типовые задания для подготовки

2.1 Поставьте фильтр на столбец Target2, найдите все строки, в которых в этом столбце указано отрицание.

2.2 Чтобы приблизительно установить, в какой стране создан файл (по доменному расширению), разделите столбец SourceText на несколько (Даннные > Текст по столцам).

2.3 Для сводной таблицы постройте график (столбчатую диаграмму), в котором сопоставляются вхождения с отрицанием и без него для четырех самых частотных глаголов.

3.1 Скачайте выдачу результатов по запросу … из Национального корпуса русского языка (старая версия) в виде Excel-файла. Пример: https://docs.google.com/spreadsheets/d/1l9EnN1mJVtG3ANgp7Q_HCbOIW68g8-CWn4A0YeBeDLQ/edit?usp=sharing Установите заголовок таблицы (Вид > Заголовки / View > Freeze), оформите его жирным шрифтом. Создайте сводную таблицу распределения количества употреблений по годам (столбец Created), в новой вкладке. Проверьте, что ваши годы не складываются, а считаются как отдельные вхождения (не СУММА / SUM, а СЧЕТ / COUNTA в поле Значения). Создайте график распределения по годам на основе этой таблицы (линейный график).

3.2 Добавьте в таблицу выше столбец Length, укажите длину каждого междометия в символах (формула ДЛСТР / LEN), отсортируйте таблицу по этому столбцу.

3.3 С какой буквы чаще всего начинаются междометия в вашей выборке? Чтобы ответить на этот вопрос, создайте столбец 1stLetter, задайте формулу ЛЕВСИМВ / LEFT. Затем создайте сводную таблицу или воспользуйтесь формулой СЧЕТЕСЛИ / COUNTIF.

Регулярные выражения

Специальных заданий на использование сложных выражений не будет, но всегда полезно повторить и потренировать свои навыки.

Ключевые слова для поиска: regex, regexp, регулярные выражения.

Материалы семинара по регулярным выражениям

Очень подробный справочник

Полезные онлайн-тесты по регулярным выражениям, возьмите первые уровни.