Подготовка к контрольной работе

Контрольная работа охватывает теоретический материал лекций и практическую работу с корпусами (в NoSketchEngine, Aranea), конкордансерами (AntConc), обработку данных в табличном редакторе (текстовые функции, функции подсчета, сводные таблицы).
Разрешается пользоваться конспектами и любыми другими материалами. Однако, имейте в виду, что на выполнение заданий даётся ограниченное время (одна пара), поэтому лучше повторить материал заранее. Контрольная сдается через гугл-форму (ответы на вопросы) и GitHub. В ваш личный репозиторий курса в папку test нужно будет загрузить обработанные вами файлы.
Для работы понадобится заранее установить AntConc на компьютер (ноутбук), с которого она будет выполняться.

Примерные задания:

Найдите топ-10 коллокаций к лексеме бурный (в корпусе Aranea Russicum Minus). Среди слов каких частей речи имеет смысл искать коллокации? Какое окно для поиска коллокаций, справа или слева, вы посоветуете выбрать?
Даны текстовые файлы корпуса стихотворений Бахыта Кенжеева. С помощью AntConc составьте частотный список биграммов. Постройте конкорданс для словоформы тепло. Какая часть речи представлена в текстах чаще всего для данной словоформы?
Дан частотный список наречий газетного корпуса НКРЯ. Загрузите список в Excel, в колонке справа с помощью текстовой функции нахождения правой части строки запишите финаль наречия — две буквы. Составьте частотный сводный список финалей.
Даны результаты выдачи конструкций вида “две большие девочки” и “две больших девочки” в художественных текстах и публицистике. Составьте сводные таблицы встречаемости этих типов конструкций в двух корпусах.

Задания из старых контрольных

Пример варианта контрольной работы: https://docs.google.com/forms/d/e/1FAIpQLSdn0Gg53UWyPigE46Bvi537z4kxKNagfTGY2uB-4wzUYQ2ApQ/viewform

Воспользуйтесь текстовыми (для регулярных выражения) и табличными редакторами (Excel, Google Spreadsheets, для остальной части работы). Вы можете фильтровать и сортировать данные как угодно, если вам понадобится. Ссылка на файл для работы: https://drive.google.com/open?id=1nnFi37YQ8rxcrjX-gpRzFv6ApXbDhemj

1.1 Подготовка данных

Файл представляет собой результаты выдачи корпуса Aranea по двум запросам: I’d rather + verb и I’d rather not + verb. Ключевые элементы запроса выделены угловыми скобками, в выдаче сохранены грамматические теги для каждого токена. На первом этапе вам понадобится изучить структуру выдачи и представить данные так, чтобы их можно было поместить в таблице в следующих колонках:

SourceText - файл источника
Left - левый контекст
Target1 - I’d rather
Target2 - not — если есть
Target3 - последующий глагол
Right - правый контекст

Удалите строки, в которых после not следует не-глагол, если такие найдутся (в том числе и если это глагол, он он размечен неправильно — сейчас мы не будем исправлять ошибки автоматической разметки). Грамматические теги нужно также удалить. Давайте сравним контексты употребления конструкции с отрицанием и без отрицания.

1.2 Сводные таблицы

Постройте сводную таблицу по полям Target2 и Target3. Узнайте количество конструкций с not и без not. Для каждого из этих типов выясните количество употреблений каждого из глаголов.

1.3 Частотный ранг

На каком месте в частотном списке глаголов в конструкции I’d rather not + verb идет глагол, который чаще всего употребляется в конструкции без отрицания I’d rather + verb? Укажите ниже этот глагол и его частотный ранг (место в частотном списке).

1.4 Относительная частота

Рассчитайте в таблице для этого слова относительную частоту в ipm в обеих конструкциях. Укажите ниже оба числа с точностью до одного знака после запятой. Напомним, что imp рассчитывается по формуле Occurrences / CorpusSize * 1 000 000, где CorpusSize равен 120 миллионам словоупотреблений.

1.5 Сравнение списков

Какие глаголы, встречающиеся в конструкции без отрицания, не встречаются в конструкции с отрицанием в вашей выдаче? Чтобы ответить на этот вопрос, скопируйте частотные списки глаголов в каждой конструкции на новый лист и воспользуйтесь функцией ПОИСКПОЗ (MATCH). Ниже укажите тот из этих глаголов, который чаще всего встречается в конструкции без отрицания, и его абсолютную частоту в этой конструкции.

Другие полезные типовые задания для подготовки

2.1 Поставьте фильтр на столбец Target2, найдите все строки, в которых в этом столбце указано отрицание.

2.2 Чтобы приблизительно установить, в какой стране создан файл (по доменному расширению), разделите столбец SourceText на несколько (Даннные > Текст по столцам).

2.3 Для сводной таблицы постройте график (столбчатую диаграмму), в котором сопоставляются вхождения с отрицанием и без него для четырех самых частотных глаголов.

3.1 Скачайте выдачу результатов по запросу … из Национального корпуса русского языка (старая версия) в виде Excel-файла. Пример: https://docs.google.com/spreadsheets/d/1l9EnN1mJVtG3ANgp7Q_HCbOIW68g8-CWn4A0YeBeDLQ/edit?usp=sharing Установите заголовок таблицы (Вид > Заголовки / View > Freeze), оформите его жирным шрифтом. Создайте сводную таблицу распределения количества употреблений по годам (столбец Created), в новой вкладке. Проверьте, что ваши годы не складываются, а считаются как отдельные вхождения (не СУММА / SUM, а СЧЕТ / COUNTA в поле Значения). Создайте график распределения по годам на основе этой таблицы (линейный график).

3.2 Добавьте в таблицу выше столбец Length, укажите длину каждого междометия в символах (формула ДЛСТР / LEN), отсортируйте таблицу по этому столбцу.

3.3 С какой буквы чаще всего начинаются междометия в вашей выборке? Чтобы ответить на этот вопрос, создайте столбец 1stLetter, задайте формулу ЛЕВСИМВ / LEFT. Затем создайте сводную таблицу или воспользуйтесь формулой СЧЕТЕСЛИ / COUNTIF.

Регулярные выражения

Специальных заданий на использование сложных выражений не будет, но всегда полезно повторить и потренировать свои навыки.

Ключевые слова для поиска: regex, regexp, регулярные выражения.

Материалы семинара по регулярным выражениям

Очень подробный справочник

Полезные онлайн-тесты по регулярным выражениям, возьмите первые уровни.