Подготовка к контрольной работе

В ходе контрольной будет оцениваться умение работать с частотными данными по корпусам и словарям – в NoSketchEngine (Aranea) и табличном редакторе – но главное, умение их интерпретировать.
Вы можете пользоваться любыми материалами, кроме тех, где вы можете получить индивидуальную подсказку по вашему конкретному заданию (иными словами, списывание запрещено). Однако, имейте в виду, что на выполнение задание дается ограниченное время, поэтому повторите материал перед контрольной.

Примерные задания:

Найдите топ-10 коллокаций к лексеме бурный (в корпусе Aranea Russicum Minus). Среди слов каких частей речи имеет смысл искать коллокации? Какое окно для поиска коллокаций, справа или слева, вы посоветуете выбрать?
Дана таблица выдачи результатов из корпуса. Составьте частотный список элементов, находящихся в столбце X.
Даны результаты выдачи конструкций вида “две большие девочки” и “две больших девочки” в художественных текстах и публицистике. Составьте сводную таблицу встречаемости этих типов конструкций в двух корпусах, примените критерий хи-квадрат, чтобы оценить связь между употреблением конструкций и сферой функционирования.
Даны два частотных списка. Создайте список слов, которые встречаются в обоих списках.

Из старых заданий

Воспользуйтесь текстовыми (для регулярных выражения) и табличными редакторами (Excel, Google spreadsheets, для остальной части работы). Вы можете фильтровать и сортировать данные как угодно, если вам понадобится. Ссылка на файл для работы: https://drive.google.com/open?id=1nnFi37YQ8rxcrjX-gpRzFv6ApXbDhemj

1.1 Подготовка данных Файл представляет собой результаты выдачи корпуса Aranea по двум запросам: I’d rather + verb и I’d rather not + verb. Ключевые элементы запроса выделены угловыми скобками, в выдаче сохранены грамматические теги для каждого токена. На первом этапе вам понадобится изучить структуру выдачи и представить данные так, чтобы их можно было поместить в таблице в следующих колонках: SourceText - файл источника Left - левый контекст Target1 - I’d rather Target2 - not – если есть Target3 - последующий глагол Right - правый контекст

Удалите строки, в которых после not следует не-глагол, если такие найдутся (в том числе и если это глагол, он он размечен неправильно - сейчас мы не будем исправлять ошибки автоматической разметки). Грамматические теги нужно также удалить. Давайте сравним контексты употребления конструкции с отрицанием и без отрицания.

1.2 Сводные таблицы Постройте сводную таблицу по полям Target2 и Target3. Узнайте количество конструкций с not и без not. Для каждого из этих типов выясните количество употреблений каждого из глаголов.

1.3 Частотный ранг На каком месте в частотном списке глаголов в конструкции I’d rather not + verb идет глагол, который чаще всего употребляется в конструкции без отрицания I’d rather + verb? Укажите ниже этот глагол и его частотный ранг (место в частотном списке).

1.4 Относительная частота Рассчитайте в таблице для этого слова относительную частоту в ipm в обеих конструкциях. Укажите ниже оба числа с точностью до одного знака после запятой. Напомним, что imp рассчитывается по формуле Occurrences / CorpusSize * 1 000 000, где CorpusSize равен 120 миллионам словоупотреблений.

1.5 Сравнение списков Какие глаголы, встречающиеся в конструкции без отрицания, не встречаются в конструкции с отрицанием в вашей выдаче? Чтобы ответить на этот вопрос, скопируйте частотные списки глаголов в каждой конструкции на новый лист и воспользуйтесь функцией ПОИСКПОЗ (MATCH). Ниже укажите тот из этих глаголов, который чаще всего встречается в конструкции без отрицания, и его абсолютную частоту в этой конструкции.

Другие полезные типовые задания для подготовки

2.1 Поставьте фильтр на столбец Target2, найдите все строки, в которых в этом столбце указано отрицание.

2.2 Чтобы приблизительно установить, в какой стране создан файл (по доменному расширению), разделите столбец SourceText на несколько (Даннные > Текст по столцам).

2.3 Для сводной таблицы постройте график (столбчатую диаграмму), в котором сопоставляются вхождения с отрицанием и без него для четырех самых частотных глаголов.

3.1 Скачайте выдачу результатов по запросу … из Национального корпуса русского языка (старая версия) в виде Excel-файла. Пример: https://docs.google.com/spreadsheets/d/1l9EnN1mJVtG3ANgp7Q_HCbOIW68g8-CWn4A0YeBeDLQ/edit?usp=sharing Установите заголовок таблицы (Вид > Заголовки / View > Freeze), оформите его жирным шрифтом. Создайте сводную таблицу распределения количества употреблений по годам (столбец Created), в новой вкладке. Проверьте, что ваши годы не складываются, а считаются как отдельные вхождения (не СУММА / SUM, а СЧЕТ / COUNTA в поле Значения). Создайте график распределения по годам на основе этой таблицы (линейный график).

3.2 Добавьте в таблицу выше столбец Length, укажите длину каждого междометия в символах (формула ДЛСТР / LEN), отсортируйте таблицу по этому столбцу.

3.3 С какой буквы чаще всего начинаются междометия в вашей выборке? Чтобы ответить на этот вопрос, создайте столбец 1stLetter, задайте формулу ЛЕВСИМВ / LEFT. Затем создайте сводную таблицу или воспользуйтесь формулой СЧЕТЕСЛИ / COUNTIF.