Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ
Контрольная работа охватывает теоретический материал лекций и практическую работу с корпусами (в NoSketchEngine, Aranea), конкордансерами (AntConc), обработку данных в табличном редакторе (текстовые функции, функции подсчета, сводные таблицы).
Разрешается пользоваться конспектами и любыми другими материалами. Однако, имейте в виду, что на выполнение заданий даётся ограниченное время (одна пара), поэтому лучше повторить материал заранее.
Контрольная сдается через гугл-форму (ответы на вопросы) и GitHub. В ваш личный репозиторий курса в папку test
нужно будет загрузить обработанные вами файлы.
Для работы понадобится заранее установить AntConc на компьютер (ноутбук), с которого она будет выполняться.
Пример варианта контрольной работы: https://docs.google.com/forms/d/e/1FAIpQLSdn0Gg53UWyPigE46Bvi537z4kxKNagfTGY2uB-4wzUYQ2ApQ/viewform
Воспользуйтесь текстовыми (для регулярных выражения) и табличными редакторами (Excel, Google Spreadsheets, для остальной части работы). Вы можете фильтровать и сортировать данные как угодно, если вам понадобится. Ссылка на файл для работы: https://drive.google.com/open?id=1nnFi37YQ8rxcrjX-gpRzFv6ApXbDhemj
Файл представляет собой результаты выдачи корпуса Aranea по двум запросам: I’d rather + verb и I’d rather not + verb. Ключевые элементы запроса выделены угловыми скобками, в выдаче сохранены грамматические теги для каждого токена. На первом этапе вам понадобится изучить структуру выдачи и представить данные так, чтобы их можно было поместить в таблице в следующих колонках:
Удалите строки, в которых после not следует не-глагол, если такие найдутся (в том числе и если это глагол, он он размечен неправильно — сейчас мы не будем исправлять ошибки автоматической разметки). Грамматические теги нужно также удалить. Давайте сравним контексты употребления конструкции с отрицанием и без отрицания.
Постройте сводную таблицу по полям Target2 и Target3. Узнайте количество конструкций с not и без not. Для каждого из этих типов выясните количество употреблений каждого из глаголов.
На каком месте в частотном списке глаголов в конструкции I’d rather not + verb идет глагол, который чаще всего употребляется в конструкции без отрицания I’d rather + verb? Укажите ниже этот глагол и его частотный ранг (место в частотном списке).
Рассчитайте в таблице для этого слова относительную частоту в ipm в обеих конструкциях. Укажите ниже оба числа с точностью до одного знака после запятой. Напомним, что imp рассчитывается по формуле Occurrences / CorpusSize * 1 000 000, где CorpusSize равен 120 миллионам словоупотреблений.
Какие глаголы, встречающиеся в конструкции без отрицания, не встречаются в конструкции с отрицанием в вашей выдаче? Чтобы ответить на этот вопрос, скопируйте частотные списки глаголов в каждой конструкции на новый лист и воспользуйтесь функцией ПОИСКПОЗ
(MATCH
). Ниже укажите тот из этих глаголов, который чаще всего встречается в конструкции без отрицания, и его абсолютную частоту в этой конструкции.
2.1 Поставьте фильтр на столбец Target2, найдите все строки, в которых в этом столбце указано отрицание.
2.2 Чтобы приблизительно установить, в какой стране создан файл (по доменному расширению), разделите столбец SourceText на несколько (Даннные > Текст по столцам).
2.3 Для сводной таблицы постройте график (столбчатую диаграмму), в котором сопоставляются вхождения с отрицанием и без него для четырех самых частотных глаголов.
3.1 Скачайте выдачу результатов по запросу … из Национального корпуса русского языка (старая версия) в виде Excel-файла. Пример: https://docs.google.com/spreadsheets/d/1l9EnN1mJVtG3ANgp7Q_HCbOIW68g8-CWn4A0YeBeDLQ/edit?usp=sharing
Установите заголовок таблицы (Вид > Заголовки / View > Freeze), оформите его жирным шрифтом.
Создайте сводную таблицу распределения количества употреблений по годам (столбец Created), в новой вкладке. Проверьте, что ваши годы не складываются, а считаются как отдельные вхождения (не СУММА
/ SUM
, а СЧЕТ
/ COUNTA
в поле Значения).
Создайте график распределения по годам на основе этой таблицы (линейный график).
3.2 Добавьте в таблицу выше столбец Length, укажите длину каждого междометия в символах (формула ДЛСТР
/ LEN
), отсортируйте таблицу по этому столбцу.
3.3 С какой буквы чаще всего начинаются междометия в вашей выборке? Чтобы ответить на этот вопрос, создайте столбец 1stLetter, задайте формулу ЛЕВСИМВ
/ LEFT
. Затем создайте сводную таблицу или воспользуйтесь формулой СЧЕТЕСЛИ
/ COUNTIF
.
Специальных заданий на использование сложных выражений не будет, но всегда полезно повторить и потренировать свои навыки.
Ключевые слова для поиска: regex, regexp, регулярные выражения.
Материалы семинара по регулярным выражениям
Полезные онлайн-тесты по регулярным выражениям, возьмите первые уровни.