lingdata2020

Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)

View the Project on GitHub olesar/lingdata2020

Подготовка к контрольной работе

В ходе контрольной будет оцениваться умение работать с частотными данными по корпусам и словарям – в NoSketchEngine (Aranea) и табличном редакторе – но главное, умение их интерпретировать.
Вы можете пользоваться любыми материалами, кроме тех, где вы можете получить индивидуальную подсказку по вашему конкретному заданию (иными словами, списывание запрещено). Однако, имейте в виду, что на выполнение задание дается ограниченное время, поэтому повторите материал перед контрольной.

Примерные задания:

Из старых заданий

Воспользуйтесь текстовыми (для регулярных выражения) и табличными редакторами (Excel, Google spreadsheets, для остальной части работы). Вы можете фильтровать и сортировать данные как угодно, если вам понадобится. Ссылка на файл для работы: https://drive.google.com/open?id=1nnFi37YQ8rxcrjX-gpRzFv6ApXbDhemj

1.1 Подготовка данных Файл представляет собой результаты выдачи корпуса Aranea по двум запросам: I’d rather + verb и I’d rather not + verb. Ключевые элементы запроса выделены угловыми скобками, в выдаче сохранены грамматические теги для каждого токена. На первом этапе вам понадобится изучить структуру выдачи и представить данные так, чтобы их можно было поместить в таблице в следующих колонках: SourceText - файл источника Left - левый контекст Target1 - I’d rather Target2 - not – если есть Target3 - последующий глагол Right - правый контекст

Удалите строки, в которых после not следует не-глагол, если такие найдутся (в том числе и если это глагол, он он размечен неправильно - сейчас мы не будем исправлять ошибки автоматической разметки). Грамматические теги нужно также удалить. Давайте сравним контексты употребления конструкции с отрицанием и без отрицания.

1.2 Сводные таблицы Постройте сводную таблицу по полям Target2 и Target3. Узнайте количество конструкций с not и без not. Для каждого из этих типов выясните количество употреблений каждого из глаголов.

1.3 Частотный ранг На каком месте в частотном списке глаголов в конструкции I’d rather not + verb идет глагол, который чаще всего употребляется в конструкции без отрицания I’d rather + verb? Укажите ниже этот глагол и его частотный ранг (место в частотном списке).

1.4 Относительная частота Рассчитайте в таблице для этого слова относительную частоту в ipm в обеих конструкциях. Укажите ниже оба числа с точностью до одного знака после запятой. Напомним, что imp рассчитывается по формуле Occurrences / CorpusSize * 1 000 000, где CorpusSize равен 120 миллионам словоупотреблений.

1.5 Сравнение списков Какие глаголы, встречающиеся в конструкции без отрицания, не встречаются в конструкции с отрицанием в вашей выдаче? Чтобы ответить на этот вопрос, скопируйте частотные списки глаголов в каждой конструкции на новый лист и воспользуйтесь функцией ПОИСКПОЗ (MATCH). Ниже укажите тот из этих глаголов, который чаще всего встречается в конструкции без отрицания, и его абсолютную частоту в этой конструкции.

Другие полезные типовые задания для подготовки

2.1 Поставьте фильтр на столбец Target2, найдите все строки, в которых в этом столбце указано отрицание.

2.2 Чтобы приблизительно установить, в какой стране создан файл (по доменному расширению), разделите столбец SourceText на несколько (Даннные > Текст по столцам).

2.3 Для сводной таблицы постройте график (столбчатую диаграмму), в котором сопоставляются вхождения с отрицанием и без него для четырех самых частотных глаголов.

3.1 Скачайте выдачу результатов по запросу … из Национального корпуса русского языка (старая версия) в виде Excel-файла. Пример: https://docs.google.com/spreadsheets/d/1l9EnN1mJVtG3ANgp7Q_HCbOIW68g8-CWn4A0YeBeDLQ/edit?usp=sharing Установите заголовок таблицы (Вид > Заголовки / View > Freeze), оформите его жирным шрифтом. Создайте сводную таблицу распределения количества употреблений по годам (столбец Created), в новой вкладке. Проверьте, что ваши годы не складываются, а считаются как отдельные вхождения (не СУММА / SUM, а СЧЕТ / COUNTA в поле Значения). Создайте график распределения по годам на основе этой таблицы (линейный график).

3.2 Добавьте в таблицу выше столбец Length, укажите длину каждого междометия в символах (формула ДЛСТР / LEN), отсортируйте таблицу по этому столбцу.

3.3 С какой буквы чаще всего начинаются междометия в вашей выборке? Чтобы ответить на этот вопрос, создайте столбец 1stLetter, задайте формулу ЛЕВСИМВ / LEFT. Затем создайте сводную таблицу или воспользуйтесь формулой СЧЕТЕСЛИ / COUNTIF.