lingdata

Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ

View the Project on GitHub olesar/lingdata

Практикум “Национальный корпус русского языка”. Часть 1

Цель этого практикума - ознакомиться с языком запросов и типами лингвистической информации, доступными при поиске по Основному корпусу.

1. Точный поиск

примеры запросов: подыми, надо же было, расти, опал и др. (скриншот)

Страница результатов: количество документов и вхождений

Статистика вхождений - сколько раз слово встречается в корпусе. Количество документов - в скольких текстах встречается слово. В блоке ниже после двоеточия запишите статистику по документам и вхождениям для слова подыми, а также ответьте на вопрос 1.3.

# 1.1 Количество документов: 
# 1.2 Количество вхождений: 
# 1.3 Почему количество документов меньше количества вхождений? Ответ: 

2. Разборы у слов в корпусе

Кликнув мышкой на любом слове, вы откроете всплывающее окошко с его характеристиками: начальной формой (леммой), грамматическими показателями, семантическими признаками и т.д.

# 2.1 К какой части речи принадлежит форма _подыми_ в первом предложении выдачи? Запишите ее помету: 

3. Лексико-грамматический поиск

В поле Слово введите лемму слова (например, “поднять” для всех форм типа “поднял”, “поднимет” и т. д.). Обратите внимание, у лексико-грамматического поиска своя кнопка Искать.

Специальные символы

* : нач* задаст поиск всех лемм типа начало, начать, начинать, начинить. *ча задаст поиск всех лемм типа чукча, буча, молча
- (НЕ) : минус перед словом исключает его из запроса. Пример: *вед -швед (все слова на *вед, кроме швед) Неправильно: “*вед - швед” (никогда не ставьте пробел после минуса) | : сидя | лежа | стоя найдет все три наречия (но только в тех текстах, где они размечены, как наречия)
& или просто пробел (И) : достичь достигнуть найдет в корпусе все формы, размеченные двумя леммами
"словоформа" : в поле Слово строка без кавычек задает поиск по всем формам слова (задается начальная форма), строка в кавычках задает поиск по точной словоформе)
Другие примеры запросов: посол -"после", трудно* -трудно -трудност*.
Задание 3.1 Впишите количество вхождений слов, начинающихся на цы-, но не цыган, цыпочки, цыпленок, цыц

# 3.1 Ответ: 

Настройки сортировки: по дате создания, по правому контексту. Формат выдачи KWIQ.

Задание 3.2-3.3 Укажите год создания самого раннего текста Основного корпуса, включающего слова из запроса 3.1, а также лемму первого по времени вхождения.

# 3.2 Первое вхождение (год): 
# 3.3 Первое вхождение (лемма): 

Задание 3.4 Мы уже предлагали поискать словосочетание баба с возу с помощью точного поиска. Почему строка баба с возу (набранная вместе в поле Слово лексико-грам. поиска) не будет найдена в корпусе?

# 3.4 Ответ: 

4. Поиск по грамматическим признакам

См. всплывающее окно по ссылке “выбрать” над полем Грамм. признаки.
Найдите все употребления аномальных форм повелительного наклонения глагола в ед. числе, отсортируйте по найденным формам по алфавиту.
Подсказка: задать грамматические признаки глагол, повелительное наклонение, ед. число, аномальная форма; отсортировать по правому или левому контексту с учетом найденного слова

# 4.1 Самая последняя по алфавитному порядку словоформа: 

5. Задать подкорпус: Корпус со снятой лексико-грамматической омонимией.

В этом корпусе (“снятнике”) у грамматически неоднозначных форм (типа стали, белка) были удалены нерелевантные грамматические разборы. Запишите объем этого корпуса на момент поиска:

# 5.1 Объем снятника: 

6. “Вторые” падежи и другие “дополнительные” грамматические формы

См. пометы падежей в разделе Морфология
Примеры запросов: словоформа “лесу” как предложный2, “сахару” как родительный 2, все формы императива2.
Задание 6.1 Сколько уникальных лемм имеют счетную форму?

# 6.1 Лемм со счетной формой: 

7. Поиск по нескольким словам: добавление 3-го и т.д. слов стрелочкой справа. Расстояние между словами. Поиск по дополнительным признакам.

Найдите (в подкорпусе со снятой омонимией) все предложения, похожие по структуре на “Мама мыла раму”. Сравните число вхождений с общим количеством предложений в подкорпусе.
Подсказка:
Слово1, грам.признаки: сущ., одуш., ед. ч., им. падеж
Слово2, грам.признаки: глагол, прош. вр., ед. число
Слово3: грам.признаки: сущ., неодуш., ед. ч., вин. падеж
Дополнительные признаки:
Слово1 - в начале предложения, с заглавной буквы
Слово3 - в конце предложения, перед точкой
Чтобы исключить шум: Слово2 - выбрать доп. признаки перед любым знаком препинания + после любого знака препинания, затем перед каждым поставить “минус”: -amark -bmark

# 7.1 Число вхождений: 

Cбросить подкорпус

через “Задать подкорпус” -> Очистить подкорпус (кнопка внизу страницы)

8. Поиск по семантическим признакам (классы слов, выделенные по общему значению).

Примеры запросов:

а) найти все глаголы речи
б) найти имена лиц с уменьшительно-ласкательным значением, но не на -чка, -нька

(подсказка) Запишите фамилию самого юного автора, в тексте которого встречается имя лица с уменьшительно-ласкательным значением, но не на -чка, -нька

# 8.1 Фамилия автора: 

9. Случайная выдача (Настройки -> Упорядочить…). Выгрузка результатов в оффлайн.

Если примеров много, будут выданы в случайно отсортированном порядке примеры из первых нескольких тысяч результатов поиска.
Для выгрузки результатов перейдите по ссылке Скачать несколько первых результатов выдачи в формате Excel. Откройте файл в редакторе таблиц, изучите содержание столбцов.

10. Поиск по словообразовательным признакам

Примеры заданий: найти слова с приставкой вс-. Сравнить с результатами простого запроса со звездочкой вс*, без учета словообразовательных признаков.
Подсказка: Откройте всплывающее окно выбора словообр. признаков.

__Текст___: вс   
__статус__: префикс   

Полезная информация

  1. На сайте корпуса изучите основную информацию о составе корпуса и включенных в него материалах:
    • что такое корпус?
    • состав и структура корпуса
  2. Откройте раздел “поиск в корпусе”

  3. Инструкция по работе с корпусом
    • ссылка “Инструкция” на страницах поиска
    • см. также всплывающие подсказки (?) на странице поиска
    • На страницах Морфология, Семантика и др. (в меню главной страницы корпуса) можно узнать расшифровку корпусных помет