Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ
Цель этого практикума - ознакомиться с языком запросов и типами лингвистической информации, доступными при поиске по Основному корпусу.
примеры запросов: подыми, надо же было, расти, опал и др. (скриншот)
Статистика вхождений - сколько раз слово встречается в корпусе. Количество документов - в скольких текстах встречается слово. В блоке ниже после двоеточия запишите статистику по документам и вхождениям для слова подыми, а также ответьте на вопрос 1.3.
# 1.1 Количество документов:
# 1.2 Количество вхождений:
# 1.3 Почему количество документов меньше количества вхождений? Ответ:
Кликнув мышкой на любом слове, вы откроете всплывающее окошко с его характеристиками: начальной формой (леммой), грамматическими показателями, семантическими признаками и т.д.
# 2.1 К какой части речи принадлежит форма _подыми_ в первом предложении выдачи? Запишите ее помету:
В поле Слово введите лемму слова (например, “поднять” для всех форм типа “поднял”, “поднимет” и т. д.). Обратите внимание, у лексико-грамматического поиска своя кнопка Искать.
*
: нач*
задаст поиск всех лемм типа начало, начать, начинать, начинить. *ча
задаст поиск всех лемм типа чукча, буча, молча
-
(НЕ) : минус перед словом исключает его из запроса. Пример: *вед -швед
(все слова на *вед, кроме швед)
Неправильно: “*вед - швед” (никогда не ставьте пробел после минуса)
|
: сидя | лежа | стоя
найдет все три наречия (но только в тех текстах, где они размечены, как наречия)
&
или просто пробел (И) : достичь достигнуть
найдет в корпусе все формы, размеченные двумя леммами
"словоформа"
: в поле Слово строка без кавычек задает поиск по всем формам слова (задается начальная форма), строка в кавычках задает поиск по точной словоформе)
Другие примеры запросов: посол -"после"
, трудно* -трудно -трудност*
.
Задание 3.1 Впишите количество вхождений слов, начинающихся на цы-, но не цыган, цыпочки, цыпленок, цыц
# 3.1 Ответ:
Задание 3.2-3.3 Укажите год создания самого раннего текста Основного корпуса, включающего слова из запроса 3.1, а также лемму первого по времени вхождения.
# 3.2 Первое вхождение (год):
# 3.3 Первое вхождение (лемма):
Задание 3.4 Мы уже предлагали поискать словосочетание баба с возу
с помощью точного поиска. Почему строка баба с возу
(набранная вместе в поле Слово лексико-грам. поиска) не будет найдена в корпусе?
# 3.4 Ответ:
См. всплывающее окно по ссылке “выбрать” над полем Грамм. признаки.
Найдите все употребления аномальных форм повелительного наклонения глагола в ед. числе, отсортируйте по найденным формам по алфавиту.
Подсказка: задать грамматические признаки глагол, повелительное наклонение, ед. число, аномальная форма
; отсортировать по правому или левому контексту с учетом найденного слова
# 4.1 Самая последняя по алфавитному порядку словоформа:
В этом корпусе (“снятнике”) у грамматически неоднозначных форм (типа стали, белка) были удалены нерелевантные грамматические разборы. Запишите объем этого корпуса на момент поиска:
# 5.1 Объем снятника:
См. пометы падежей в разделе Морфология
Примеры запросов: словоформа “лесу” как предложный2, “сахару” как родительный 2, все формы императива2.
Задание 6.1 Сколько уникальных лемм имеют счетную форму?
# 6.1 Лемм со счетной формой:
Найдите (в подкорпусе со снятой омонимией) все предложения, похожие по структуре на “Мама мыла раму”. Сравните число вхождений с общим количеством предложений в подкорпусе.
Подсказка:
Слово1, грам.признаки: сущ., одуш., ед. ч., им. падеж
Слово2, грам.признаки: глагол, прош. вр., ед. число
Слово3: грам.признаки: сущ., неодуш., ед. ч., вин. падеж
Дополнительные признаки:
Слово1 - в начале предложения, с заглавной буквы
Слово3 - в конце предложения, перед точкой
Чтобы исключить шум: Слово2 - выбрать доп. признаки перед любым знаком препинания
+ после любого знака препинания
, затем перед каждым поставить “минус”: -amark -bmark
# 7.1 Число вхождений:
через “Задать подкорпус” -> Очистить подкорпус (кнопка внизу страницы)
Примеры запросов:
(подсказка) Запишите фамилию самого юного автора, в тексте которого встречается имя лица с уменьшительно-ласкательным значением, но не на -чка, -нька
# 8.1 Фамилия автора:
Если примеров много, будут выданы в случайно отсортированном порядке примеры из первых нескольких тысяч результатов поиска.
Для выгрузки результатов перейдите по ссылке Скачать несколько первых результатов выдачи в формате Excel. Откройте файл в редакторе таблиц, изучите содержание столбцов.
Примеры заданий: найти слова с приставкой вс-. Сравнить с результатами простого запроса со звездочкой вс*
, без учета словообразовательных признаков.
Подсказка: Откройте всплывающее окно выбора словообр. признаков.
__Текст___: вс
__статус__: префикс
Откройте раздел “поиск в корпусе”