lingdata

Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ

View the Project on GitHub olesar/lingdata

ДЗ3. “Разработка фрагмента учебного корпуса”, часть 1

Задачей этого блока заданий является подготовка материалов для учебного корпуса LiveCorpus. Вам предстоит:

Но не всё сразу.

Запись видеоматериалов для корпуса

Информант

В этом году мы будем записывать речь носителей регионального русского (не москвичей). Предлагаем студентам не из Москвы, Московской области и Эквадора побыть в роли информантов, а остальным потренироваться в записи видео.

Если вы категорически против быть информантом (имеете право), напишите нам.

Мы распределили рандомным образом не-москвичей по москвичам (вас не чётко поровну, поэтому есть несколько троек, а не пар). Вы можете меняться как угодно, но желательно, чтобы все не-москвичи побыли информантами.

Запись

Длительность: около 20 минут (минимум 15, но лучше больше)

Формат: любой при хорошем качестве (идеальный - формат с минимальным сжатием)

Должна быть хорошо видна жестикуляция (то есть как минимум верхняя часть туловища, РУКИ)

Перед началом содержательной части записи информант должен дать устное согласие на запись: “Я, такой-то такой-то, не возражаю, что эта и другие сегодняшние записи моей речи будут использованы в учебных и научных целях”, дальше нужно назвать город и дату. Согласие должно остаться на видео/аудио.

Что записываем: спонтанную речь. Придумайте нестандартную речевую активность для информанта, попросите объяснить, как добраться от одного места до другого (от школы информанта до дома), как играть в настольную игру (не самую его любимую, чтобы это не было заученным текстом), спросите, как человек будет действовать в гипотетической ситуации, можно задавать неочевидные вопросы о жизни и т.д.

Выбор фрагмента для разметки

В ходе проекта вам предстоит разметить 5 минут видео. (В этом дз от вас требуется первоначальная разметка только 30 секунд из 5 минут.)

Как выбрать фрагмент?

Выберите в паре два фрагмента по 5 минут (а в тройке три фрагмента). Они не обязательно должны идти подряд. Фрагменты должны быть разные, не пересекаться.

Один фрагмент интервьюеру, другой информанту. “Немосквичи” при желании могут между собой поменяться фрагментами, чтобы размечать не себя, а кого-то другого.

Не режьте видео! Работайте дальше с целиковым!

Файлохранилище

Файлы должны быть названы в формате Irkutsk_jms2005.avi, где первая часть - название города/региона информанта (Saint-Petersburg, NizhnyNovgorod), затем идут инициалы информанта (например, jms для Юлия Михайловна Щепкина) и его год рождения. Положите файл в папку и дайте ссылку на него в таблице, заполнив поля с метаинформацией. Если запись по каким-то причинам разбилась на несколько файлов, соедините их. (Не рекомендуется выкладывать медиафайлы на GitHub, так как он не предназначен для хранения объемных данных.)

Видео в папку загружается 1 раз, а в таблице должно быть по строчке на разметчика.

Расшифровка 30 секунд фрагмента

(Совет: Не используйте кириллицу в названиях папок на пути к редактору ELAN, мультимедийным файлам и файлам, которые создает ELAN.)

Бонусное задание

Идеально выполненное домашнее задание оценивается в 8 баллов. Бонусное задание не является обязательным и позволяет получить 9-10 баллов, если основная часть выполнена на 8. Выполнение бонусного задания требует много времени. Ассистенты не консультируют по поводу бонусных заданий.

Так выглядит гораздо более сложная разметка реплик в корпусе “Рассказы о сновидениях”.
Изучите правила упрощённой (не полной, не минимальной) транскрипции и выполните расшировку 30 секунд вашего фрагмента согласно им.
В ELAN для таких транскрипций нужно создать новые слои с названием вида spokencorpora@aaa1988f.


Подробная инструкция по расшифровке

1. Настройка проекта

Установите свойства слоя (для говорящего @aaa1988f так, но вы укажите ники ваших говорящих):  
* Название слоя `text@aaa1988f`  
* Родительский слой - none   
* Тип - utterance  
Обязательно заполните поля "говорящий" (@aaa1988f), "разметчик" (латиницей - например, название вашего аккаунта на GitHub), язык по умолчанию (русский).  

2. Разметка реплик

* ALT + потянуть мышкой в середине аннотации -- чтобы подвинуть всю аннотацию влево/вправо  
* ALT + потянуть мышкой на левой/правой границе аннотации -- чтобы подвинуть левую/правую границу  
* ALT + d - удалить реплику (работает также копипейст и контекстное меню по правой кнопке мышки)  
* Двойной клик - редактировать содержание   
* Shift + Space - проиграть выделенную аннотацию    
В выделенной аннотации:
* Аннотация > Разбить... - разобъет посередине на две  
Чтобы разбить в конкретном месте аннотации, в контекстном меню выбрать Разбить аннотацию...
* Аннотация > Объединить со следующей / c предыдущей  

Совет 1: можете установить замедленное проигрывание: Регулировка > Скорость…

Совет 2: Не забывайте регулярно сохранять файл. Можно установить автосохранение: Файл > Автосохранение резервной копии > 5 минут

Совет 3: если вы пишете не очень грамотно, экспортируйте файл с разметкой в текст с разделителями (Файл > Экспорт) и проверьте его в любом сервисе проверки орфографии. Это сохранит много сил на следующих этапах работы.

Об особенностях расшифровки записей

Расшифруйте запись так, как вы ее слышите, отражая все оговорки, неправильности, морфологические особенности, порядок слов, сниженную лексику, если есть. Например, то глишь вместо того глядишь, не знам вместо не знаю, сёдни вместо сегодня. Фиксируйте все оговорки, фальстарты и прочие шероховатости спонтанной речи. Записывайте междометия, поддерживающие разговор (ага, ну), слова-паразиты (гм, ммм, эээ), недоговоренные слова (и тут она по= вышла), запинки (гово= сказала) - т. е. все, что вы можете расслышать. Не используйте знаки препинания (исключение - знак вопроса в вопросе и восклицательный при восклицании), микропаузы внутри реплики обозначайте одинарным слэшем.

Примеры расшифровок:

там спрашивают фамилию-то 
Поликарпова / ты с какого года?
ну / это / ро= родители сказали
а / ну да / эээ

Расшифровка записывается в стандартной русской орфографии. Мы не пишем фонетическую транскрипцию, если информант, например, якает (“ой / бяда бяда / огорчение” (с) Домовёнок Кузя), всё равно пишем ой / беда беда / огорчение. При этом лексические, морфологические и синтаксические особенности речи отражаем. Если из-за ударения меняется слово, отражаем это, считаем, что это лексическая особенность. ростить (при ударении на о не пишем “растить`”)

Букву ё на письме отражаем. Пишем “ёлка”, а не “елка”.

Если говорящий говорит очень долго совсем без пауз, ориентируйтесь на синтаксическую и смысловую структуру, интонацию, чтобы разбить его речь на реплики.

Примечание: Мы во многом, но не во всем, ориентируемся на правила расшифровки в Мультимедийном корпусе Национального корпуса русского языка.

Пояснения про запись

Запись должна проводиться в тихом месте (не в кафе и не на улице, где ездят машины, желательно закрыть окна), по возможности без посторонних звуков. Плохо, если в комнате голые стены, лучше, чтобы были книги, картины, ковры и т.п. Старайтесь не говорить параллельно с информантом, дожидайтесь конца реплики.

Если качество записи аудио на диктофоне(телефоне) лучше, чем на камере(телефоне), можете записать дополнительно аудиодорожку, а потом свести аудио и видео. (Чтобы было легко синхронизировать две дорожки, пусть информант в начале записи хлопнет, тогда можно будет соединить по резкому пику на записях.)

Мы записываем именно видео, потому что так можно зафиксировать не только голос, но и жесты, мимику говорящего. Запись можно делать на телефон или видеокамеру. Должно быть хорошо видно лицо и руки говорящего.

- А можно мы в зуме запишем?

- Нашей паре (тройке) совсем неудобно состыковываться по времени. Что делать?

- Мой информант пропал (исчез). Заболел, не выходит на связь и т.д.

- Я безумно хочу записать своего знакомого не с курса и размечать запись с ним.

- Я “немосквич”, меня записывают, но я тоже хочу потренироваться в записи видео с информантом.