Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ
Задачей этого блока заданий является подготовка материалов для учебного корпуса LiveCorpus. Вам предстоит:
Но не всё сразу.
См. подробно дз 2,5.
В ходе проекта вам предстоит разметить 5 минут видео. (В этом дз от вас требуется первоначальная разметка только одной минуты из 5.)
Как выбрать фрагмент?
Выберите в паре два фрагмента по 5 минут (а в тройке три фрагмента). Они не обязательно должны идти подряд. Фрагменты должны быть разные, не пересекаться.
Один фрагмент интервьюеру, другой информанту. “Немосквичи” при желании могут между собой поменяться фрагментами, чтобы размечать не себя, а кого-то другого.
Не режьте видео! Работайте дальше с целиковым!
Файлы должны быть названы в формате Irkutsk_jms2005.avi
, где первая часть - название города/региона информанта (Saint-Petersburg, NizhnyNovgorod), затем идут инициалы информанта (например, jms для Юлия Михайловна Щепкина) и его год рождения.
Положите файл в папку и дайте ссылку на него в таблице, заполнив поля с метаинформацией. Если запись по каким-то причинам разбилась на несколько файлов, соедините их. (Не рекомендуется выкладывать медиафайлы на GitHub, так как он не предназначен для хранения объемных данных.)
Видео в папку загружается 1 раз, а в таблице должно быть по строчке на разметчика.
text@imp1988f
(и слой text@abl2006f, если во фрагменте есть речь интервьюера). Инициалы: имя, отчество, фамилияCherepovets_pal2006.avi
и Cherepovets_pal2006.eaf
.livecorpus
(в вашем репозитории lingdata
)gh-pages
(ветка указана слева сверху над файлами вашего репозитрия)(Совет: Не используйте кириллицу в названиях папок на пути к редактору ELAN, мультимедийным файлам и файлам, которые создает ELAN.)
Идеально выполненное домашнее задание оценивается в 8 баллов. Бонусное задание не является обязательным и позволяет получить 9-10 баллов, если основная часть выполнена на 8. Выполнение бонусного задания требует много времени. Ассистенты не консультируют по поводу бонусных заданий.
Так выглядит гораздо более сложная разметка реплик в корпусе “Рассказы о сновидениях”.
Изучите правила упрощённой (не полной, не минимальной) транскрипции и выполните расшировку минуты вашего фрагмента согласно им.
В ELAN для таких транскрипций нужно создать новые слои с названием вида spokencorpora@aaa1988f
.
Cоздайте новый проект, подключите к нему видеофайл, сохраните файл разметки, назвав так же, как видео
Если вы хотите использовать визуализацию звуковой дорожки в ELAN, переконвертируйте ваше видео в *.wav - файл (с помощью любого онлайн-конвертора, погуглите, например, “mpg to wav online”). В этом случае присоедините сразу видео и аудио к новому проекту.
Импортируйте типы слоев из образца (.eaf файл): Тип > Импорт…
Создайте слой реплик для каждого говорящего: Слой > Новый…
Установите свойства слоя (для говорящего @aaa1988f так, но вы укажите ники ваших говорящих):
* Название слоя `text@aaa1988f`
* Родительский слой - none
* Тип - utterance
Обязательно заполните поля "говорящий" (@aaa1988f), "разметчик" (латиницей - например, название вашего аккаунта на GitHub), язык по умолчанию (русский).
* ALT + потянуть мышкой в середине аннотации -- чтобы подвинуть всю аннотацию влево/вправо
* ALT + потянуть мышкой на левой/правой границе аннотации -- чтобы подвинуть левую/правую границу
* ALT + d - удалить реплику (работает также копипейст и контекстное меню по правой кнопке мышки)
* Двойной клик - редактировать содержание
* Shift + Space - проиграть выделенную аннотацию
В выделенной аннотации:
* Аннотация > Разбить... - разобъет посередине на две
Чтобы разбить в конкретном месте аннотации, в контекстном меню выбрать Разбить аннотацию...
* Аннотация > Объединить со следующей / c предыдущей
Совет 1: можете установить замедленное проигрывание: Регулировка > Скорость…
Совет 2: Не забывайте регулярно сохранять файл. Можно установить автосохранение: Файл > Автосохранение резервной копии > 5 минут
Совет 3: если вы пишете не очень грамотно, экспортируйте файл с разметкой в текст с разделителями (Файл > Экспорт
) и проверьте его в любом сервисе проверки орфографии. Это сохранит много сил на следующих этапах работы.
Расшифруйте запись так, как вы ее слышите, отражая все оговорки, неправильности, морфологические особенности, порядок слов, сниженную лексику, если есть. Например, то глишь вместо того глядишь, не знам вместо не знаю, сёдни вместо сегодня. Фиксируйте все оговорки, фальстарты и прочие шероховатости спонтанной речи. Записывайте междометия, поддерживающие разговор (ага, ну), слова-паразиты (гм, ммм, эээ), недоговоренные слова (и тут она по= вышла), запинки (гово= сказала) - т. е. все, что вы можете расслышать. Не используйте знаки препинания (исключение - знак вопроса в вопросе и восклицательный при восклицании), микропаузы внутри реплики обозначайте одинарным слэшем.
Примеры расшифровок:
там спрашивают фамилию-то
Поликарпова / ты с какого года?
ну / это / ро= родители сказали
а / ну да / эээ
Расшифровка записывается в стандартной русской орфографии. Мы не пишем фонетическую транскрипцию, если информант, например, якает (“ой / бяда бяда / огорчение” (с) Домовёнок Кузя), всё равно пишем ой / беда беда / огорчение
. При этом лексические, морфологические и синтаксические особенности речи отражаем.
Если из-за ударения меняется слово, отражаем это, считаем, что это лексическая особенность. ростить
(при ударении на о не пишем “растить`”)
Букву ё на письме отражаем. Пишем “ёлка”, а не “елка”.
Если говорящий говорит очень долго совсем без пауз, ориентируйтесь на синтаксическую и смысловую структуру, интонацию, чтобы разбить его речь на реплики.
#нрзб#
(в решетках, без пробелов, именно эти четыре буквы)#одновременно#
В случаях невербального общения (например, общий гул без ясно вычлененных реплик, смех, хмыканье) допустимо поставить отдельную реплику, например, #смеется#
.
Увлекаться комментированием всех действий, в том числе заполняющих паузы (“берет сковородку”, “долго глядит в окно”) не нужно. Пожалуйста, не используйте пробелы внутри ремарок.!
, ?
для обозначения восклицательных и вопросительных реплик, а также =
для обозначения обрыва слова.Примечание: Мы во многом, но не во всем, ориентируемся на правила расшифровки в Мультимедийном корпусе Национального корпуса русского языка.