Домашнее задание “Разработка фрагмента учебного корпуса”, часть 1
Тема года - интервью на YouTube
Как найти ролик и правильный фрагмент?
- это должен быть диалог, должны быть вопросы и ответы
- говорящие - носители русского языка старше 18 лет
- содержание может быть любым, но без большого количества CodeSwitching (переключений на другой язык)
- фрагмент, который вы планируете размечать, должен быть длиною в 5-10 минут, лучше одним куском
- в рамках фрагмента должны быть видны жестикуляция и мимика говорящих
- чем более спонтанно говорит человек, свободно жестикулирует, тем лучше - будет что размечать и анализировать
- языковые ошибки, запинки, шероховатости - наоборот, хорошо, будет что размечать и анализировать
Важные ссылки
- метаинформация - заполните таблицу
- все файлы, которые будут создаваться для проекта, должны лежать в репозиторий LiveCorpus (капитализация именно такая) на вашем аккаунте GitHub - но на этом этапе никаких файлов пока не требуется
Метаразметка записей
Добавьте в таблицу
- сведения о вашей записи, таймкоды фрагмента, который вы будете размечать, дайте название записи
- имя файла с разрешением - если вы скачали запись, назовите ее внятным именем (в латинице). У ELAN есть некоторые ограничения на форматы видео-файлов, но в целом все широкораспространенные форматы поддерживаются.
- данные о ВСЕХ говорящих, которые сказали более 10 слов подряд в выбранном вами фрагменте, включая проходивших мимо операторов и проч.
- ник говорящего должен иметь вид
@psn2001m
(латиницей), сначала собачка, потом инициалы (в порядке имя-отчество-фамилия), потом год рождения, потом пол говорящего (m - мужской, f - женский). Если отчество отсутствует, год рождения неизвестен, пол вы не затрудняетесь определить, можно ограничиться более простой записью вида @a2000, указав гипотетический год рождения
Если говорящих в выбранном фрагменте несколько (в том числе это можете быть вы или человек за кадром), заполняйте следующие строки в таблице сразу под строкой с названием файла.
Если видеороликов или выделенных фрагментов в ролике несколько, также добавляйте новые строки.
Если какую-то информацию получить или определить хотя бы примерно нельзя, оставляйте поле пустым.