lingdata

Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ

View the Project on GitHub olesar/lingdata

Проект по разметке в ELAN

Дедлайн: 6 ноября 23:59 (у всех групп)

Вам предстоит разметить ещё 4 минуты записи.

Основные требования к фрагменту:

Хорошо (но не обязательно) наличие и монологической, и диалогической речи.

Проверьте, что в таблице с метаинформацией указаны временные метки выбранных фрагментов (см. образец, столбцы timecode_hw и timecode_project)

Оцениваться будут все 5 минут разметки, поэтому можно и нужно исправлять ошибки и неточности во фрагменте с домашним заданием. Если вы в для 4х минут проекта берёте другое видео, минуту из дз всё равно можно и нужно править. И загружать заново с пометкой -project.

Чек-лист

Добавьте -project в конец названия файла. (например, Cherepovets_pal1964-project.eaf)

Какие нужны слои

Особенности разметки этих слоёв (типы, стереотипы) такие же, какие были в домашних заданиях.

Как не потерять ранее сделанную токенизацию начала записи? Во-первых, вы можете сделать копию вашего слоя, а потом посмотреть, что будет, если токенизировать данные в этот слой с настройкой сохранения информации в слое. Во-вторых, вы можете создать новый слой, например, с именем words1@..., а затем провести совмещение двух слоев с токенизацией в тот, который называется words@....

Если в вашем файле после домашних заданий оказались и другие слои (например, из бонусных заданий), не удаляйте их. Доразмечать их не нужно. Кстати, вы можете скрывать их, чтобы они не мешали вам работать.