Домашнее задание “Разработка фрагмента учебного корпуса”, часть 5
Итоговая сдача проекта
В этой части вам предстоит:
- создать финальную версию лексико-грамматической разметки на основе обсуждения расхождений в двух разметках
- импортировать слои с разметкой части речи и грамматических признаков для каждого токена
- разметить слои с разметкой жестов и интонации
Что положить в репозиторий lingdata
, в папку LiveCorpus
:
- файл с расширением
.manual3.conllu
(финальная версия лексико-грамматической разметки вашего фрагмента интервью в табличном формате conllu)
- файл с расширением
.final.eaf
(финальная версия файла, размеченного в ELAN)
- файл с расширением
.final.textgrid.tsv
(файл, экспортированный из ELAN, со всеми слоями разметки)
Проверьте также, что таблица с метаинформацией содержит актуальные сведения о вашем репозитории, ссылку на видеофайл, время начала-окончания размеченного фрагмента, а метаинформация соответствует разметке в ELAN.
Советы, как выполнить тот или иной этап домашнего задания, см. в конспекте семинара 5. Не забывайте создавать копии исходных файлов перед началом работы.
Пожалуйста, удалите все лишние (например, default
) и дублирующиеся слои (например, для токенов) из разметки в ELAN. Для каждого говорящего у вас должны остаться слои вида:
- text@aaa1999f – для расшифровок реплик
- words@aaa1999f – для токенов
- pos@aaa1999f – для части речи
- gram@aaa1999f - для грамматических признаков
- gesture@aaa1999f – для описания, как выглядит жест
- gestMeaning@aaa1999f – для интерпретации функции жеста в коммуникации
- intonation@aaa1999f – для типа интонации
Проверьте, что в свойствах слоя указан правильный Тип, ник говорящего, ник разметчика, родительский слой (если есть).
Если по какой-то причине у вас отсутствует разметка в слое, все равно создайте такой слой.
Файл .final.textgrid.tsv
мы будем использовать для автоматической проверки вашего задания и подготовки поисковых индексов. Чтобы создать его, выберите
Файл > Экспорт > Текст с разделителями...
и поставьте чекбоксы для всех слоев. Проверьте, что в экспортированной версии в каждой строке есть столбцы с названием слоя, ником говорящего, временем начала и окончания, самой аннотацией.
Важные ссылки
- в результате в вашей папке LiveCorpus должны лежать файлы
.eaf
, .conllu
, .manual1.conllu
, .manual3.conllu
, .final.eaf
, .final.textgrid.tsv
с разметкой вашего фрагмента интервью, а также файл .manual2.conllu
с разметкой интервью вашего коллеги.