Домашнее задание “Разработка фрагмента учебного корпуса”, часть 3

Лексико-грамматическая разметка текста интервью

Качественно разметить данные с первого раза сложно, поэтому к этой задаче мы будем возращаться несколько раз, улучшая свои навыки.
Детальные инструкции по выполнению см. в конспекте семинара. Как обычно, задавайте вопросы в чатик.

Экспортируйте слои токенов каждого говорящего из ELAN в текстовый файл с разделителями (табуляцией).
Переведите ваши данные в формат CONLLU, не потеряв информацию о временных метках и названии слоя.
Разметьте данные автоматически с помощью UDpipe, моделью Russian-SynTagRus (Tag & Lemmatize) - леммы, части речи, грамматические признаки
Скачайте разметку в текстовый файл и исправьте ошибки.
В конце заполните гугл-форму, указав отдельные интересные (и не очень) ошибки автоматической разметки форма.

Важные ссылки

в папку LiveCorpus вашего репозитория lingdata на GitHub положите два файла:
- файл с автоматической разметкой в формате CONLL-U (.conllu)
- файл с исправленной вручную разметкой в формате CONLL-U (.manual1.conllu)
UDpipe – онлайн-сервис для разметки, модель Russian-SynTagRus
в таблице метаинформация лежат сведения о вашем репозитории и названии видеофайла (если вы забыли и не можете найти на домашнем компьютере)
в результате в папке LiveCorpus должны лежать файлы .eaf (его можно обновить, если нужно), conllu и .manual1.conllu.