Домашнее задание “Разработка фрагмента учебного корпуса”, часть 3
Лексико-грамматическая разметка текста интервью
Качественно разметить данные с первого раза сложно, поэтому к этой задаче мы будем возращаться несколько раз, улучшая свои навыки.
Детальные инструкции по выполнению см. в конспекте семинара. Как обычно, задавайте вопросы в чатик.
- Экспортируйте слои токенов каждого говорящего из ELAN в текстовый файл с разделителями (табуляцией).
- Переведите ваши данные в формат CONLLU, не потеряв информацию о временных метках и названии слоя.
- Разметьте данные автоматически с помощью UDpipe, моделью Russian-SynTagRus (Tag & Lemmatize) - леммы, части речи, грамматические признаки
- Скачайте разметку в текстовый файл и исправьте ошибки.
- В конце заполните гугл-форму, указав отдельные интересные (и не очень) ошибки автоматической разметки форма.
Важные ссылки
- в папку LiveCorpus вашего репозитория
lingdata
на GitHub положите два файла:
- файл с автоматической разметкой в формате CONLL-U (
.conllu
)
- файл с исправленной вручную разметкой в формате CONLL-U (
.manual1.conllu
)
- UDpipe – онлайн-сервис для разметки, модель Russian-SynTagRus
- в таблице метаинформация лежат сведения о вашем репозитории и названии видеофайла (если вы забыли и не можете найти на домашнем компьютере)
- в результате в папке LiveCorpus должны лежать файлы
.eaf
(его можно обновить, если нужно), conllu
и .manual1.conllu
.