Домашнее задание “Разработка фрагмента учебного корпуса”, часть 4

Лексико-грамматическая разметка текста интервью (второй этап)

Людям свойственно делать ошибки. Иногда не хватает опыта, иногда наступает усталость. Особенно легко пропустить ошибку, сделанную машиной.
Поэтому при подготовке данных лингвисты, психологи и т.д. используют метод двойной слепой проверки. Его суть в том, что разметка ведется независимо двумя разметчиками, а затем они (или кто-то третий, более опытный) сравнивают результаты и обсуждают расхождения.

Это задание похоже на предыдущее, но вам нужно будет работать с данными вашего однокурсника. Пожалуйста, нам очень важна независимость мнений, не пользуйтесь чужим файлом с ручной проверкой. Если ваша разметка будет “улучшенной версией” файла коллеги, это будет выглядеть подозрительно.

Cкачайте файл с автоматической разметкой (.conllu) из папки LiveCorpus вашего коллеги (его имя будет указано в ведомости с оценками).
Сохраните копию файла с расширением manual2.conllu и работайте в ней. Метка файла (название до расширения) должна оставаться той же, как и у файла с автоматической разметкой.
Исправьте ошибки.
В конце второй раз заполните гугл-форму (раунд дз5), указав отдельные интересные (и не очень) ошибки автоматической разметки форма.
Проведите техническую валидацию двух проверенных вами файлов, manual1.conllu и manual2.conllu. Для этого в онлайн-сервисе UDpipe загрузите файл и, сняв чекбоксы Tag and Lemmatize и Parse, нажмите Process input. Если сообщений об ошибке не поступает, ваши файлы имеют правильную структуру.
Типичные ошибки:
- в строке меньше или больше 10 столбцов
- грамматические признаки не строятся по признаку Category=Value|Category=Value|.., категории идут не по алфавиту
- теги грамматических признаков и частей речи содержат не-латинские буквы
  Если вы не понимаете, где ошибка, сообщите ассистенту.

Примечание Если ваш коллега не выполнил предыдущее задание или вы не можете найти его файла, сообщите ассистенту - мы дадим вам другой файл для работы.

Важные ссылки

в папку LiveCorpus вашего репозитория lingdata на GitHub положите файл с исправленной вами вручную разметкой (.manual2.conllu)
UDpipe – онлайн-сервис для разметки, модель Russian-SynTagRus
в таблице метаинформация лежат сведения о вашем репозитории и названии видеофайла (если вы забыли и не можете найти на домашнем компьютере)
в результате в вашей папке LiveCorpus должны лежать файлы .eaf, conllu, .manual1.conllu и manual2.conllu.