Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)
Людям свойственно делать ошибки. Иногда не хватает опыта, иногда наступает усталость. Особенно легко пропустить ошибку, сделанную машиной.
Поэтому при подготовке данных лингвисты, психологи и т.д. используют метод двойной слепой проверки. Его суть в том, что разметка ведется независимо
двумя разметчиками, а затем они (или кто-то третий, более опытный) сравнивают результаты и обсуждают расхождения.
Это задание похоже на предыдущее, но вам нужно будет работать с данными вашего однокурсника. Пожалуйста, нам очень важна независимость мнений, не пользуйтесь чужим файлом с ручной проверкой. Если ваша разметка будет “улучшенной версией” файла коллеги, это будет выглядеть подозрительно.
.conllu
) из папки LiveCorpus вашего коллеги (его имя будет указано в ведомости с оценками).manual2.conllu
и работайте в ней. Метка файла (название до расширения) должна оставаться той же, как и у файла с автоматической разметкой.manual1.conllu
и manual2.conllu
. Для этого в онлайн-сервисе UDpipe загрузите файл и,
сняв чекбоксы Tag and Lemmatize
и Parse
, нажмите Process input
. Если сообщений об ошибке не поступает, ваши файлы имеют правильную структуру.Category=Value|Category=Value|..
, категории идут не по алфавитуПримечание Если ваш коллега не выполнил предыдущее задание или вы не можете найти его файла, сообщите ассистенту - мы дадим вам другой файл для работы.
lingdata
на GitHub положите файл с исправленной вами вручную разметкой (.manual2.conllu
).eaf
, conllu
, .manual1.conllu
и manual2.conllu
.