lingdata2020

Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)

View the Project on GitHub olesar/lingdata2020

Домашнее задание “Разработка фрагмента учебного корпуса”, часть 4

Лексико-грамматическая разметка текста интервью (второй этап)

Людям свойственно делать ошибки. Иногда не хватает опыта, иногда наступает усталость. Особенно легко пропустить ошибку, сделанную машиной.
Поэтому при подготовке данных лингвисты, психологи и т.д. используют метод двойной слепой проверки. Его суть в том, что разметка ведется независимо двумя разметчиками, а затем они (или кто-то третий, более опытный) сравнивают результаты и обсуждают расхождения.

Это задание похоже на предыдущее, но вам нужно будет работать с данными вашего однокурсника. Пожалуйста, нам очень важна независимость мнений, не пользуйтесь чужим файлом с ручной проверкой. Если ваша разметка будет “улучшенной версией” файла коллеги, это будет выглядеть подозрительно.

  1. Cкачайте файл с автоматической разметкой (.conllu) из папки LiveCorpus вашего коллеги (его имя будет указано в ведомости с оценками).
  2. Сохраните копию файла с расширением manual2.conllu и работайте в ней. Метка файла (название до расширения) должна оставаться той же, как и у файла с автоматической разметкой.
  3. Исправьте ошибки.
  4. В конце второй раз заполните гугл-форму (раунд дз5), указав отдельные интересные (и не очень) ошибки автоматической разметки форма.
  5. Проведите техническую валидацию двух проверенных вами файлов, manual1.conllu и manual2.conllu. Для этого в онлайн-сервисе UDpipe загрузите файл и, сняв чекбоксы Tag and Lemmatize и Parse, нажмите Process input. Если сообщений об ошибке не поступает, ваши файлы имеют правильную структуру.
    Типичные ошибки:
    • в строке меньше или больше 10 столбцов
    • грамматические признаки не строятся по признаку Category=Value|Category=Value|.., категории идут не по алфавиту
    • теги грамматических признаков и частей речи содержат не-латинские буквы
      Если вы не понимаете, где ошибка, сообщите ассистенту.

Примечание Если ваш коллега не выполнил предыдущее задание или вы не можете найти его файла, сообщите ассистенту - мы дадим вам другой файл для работы.

Важные ссылки