lingdata2020

Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)

View the Project on GitHub olesar/lingdata2020

Домашнее задание “Разработка фрагмента учебного корпуса”, часть 3

Лексико-грамматическая разметка текста интервью

Качественно разметить данные с первого раза сложно, поэтому к этой задаче мы будем возращаться несколько раз, улучшая свои навыки.
Детальные инструкции по выполнению см. в конспекте семинара. Как обычно, задавайте вопросы в чатик.

  1. Экспортируйте слои токенов каждого говорящего из ELAN в текстовый файл с разделителями (табуляцией).
  2. Переведите ваши данные в формат CONLLU, не потеряв информацию о временных метках и названии слоя.
  3. Разметьте данные автоматически с помощью UDpipe, моделью Russian-SynTagRus (Tag & Lemmatize) - леммы, части речи, грамматические признаки
  4. Скачайте разметку в текстовый файл и исправьте ошибки.
  5. В конце заполните гугл-форму, указав отдельные интересные (и не очень) ошибки автоматической разметки форма.

Важные ссылки