lingdata

Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ

View the Project on GitHub olesar/lingdata

ELAN - токенизация, грамматическая разметка, импорт/экспорт

В этом практикуме мы будем работать с расшифровками, созданными вами ранее. Для разных слоев реплик и переводов мы создадим дочерние слои с разметкой на уровне слова.

1.1 Токенизация

Письменный текст, в том числе письменную расшифровку устного текста, в корпусной разметке принято делить на предложения, а предложения, в свою очередь, на токены. К токенам, в частности, относятся:

1.2 Токенизация слоя в ELAN

2.1. Частеречная разметка токенов

Если у вас нет слоя частей речи (POS), импортируйте его из файла образца. Переименуйте его и перепривяжите к слою Words одного из говорящих. (Слой -> Изменить…)

3. Конвертация между ELAN и TextGrid

3.1. Экспорт в TextGrid

Разметку .eaf файла можно представить в TextGrid вьюере и сохранить в табличном формате

3.2. Импорт из TextGrid