lingdata2020

Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)

View the Project on GitHub olesar/lingdata2020

Разметка жестов, интонационных паттернов, импорт морфологической информации

  1. Создайте слои вида gesture@aaa1989f, `gestMeaning@aaa1989f, intonation@aaa1989f для каждого говорящего.

У слоев gesture@... Тип слоев gestures, у слоев gestMeaning@... Тип слоев gesture_meaning.

В слое gesture@... мы будем характеризовать жестовые реплики по внешнему виду: активный орган, характер движения, ориентация (например, левая ладонь обращена вверх или к говорящему), конфигурация, а также наличие препятствий/спойлеров или участие предметов/аксессуаров. Характеристики даются в свободной форме: описательно или с использованием известных названий для жестов.
Граница жестовой реплики включает в себя экскурсию (выход на жест), активную фазу и удержание/рекурсию. Если жесты переходят один в другой, то граница между ними ставится в начале перехода к следующему жесту.
В слое gestMeaning@... указывается (в произвольной форме) значение жеста – его функция в коммуникации: указательный жест, изобразительный жест, поддержка коммуникации (собеседника или собственной речи), выражение эмоции и т.д.

Мы будем использовать упрощенную классификацию типов интонации:

Сначала нужно будет создать Тип слоев intonation со Стереотипом Symbolic Association.
Затем создать слой для каждого говорящего, указав в качестве родительского слоя слой с репликами.

  1. Импорт из TextGrid
    Файл > Импорт > Текст с разделителями (CSV)
    Укажите, какие столбцы какому типу информации соответствуют (имя слоя, начальное время, конечное время, аннотация).
    После этого нужно указать свойства каждого слоя, так как TextGrid эту информацию не хранит.
    Тип – Импортируйте типы слоев из файла-образца ELAN или создайте новый тип слоя сами, если нужно, чтобы у вас появились типы part of speech, grammatical features.
    Слой - Изменить – задайте свойства слоя (название, метку говорящего, разметчика, родительский слой, язык).

Полезное

Сравнение двух версий разметки

В Notepad++ установите плагин Compare (Плагины > Менеджер плагинов > Compare > Установить).
Откройте два файла в редакторе.
В меню выберите Плагины > Compare > Compare (Plugins > Compare Menu > Compare).
Скриншоты тут.

Подготовка файла c морфологической разметкой к импорту в ELAN

Сделайте копию вашего файла с морфологической разметкой. Информацию из последнего стобца conllu нужно перенести в отдельные столбцы, поместив их в начале файла. В Notepad++ используйте регулярные выражения для замены, чтобы разбить текстовую строку на фрагменты и переставить их местам.
Например, разобьем мысленно данную строку на пять подстрок, обратив внимание, что символ табуляции \t и решетка # могут быть использованы как обоначения границ подстрок.

Найти (в режиме поиска по регулярным выражениями (regex)):
^(.*\t)(.*?)#(.*?)#(.*?)#(.*?)$

Заменить на:
\2\t\4\t\5\t\1

Какие символы регулярных выражений мы здесь использовали?