Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)
gesture@aaa1989f, `gestMeaning@aaa1989f, intonation@aaa1989f для каждого говорящего.У слоев gesture@... Тип слоев gestures, у слоев gestMeaning@... Тип слоев gesture_meaning.
В слое gesture@... мы будем характеризовать жестовые реплики по внешнему виду: активный орган, характер движения, ориентация (например, левая ладонь обращена вверх или к говорящему), конфигурация, а также наличие препятствий/спойлеров или участие предметов/аксессуаров. Характеристики даются в свободной форме: описательно или с использованием известных названий для жестов.
Граница жестовой реплики включает в себя экскурсию (выход на жест), активную фазу и удержание/рекурсию. Если жесты переходят один в другой, то граница между ними ставится в начале перехода к следующему жесту.
В слое gestMeaning@... указывается (в произвольной форме) значение жеста – его функция в коммуникации: указательный жест, изобразительный жест, поддержка коммуникации (собеседника или собственной речи), выражение эмоции и т.д.
Мы будем использовать упрощенную классификацию типов интонации:
вопрос да-нетвопрос специальныйнарративконтраствосклицаниеобрывнеясноСначала нужно будет создать Тип слоев intonation со Стереотипом Symbolic Association.
Затем создать слой для каждого говорящего, указав в качестве родительского слоя слой с репликами.
part of speech, grammatical features.В Notepad++ установите плагин Compare (Плагины > Менеджер плагинов > Compare > Установить).
Откройте два файла в редакторе.
В меню выберите Плагины > Compare > Compare (Plugins > Compare Menu > Compare).
Скриншоты тут.
Сделайте копию вашего файла с морфологической разметкой. Информацию из последнего стобца conllu нужно перенести в отдельные столбцы, поместив их в начале файла.
В Notepad++ используйте регулярные выражения для замены, чтобы разбить текстовую строку на фрагменты и переставить их местам.
Например, разобьем мысленно данную строку на пять подстрок, обратив внимание, что символ табуляции \t и решетка # могут быть использованы как обоначения границ подстрок.

Найти (в режиме поиска по регулярным выражениями (regex)):
^(.*\t)(.*?)#(.*?)#(.*?)#(.*?)$
Заменить на:
\2\t\4\t\5\t\1
Какие символы регулярных выражений мы здесь использовали?
. – любой символ.* – повтор любого символа от 0 до бесконечного количества раз.*? – то же, но ленивый поиск - до первого элемента, который указан после знака вопроса\t – символ табуляции^ – начало строки$ – конец строки\1 – при замене вставить первую из найденных подстрок (подстрока в поиске указывается скобками)\2, \3.. – то же для второй, третьей и т.д. строки