Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)
gesture@aaa1989f
, `gestMeaning@aaa1989f, intonation@aaa1989f для каждого говорящего.У слоев gesture@...
Тип слоев gestures
, у слоев gestMeaning@...
Тип слоев gesture_meaning
.
В слое gesture@...
мы будем характеризовать жестовые реплики по внешнему виду: активный орган, характер движения, ориентация (например, левая ладонь обращена вверх или к говорящему), конфигурация, а также наличие препятствий/спойлеров или участие предметов/аксессуаров. Характеристики даются в свободной форме: описательно или с использованием известных названий для жестов.
Граница жестовой реплики включает в себя экскурсию (выход на жест), активную фазу и удержание/рекурсию. Если жесты переходят один в другой, то граница между ними ставится в начале перехода к следующему жесту.
В слое gestMeaning@...
указывается (в произвольной форме) значение жеста – его функция в коммуникации: указательный жест, изобразительный жест, поддержка коммуникации (собеседника или собственной речи), выражение эмоции и т.д.
Мы будем использовать упрощенную классификацию типов интонации:
вопрос да-нет
вопрос специальный
нарратив
контраст
восклицание
обрыв
неясно
Сначала нужно будет создать Тип слоев intonation
со Стереотипом Symbolic Association
.
Затем создать слой для каждого говорящего, указав в качестве родительского слоя слой с репликами.
part of speech
, grammatical features
.В Notepad++ установите плагин Compare (Плагины > Менеджер плагинов > Compare > Установить).
Откройте два файла в редакторе.
В меню выберите Плагины > Compare > Compare (Plugins > Compare Menu > Compare).
Скриншоты тут.
Сделайте копию вашего файла с морфологической разметкой. Информацию из последнего стобца conllu нужно перенести в отдельные столбцы, поместив их в начале файла.
В Notepad++ используйте регулярные выражения для замены, чтобы разбить текстовую строку на фрагменты и переставить их местам.
Например, разобьем мысленно данную строку на пять подстрок, обратив внимание, что символ табуляции \t
и решетка #
могут быть использованы как обоначения границ подстрок.
Найти (в режиме поиска по регулярным выражениями (regex)):
^(.*\t)(.*?)#(.*?)#(.*?)#(.*?)$
Заменить на:
\2\t\4\t\5\t\1
Какие символы регулярных выражений мы здесь использовали?
.
– любой символ.*
– повтор любого символа от 0 до бесконечного количества раз.*?
– то же, но ленивый поиск - до первого элемента, который указан после знака вопроса\t
– символ табуляции^
– начало строки$
– конец строки\1
– при замене вставить первую из найденных подстрок (подстрока в поиске указывается скобками)\2
, \3
.. – то же для второй, третьей и т.д. строки