Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)
ELAN - система для разметки мультимедийных (аудио- и видео-) данных, созданная в Институте Макса Планка в Неймегене (Нидерланды). Позволяет создавать слои разметки разных типов, определяемых пользователем. В ELAN-е часто делают следующие виды разметки:
Скачайте программу ELAN со страницы Института М. Планка, а также Example Set Annotation Video Audio
Пользователям Linux также нужно будет установить плеер VLC (лучше не через snap) и библиотеку libvlc-dev
для корректной работы ELAN.
Запустите программу (исполняемый файл .jnlp, согласитесь, что вы доверяете источнику, из которого получен файл), затем откройте файл с аннотацией Файл -> Открыть -> выберите в проводнике файл с аннотацией .eaf. Подождите некоторое время, пока загрузятся файлы (одновременно загружаются и аннотация, и файлы видео и/или аудио), изучите структуру слоев разметки, запустите видео, чтобы посмотреть, как синхронизируется видео и слои разметки.
Независимые и связанные с родительским слои: принцип Time Subdivision (например, реплика членится на отдельные слова – слой не может выходить за границы начала/конца родителя), принцип Symbolic Association (один к одному, копирование временных меток). Представление слоев как иерархии (Вид…). Активация слоев для редактирования (двойным кликом).
Для работы вам понадобится ваш видеофайл (загрузите его на компьютер) и файл с транскрипцией (в формате .txt). Если так случилось, что у вас нет своих материалов, можно использовать следующие файлы для работы: видео
Сохраните файл аннотации под своим именем (формат .eaf)
Можно сразу импортировать все типы слоев из файла образца, который вы скачали с сайта Института Макса-Планка.
Если нужно, так можно создать новые типы с нуля:
* Тип -> Добавьте новый тип слоев
Создадим два новых типа:
>> text и
>> gestures (стереотип у обоих - None).
Еще один тип -- для интерпретации значения жестов:
>> gesture-meaning (должен иметь стереотип Symbolic Association, это зависимый тип, т.к. аннотация значений привязана по времени к аннотации жестов).
Проиграйте мультимедиа с помощью центральной кнопки на панели проигрывателя, определите количество участников речевой ситуации (включая и тех, кто говорит на видео “за кадром”).
Если вы размечаете видео, для каждого участника в кадре создадим слой его жестов (для участника @abp1960f - @abp1960f-gestures и т.п.). Укажем тип (gestures), участника, аннотатора, остальное дефолтно. Под каждым слоем жестов создадим слой для интерпретации их значения в речевой ситуации (например, @abp1960f-gestMeaning). Здесь укажите тип (gesture-meaning) и родительский слой (например, @abp1960f-gestures)
Если нужно, настройте режим замедленного проигрывания видео (90-70%):
Кликнув мышкой, установите красную полосу на месте примерного начала микрореплики, а затем, держа нажатой клавишу SHIFT кликните на конце микрореплики (то же можно сделать в режиме drag-and-drop, как будто вы выделяете слова). Кликните на появившемся “отрезке” дважды, откроется область для заполнения аннотации.
Сдвинуть левую/правую границу аннотации: зажав ALT, подвести курсор к границе и подвинуть. Сдвинуть аннотацию: зажав ALT и наведя курсор на аннотацию, подвинуть влево/вправо. Ctrl + Space: проиграть / поставить на паузу. Shift + Space: проиграть выделенное. Ctrl + PageUp/PageDown: промотать вперед/назад. Уточнять области для аннотации можно с помощью панели прокрутки (например, переместить красную линию на 1 секунду вперед) и находящейся справа панели выделений (переместить красную линию к концу/началу реплики; проиграть реплику; снять выделение).
Аннотируйте реплики говорящих примерно для 30 секунд видео/аудио.
Для каждого участника нужно выделить фрагменты, в которых он делает какой-либо жест, в слое жестов нужно указать активный орган (например, “правая рука”) и характеристику движения (например, “слева направо” - кстати, считается относительно говорящего). NB В учебной аннотации мы не используем классификации жестов и стандартизованных словарей для разметки, слой жестов размечается с помощью свободного описания.
В слое значения жестов укажите свою интерпретацию (например, привлечение внимания, подчеркивание значимой информации, указание, угроза и т.п.).
Активируйте слой реплик. Выделите реплику.
Если у вас нет слоя частей речи (POS), импортируйте его из файла образца, как указано выше. Переименуйте его и перепривяжите к слою Words одного из говорящих. (Слой -> Изменить…)
В конце работы сохраните свой файл аннотаций (он будет иметь расширение .eaf)
Alt+d – удалить элемент аннотации
Alt+Down – перейти на нижнюю аннотацию
Alt+Left – перейти на предыдущую аннотацию
Alt+n – новый элемент разметки на слое
Alt+Right – перейти на следующую аннотацию
Alt+Shift+c – отменить выделение
Alt+Up – перейти на верхнюю аннотацию
Ctrl+/ – перевести курсор в начало/конец выделения
Ctrl+Alt+p – настройка печати разметки ELAN
Ctrl+Alt+t – удалить слой разметки
Ctrl+b – промотать в начало
Ctrl+c – копировать элемент аннотации
Ctrl+e – промотать в конец
Ctrl+Left – перевести курсор на 40 ms раньше
Ctrl+n – создать новый проект ELAN
Ctrl+o – открыть один из старых проектов ELAN
Ctrl+PgDown – промотать вперед на “страницу”
Ctrl+PgUp – промотать назад на “страницу”
Ctrl+Right – перевести курсор на 40 ms позже
Ctrl+s – сохранить проект ELAN
Ctrl+Shift+Left – перевести курсор на 10 ms раньше
Ctrl+Shift+Right – перевести курсор на 10 ms позже
Ctrl+Shift+t – добавить новый лингвистический тип
Ctrl+Space – запустить/остановить проигрывание медиа файла
Ctrl+t – создать новый слой разметки
Ctrl+v – вставить элемент аннотации
Ctrl+w – закрыть один из открытых проектов ELAN
Ctrl+y – повторить действие
Ctrl+z – отменить действие
Edit>Linked files (Ctrl+Alt+l) – добавить или удалить медиа файлы в проект ELAN
Edit>Preferences>Edit Shortcuts – изменить горячие клавиши
File>Automatic Backup – настройка автосохранения резервных копий проектов ELAN
File>Close (Ctrl+w) – закрыть один из открытых проектов ELAN
File>Export as – экспортировать проект ELAN в другие форматы
File>Import – импортироватьв ELANиз Toolbox, FieldWorks, PRAAT, Transcriber, Shoebox, CHAT, Recognizer и CSV-файла;
File>New (Ctrl+n) – создать новый проект ELAN
File>Open (Ctrl+o) – открыть один из старых проектов ELAN
File>Print Preview (Ctrl+Alt+p) – настройка печати разметки ELAN
File>Save (Ctrl+s) – сохранить проект ELAN
Help>About ELAN>Citing ELAN… – информация о том, как ссылаться на ELAN
Options>Annotation Mode – перейти в режим аннотации
Options>Language – изменить язык программной оболочки
Options>Segmentation Mode – перейти в режим сегментации
Options>Transcription Mode – перейти в режим транскрипции
RButton>Change attributes of – настройка параметров слоя разметки
RButton>Conected – отключить/включить связь временной оси разметки и аудио
RButton>Copy annotation (Ctrl+с) – копировать элемент аннотации
RButton>Delete annotation (Alt+d) – удалить элемент аннотации
RButton>Paste annotation (Ctrl+v) – вставить элемент аннотации
RButton>Save current frame as image – сохранить кадр как изображение
RButton>Sort tiers – сортировать слои разметки
RButton>Stereo Chanels>Merged – слияние двух аудиопотоков в один
RButton>Time ruller visible – отключить/включить временную ось
RButton>Vertical zoom – масштабирование амплитудного диапазона осцилограммы
RButton>Visible tiers – скрыть один и больше слоев разметки
RButton>Zoom – масштабирование видео
Shift+Left – перевести курсор на 1 s раньше
Shift+Right – перевести курсор на 1 s позже
Shift+Space – проиграть выделенное
Tier>Add new tier (Ctrl+t) – создать новый слой разметки
Tier>Copy tier – копировать слой разметки
Tier>Delete tier (Ctrl+Alt+t) – удалить слой разметки
Type>Add new linguistic type (Ctrl+Shift+t) – добавить новый лингвистический тип
Type>Change linguistic type – изменить лингвистический тип
Type>Delete linguistic type – удалить лингвистический тип
View>Shortcuts – посмотреть список всех команд, которые заданы горячими клавишами
View>Viewer – включить/выключить отображение каждого из окон просмотра
Window – переключение между разными проектами ELAN