Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)
латинской метке
из таблицы метаданных, например, для метки kalinkin
- файл kalinkin.eaf
.LiveCorpus
(капитализация именно такая) - папка в вашем репозитории курса (lingdata), сюда кладем .eaf
файл.Add file
> Create new file
> создать файл с именем LiveCorpus/readme.md
> Commit
.eaf
файл и загрузить его в папку LiveCorpus
на GitHubCоздайте новый проект, подключите к нему видеофайл, сохраните файл разметки, назвав согласно метке
Если вы хотите использовать визуализацию звуковой дорожки в ELAN, переконвертируйте ваше видео в *.wav - файл (с помощью любого онлайн-конвертора, погуглите, например, “mpg to wav online”). В этом случае присоедините сразу видео и аудио к новому проекту.
Импортируйте слои из образца, с которым мы работали на семинаре (.eaf файл): Тип > Импорт…
Создайте слой реплик для каждого говорящего: Слой > Новый…
Установите свойства слоя (для условного говорящего @aaa1988f):
* Название слоя `text@aaa1988f`
* Родительский слой - none
* Тип - utterance
Обязательно заполните пункты "говорящий" (@aaa1988f) и "разметчик" (ваш никнейм латиницей - например, может совпадать с вашим аккаунтом на GitHub).
Расшифруйте 5 минут записи (это минимальная нижняя граница, не рекомендуем расшифровывать более 7 минут, чтобы последующие домашние задания не оказались слишком длинными).
* ALT + потянуть мышкой в середине аннотации -- чтобы подвинуть всю аннотацию влево/вправо
* ALT + потянуть мышкой на левой/правой границе аннотации -- чтобы подвинуть левую/правую границу
* ALT + d - удалить реплику (работает также копипейст и контекстное меню по правой кнопке мышки)
* Двойной клик - редактировать содержание
* Shift + Space -- проиграть выделенную аннотацию
Совет 1: не забудьте установить замедленное проигрывание: Регулировка > Скорость… Не забывайте регулярно сохранять файл.
Совет 2: если в Опциях выбрать метод сдвига таймкодов Bulldozer Mode, то при вставке новых реплик реплика справа, на которую вы случайно “наехали” по таймкоду, не будет стираться, а сдвинется вправо.
Совет 3: если вы пишете не очень грамотно, экспортируйте файл с разметкой в текст с разделителями и проверьте его в любом сервисе проверки орфографии. Это сохранит много сил на следующих этапах работы.
words...
для каждого слоя text...
Установите свойства слоя (для условного говорящего @aaa1988f):
* Название слоя `words@aaa1988f`
* Родительский слой - text@aaa1988f
* Тип - words
Обязательно заполните пункты "говорящий" (@aaa1988f) и "разметчик" (ваш никнейм латиницей - например, может совпадать с вашим аккаунтом на GitHub).
Слой
> Разбить слой на слова
: укажите родительский и дочерний слой, пробел как разделитель, знаки препинания > Начать
Отредактируйте аннотации, исправив временные границы (приблизительно – здесь точность не так важна) и ошибки автоматического деления на слова.
В выделенной аннотации:
* Аннотация > Разбить... - разобъет посередине на две
Чтобы разбить в конкретном месте аннотации, в контекстном меню выбрать Разбить аннотацию...
* Аннотация > Объединить со следующей / c предыдущей
Расшифруйте запись так, как вы ее слышите, отражая все оговорки, неправильности, порядок слов, сниженную лексику, если есть. Пример расшифровки в виде текста:
там спрашивают фамилию-то // я сказала / Поликарпова ты с какого года ? // ну / это / ро... родители сказали //
а / ну да / ну да // эээ //
Расшифровка записывается в стандартной русской орфографии, стандартная пунктуация не ставится, но обозначаются знаками большие и малые паузы, соответствующие примерно точке и запятой в письменной речи. Если говорящий говорит очень долго совсем без пауз, ориентируйтесь на синтаксическую и смысловую структуру, интонацию, чтобы разбить его речь на реплики.
#нрзб#
(в решетках, без пробелов, именно эти четыре буквы)#одновременно#
(в знаках решеток без пробелов).
В случаях невербального общения (например, общий гул без ясно вычлененных реплик, смех, хмыканье) допустимо поставить отдельную реплику, например, #смеется#
.
Увлекаться комментированием всех действий, в том числе заполняющих паузы (“берет сковородку”, “долго глядит в окно”) не нужно. Пожалуйста, не используйте пробелы внутри ремарок.!
, ?
для обозначения восклицательных и вопросительных реплик, а также ...
для обозначения обрыва слова.Примечание: Мы во многом, но не во всем, ориентируемся на правила расшифровки в Мультимедийном корпусе Национального корпуса русского языка. А вот так выглядит гораздо более сложная разметка в корпусе “Рассказы о сновидениях”.