lingdata2020

Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)

View the Project on GitHub olesar/lingdata2020

Домашнее задание “Разработка фрагмента учебного корпуса”, часть 2

Для ориентации

Задачи этого этапа

ELAN

1. Настройка проекта

Установите свойства слоя (для условного говорящего @aaa1988f):  
* Название слоя `text@aaa1988f`  
* Родительский слой - none   
* Тип - utterance  
Обязательно заполните пункты "говорящий" (@aaa1988f) и "разметчик" (ваш никнейм латиницей - например, может совпадать с вашим аккаунтом на GitHub). 

2. Разметка реплик

Расшифруйте 5 минут записи (это минимальная нижняя граница, не рекомендуем расшифровывать более 7 минут, чтобы последующие домашние задания не оказались слишком длинными).

* ALT + потянуть мышкой в середине аннотации -- чтобы подвинуть всю аннотацию влево/вправо  
* ALT + потянуть мышкой на левой/правой границе аннотации -- чтобы подвинуть левую/правую границу  
* ALT + d - удалить реплику (работает также копипейст и контекстное меню по правой кнопке мышки)  
* Двойной клик - редактировать содержание   
* Shift + Space -- проиграть выделенную аннотацию    

Совет 1: не забудьте установить замедленное проигрывание: Регулировка > Скорость… Не забывайте регулярно сохранять файл.
Совет 2: если в Опциях выбрать метод сдвига таймкодов Bulldozer Mode, то при вставке новых реплик реплика справа, на которую вы случайно “наехали” по таймкоду, не будет стираться, а сдвинется вправо.
Совет 3: если вы пишете не очень грамотно, экспортируйте файл с разметкой в текст с разделителями и проверьте его в любом сервисе проверки орфографии. Это сохранит много сил на следующих этапах работы.

3. Токенизация

Установите свойства слоя (для условного говорящего @aaa1988f):  
* Название слоя `words@aaa1988f`  
* Родительский слой - text@aaa1988f  
* Тип - words  
Обязательно заполните пункты "говорящий" (@aaa1988f) и "разметчик" (ваш никнейм латиницей - например, может совпадать с вашим аккаунтом на GitHub). 
В выделенной аннотации:
* Аннотация > Разбить... - разобъет посередине на две  
Чтобы разбить в конкретном месте аннотации, в контекстном меню выбрать Разбить аннотацию...
* Аннотация > Объединить со следующей / c предыдущей  

4. Сохраните файл .eaf, залейте на гитхаб

Об особенностях расшифровки записей

Расшифруйте запись так, как вы ее слышите, отражая все оговорки, неправильности, порядок слов, сниженную лексику, если есть. Пример расшифровки в виде текста:

там спрашивают фамилию-то // я сказала / Поликарпова ты с какого года ? // ну / это / ро... родители сказали // 
а / ну да / ну да // эээ //

Расшифровка записывается в стандартной русской орфографии, стандартная пунктуация не ставится, но обозначаются знаками большие и малые паузы, соответствующие примерно точке и запятой в письменной речи. Если говорящий говорит очень долго совсем без пауз, ориентируйтесь на синтаксическую и смысловую структуру, интонацию, чтобы разбить его речь на реплики.

Примечание: Мы во многом, но не во всем, ориентируемся на правила расшифровки в Мультимедийном корпусе Национального корпуса русского языка. А вот так выглядит гораздо более сложная разметка в корпусе “Рассказы о сновидениях”.