lingdata

Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ

View the Project on GitHub olesar/lingdata

Домашнее задание 4

Используйте то же видео с рассказом о жизни, которое вы использовали в ДЗ-3. Продолжайте работать в том же файле, при сохранении добавьте -pos в конец названия.

Например, ваша разметка хранится в файле Cherepovets_pal1964.eaf — значит, вам нужно будет открыть именно его, добавить новую разметку, сохранить под именем Cherepovets_pal1964-pos.eaf и загрузить на гитхаб.

Совет: откройте файл и сразу же через “Сохранить как…” сохраните под новым именем. Так вы точно не забудете это сделать и сможете в процессе работы сохранять через Ctrl+S, не перезаписывая старый.

ЭДЕ

Токенизация реплик

  какой-то, где-нибудь, что-либо - 1 токен
  большой-большой - 3 токена
  наконец-то - 3 токена
  темным-темно - 1 токен
  кое в каком - 3 токена
  в течение - 2 токена (в - предлог, течение - существительное)
  местоимения с кое-, -то, -либо, -нибудь - 1 токен
  слова с -то, ка, -с (ты-то, Маша-то, давай-ка, сударь-с) - 3 токена
  светло-коричневый (серо-буро-красно-...-фиолетовый) - 1 токен
  Ростов-на-Дону - 5 токенов (Ростов, -, на, -, Дону)
  девушка-менеджер - 3 токена (потому что изменяются обе части: увидел девушку-менеджера)
  генерал-майор - 1 токен
    1) Потому что первая часть не изменяется.
    2) Если девушка-менеджер - и девушка, и менеджер, то генерал-майор - не майор.
  диван-кровать - спорный случай: если первая часть изменяется - 3 токена, если не изменяется - скорее 1 токен
  бывают необычное членение на токены в старой орфографии (не смотря на), в соц. сетях, в дневниковых записях

Общее: слова, написанные через пробел - не одно слово. Дефис может делить на несколько слов.

Грамматическая разметка

Значение тегов можно посмотреть в руководстве.

Частые вопросы:

- Как размечать обрывы?
- Если восстанавливается слово, указываем часть речи слова.
Если вы не понимаете, что это за слово, пишите X.
"плани= планировали" - VERB, VERB; "пр= планировали" - X, VERB

- Что делать, если имена собственные делятся на несколько слов?
- Делить на слова и размечать по отдельности. "Приморский край" - ADJ, NOUN, "Московская область" - ADJ, NOUN

- Что делать с вводными конструкциями в несколько слов?
- Делить на слова и размечать каждое слово отдельно. "тем не менее" - PRON, PART, ADV

- Какая часть речи у аббревиатуры?
- По контексту. "сдал ГТО" - VERB, NOUN, "ГТО нормативы" - NOUN, NOUN (нормативы чего? ГТО), "поступил БВИ" - VEBR, ADV

Комментарии (сомнения)

Если вы хотите оставить комментарии и пояснить некоторые принятые решения, вы можете это сделать в слое comment (под вызвавшей сомнения аннотацией)

* Название слоя - `comment`
Обязательно заполните пункт "разметчик" (ваш никнейм латиницей).

Бонусное задание

Идеально выполненное домашнее задание оценивается в 8 баллов. Бонусное задание не является обязательным и позволяет получить 9-10 баллов, если основная часть выполнена на 8. Выполнение бонусного задания требует много времени. Ассистенты не консультируют по поводу бонусных заданий.

ASR - Automatic Speech Recognition

Распознайте аудио любой доступной вам нейросетью и импортируйте распознанный текст в .eaf файл отдельным слоем asr@aaa1970f. Чтобы импортировать слой автоматически, необходимо, чтобы нейросеть возвращала не только распознанный текст, но и таймкоды реплик.

Один из вариантов выполнения задания:

  • Сохраните звук из вашего видео в файл myaudio.mp3
  • Распознайте речь с помощью нейросети Whisper (готовый код)
    • войдите в гуглаккаунт
    • откройте в колабе файл с кодом по ссылке: сверху Open with … > Google Colab (если вы раньше не пользовались колабом, его можно установить из доступных приложений)
    • загрузите в область для файлов ваше аудио myaudio.mp3
    • запустите по очереди все ячейки с кодом: у ячейки, закончившей свою работу, появляется зелёная галочка
    • в области с файлами появился файл myaudio.tsv с таймкодами и репликами, скачайте его (три точки у файла > Download)
  • Импортируйте текст в ELAN: Файл > Импортировать > Текст CSV / Текст с разделителями > выберите файл > укажите разделитель, тип информации для каждой колонки и первую строку с данными
  • Назовите слой правильно

Открытый в Google Colab файл выглядит так