lingdata

Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ

View the Project on GitHub olesar/lingdata

Разметка лексико-грамматической информации: леммы, части речи, грамматические категории, синтаксические связи

UDPipe - мультиязычный инструмент разметки, обученный на корпусах Universal Dpendencies для разных языков.
Он может размечать как обычные текстовые файлы, так и посрочное представление токенов в формате с разделителями-табуляцией (conllu).

Данные для работы: Файл в формате plain text для разметки link. Файлы livecorpus, conllu Arborator.Grew - онлайн

1. Автоматическая морфологическая и синтаксическая разметка в UDpipe

Настройка интерфейса:

Используя модель Russian SynTagRus, разметьте данные в UDpipe (режим ввода conll-u, Tag & Lemmatize).

2. Проверка разметки

(в NotePad++ или Excel/таблицах, по выбору)

ID Word Lemma POS (Extra) Features HeadPosition Relation _ (EverythingElse)
1 Эээ эээ INTJ _ _ _ _ _ words@aaa1980f#@aaa1980f#109.9#110.241
2 ра… ра… X _ _ _ _ _ words@aaa1980f#@aaa1980f#110.241#110.582
3 / / PUNCT _ _ _ _ _ words@aaa1980f#@aaa1980f#110.582#110.923
4 Ку… куда ADV _ Degree=Pos _ _ _ words@aaa1980f#@aaa1980f#110.923#111.264
5 куда куда ADV _ Degree=Pos _ _ _ words@aaa1980f#@aaa1980f#111.264#111.605
6 вы вы PRON _ Case=Nom|Number=Plur|Person=2 _ _ _ words@aaa1980f#@aaa1980f#111.605#111.946
7 удалились удалиться VERB _ Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Mid _ _ _ words@aaa1980f#@aaa1980f#111.946#112.287
8 ? ? PUNCT _ _ _ _ _ words@aaa1980f#@aaa1980f#112.287#112.628

Проверьте, что у вас правильно определены

3.1 Схема разметки UD-Russian

Мы будем пользоваться схемой разметки Universal Dependencies для русского языка.

3.2 Не-слова

Не-словами считаются:

3.3 Лемматизация

Исправьте леммы (3-й столбец) там, где это нужно.

3.4 Части речи

В отличие от схемы разметки, принятой в Национальном корпусе русского языка, в UD различаются имена собственные и нарицательные (NOUN и PROPN), сочинительные и подчинительные союзы (CCONJ и SCONJ), порядковые числительные считаются прилагательными (ADJ).

Предлог обозначается как ADP, местоимение-существительное как PRON, а местоимение-прилагательное - как DET. Междометие - INTJ.

3.5 Грамматические признаки

Всегда записываются латиницей как пара Category=Value.

Если ошибки в части речи нет, задача обычно сводится к проверке значений грамматических категорий. Обращайте особое внимание на падеж и число, а также грамматический род. Особенно часто встречаются ошибки, где путаются значения падежей в совпадающих формах: Case=Nom, Case=Acc, Case=Gen.

Помета (не)одушевленности ставится у имени прилагательного в винительном падеже, поскольку отличаются окончания: знаю хороший способ Animacy=Inan|Case=Acc и знаю хорошего врача Animacy=Anim|Case=Acc.

Если вы исправили помету части речи, то набор грамматических категорий может измениться. Скопируйте разметку из другого разбора и исправьте пометы признаков грамматических категорий. Если слов нужной части речи в файле нет, постарайтесь получить нужный разбор с помощью UDpipe, подавая ему на разбор более частотные и более “типичные” слова нужной части речи.

Ссылки

Дополнительные материалы

Разметка материалов из ELAN

Перевод в формат conll-u
(с помощью текстового редактора и редактора таблиц)

Вариант 1 - NotePad++ В файле *.tokens.tsv сейчас находятся пять столбцов с разделителем-табуляцией. Поменяйте порядок и количество столбцов так, чтобы во втором оказались словоформы, а вся остальная информация - в последнем (по стандарту CONLL-U, в нем может храниться любая информация, прежде всего, полезная для совместимости разных форматов). В первый нужно поставить нумерацию строк, остальные пустые столбцы заполнить нижними прочерками.

В итоге мы должны получить такой файл:

1   Эээ    _   _   _   _   _   _   _   words@aaa1980f#@aaa1980f#109.9#110.241
2   ра...  _   _   _   _   _   _   _   words@aaa1980f#@aaa1980f#110.241#110.582
3   /      _   _   _   _   _   _   _   words@aaa1980f#@aaa1980f#110.582#110.923
...

Вариант 2 - Excel или другой табличный редактор Поменяйте столбцы местами, как указано выше. Пустые столбцы заполните знаком нижнего подчеркивания.
Чтоб объединить несколько столцов вместе, используйте формулу, см. пример и подсказку =K1&'#"&L1&'#"&M1&'#"&N1, как сцепить строки из ячеек K1.. N1.
Итоговый вид:

Сохраните файл в текстовом формате с разделителями-табуляцией (tsv/csv).