Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)
Страница курса 🤗 Оценки за курс 😋 Группа в Телеграм
Электронное представление текста. Форматы HTML, XML, Markdown. Кодировки файлов. Поиск и замена с помощью регулярных выражений
Таблица-инструкция: распределение двух категорий
конспект: объединение двух таблиц
Дз 1. Разметка метаданных для проекта LiveCorpus (ссылка на Гугл-док в проекте семинара).
Дз 2. Личная страница, файл html + фотография в папке mywebpage
репозитория lingdata
на GitHub.
Дз 3. Расшифровка реплик в ELAN, токенизация.
Дз 4. Разметка лемм, части речи и морфологических признаков у токенов.
Дз 5. Разметка лемм, части речи и морфологических признаков 2: независимая проверка автоматической лексико-грамматической разметки.
Дз_6. Дедлайн 1 декабря. Финальная сдача проекта “Live Corpus”.
Дз_7. Дедлайн 8 декабря. Поиск в англоязычных веб-корпусах.
Форма записи для тех, кто хочет поднять накопленную оценку. Дедлайн записи до 10 декабря, выполнения - до 15 декабря, 22:00.
1 модуль: создание корпусного ресурса своими руками
2 модуль: анализ корпусов
Notepad++ для Windows (и дистрибутивов Linux, поддерживающих snap, подробнее тут и тут)
Atom для macOS и Linux
Sublime Text для macOS, Linux и Windows (платный)
BBEdit для macOS (бесплатная версия)
Профессиональный текстовый редактор, используемый вами в ходе курса, должен поддерживать использование регулярных выражений и макросов.