Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)
Экзамен сдается как групповой проект, в ходе которого участники вместе сдают письменное задание и выступают с презентацией на устном экзамене.
Группа проекта: состоит из 4 или 5 человек, можно из разных групп по программированию или по языкам. Однако, важно, что экзамен у всех участников группы проводится в один день и час. Если вам нужно сдать экзамен как можно раньше, объединяйтесь с людьми, которые тоже спешат.
Тема проекта: обзор электронного лингвистического ресурса (словаря, базы данных, корпуса), с критикой и идеей исследования на его материале.
Гуглдок для записи: укажите, пожалуйста, состав группы, выбранный ресурс и пожелания по времени сдачи экзамена на вкладке “Проект” гугл-дока с оценками. Брать нескольким группам один и тот же ресурс для обзора не рекомендуется.
Письменная часть проекта загружается накануне дня экзамена в папку в виде файла PDF (объем не менее 2,5 страниц), включает ответы на вопросы:
Не забудьте в шапке указать название ресурса, его адрес в интернете и имена-фамилии участников экзаменационного проекта с email-ами.
Презентацию можно сделать в Power Point, Google Slides, LaTeX или каком угодно другом редакторе презентаций. На титульном слайде должно быть указано название ресурса и имена-фамилии всех участников проекта. Перед экзаменом загрузите презентацию в ту же папку, куда ранее был загружен письменный проект.
Ссылки на корпуса, словари и базы данных можно найти на странице НКРЯ, linguistlist.org, web-corpora, английские корпуса, Lancaster list, Humboldt list, ресурсы для экспериментальной лингвистики, тьюториалы, а также погуглить, вики по электронным словарям, FreeDictionary, LREC resourcebook. Большая просьба не выбирать для проектов большего одного корпуса из корпусов коллекции SketchEngine/*TenTen (не русский и не английский), с платформы Восточно-Армянского корпуса/web-corpora.net, синтаксических корпусов Universal Dependencies.
Эта часть призвана развить ваше умение поставить новые исследовательские лингвистические задачи, представить себя в роли пользователя ресурса и его разработчика, понять, что нужно сделать, чтобы внедрить новые функциональные возможности, оценить реализуемость ваших идей. “Fun” означает, что вы не обязаны реализовывать ничего из того, что запланировано в проекте (но кто знает?). Вопросы в помощь:
Любые другие идеи также приветствуются.
макс. 1 балл – за вопросы к презентациям других проектов, вопросы задаются в Телеграм-канале “Лингвистические данные”. Дается индивидуально каждому студенту, если он задаст не менее 2 содержательных и интересных (и не дублирующих предыдущие) вопросов. Не забудьте указать свои имя-фамилию всякий раз.
(как пример. Тут были отличные ресурсы, о которых можно много чего рассказать, и неудачные ресурсы)
Звуки Му http://web-corpora.net/zvukimu/ .
Corpus of Global Web-Based English (GloWbE) https://corpus.byu.edu/glowbe/
Бурятский корпус http://web-corpora.net/BuryatCorpus/
The National Corpus of Polish Cheatsheet http://nkjp.pl
The IWeb Corpus https://corpus.byu.edu/iweb/
Польско-русский и русско-польский параллельный корпус http://pol-ros.polon.uw.edu.pl/index.php?id=01&lang=ru
Шведский корпус https://spraakbanken.gu.se/korp/
Русский учебный корпус http://web-corpora.net/RLC
Беларускі N-корпус https://bnkorpus.info/index.html
The Czech National Corpus https://www.korpus.cz/
The Free Dictionary https://www.thefreedictionary.com/
Online Etymology Dictionary https://www.etymonline.com/
Корпус цыганского языка http://web-corpora.net/RomaniCorpus/search/?interface_language=ru
Башкирский поэтический корпус http://web-corpora.net/bashcorpus/search/
Рукописные памятники Древней Руси: берестяные грамоты, летописи http://www.lrc-lib.ru/
Фонетический корпус эстонского языка http://www.murre.ut.ee/phonetic-corpus/
Корпус говора села Роговатка http://www.parasolcorpus.org/Rogovatka/
Рассказы о сновидениях и другие корпуса звучащей речи http://spokencorpora.ru/
База произношений Forvo https://forvo.com
Reverso Context http://context.reverso.net/перевод/
Vienna-Oxford International Corpus of English https://www.univie.ac.at/voice/stats/page/index.php
The Quranic Arabic Corpus http://corpus.quran.com
Roget’s Hyperlinked Thesaurus www.roget.org
AnCora http://clic.ub.edu/corpus/
language goldmine http://languagegoldmine.com
Hansard corpus https://www.hansard-corpus.org/
reverso.net
https://visuwords.com/
Корпус русского жестового языка http://rsl.nstu.ru
https://www.spreadthesign.com/ru.ru/search/
Leipzig Corpora Collection
Корпус мокшанского языка http://moksha.web-corpora.net/moksha_corpus/search
ГИКРЯ http://www.webcorpora.ru/
Корпус эсперанто https://corp.hum.sdu.dk/cqp.eo.html
Русско-французский поэтический корпус http://www.nevmenandr.net/fr/
SCOTS https://www.scottishcorpus.ac.uk
TIME Magazine Corpus https://www.english-corpora.org/time/
CHILDES Talkbank https://childes.talkbank.org/
The Online Slang Dictionary http://onlineslangdictionary.com/
Urban Dictionary
https://wordnet.princeton.edu/
Татарский национальный корпус http://tugantel.tatar/
Русский учебный корпус http://web-corpora.net/CoRST/search/
Корпус русской публицистики http://smalt.karelia.ru/corpus/index.phtml
https://korp.csc.fi/lab/#?lang=en&stats_reduce=word&cqp=%5B%5D
Берестяные грамоты http://gramoty.ru/birchbark/
Вавилонская башня http://starling.rinet.ru/cgi-bin/main.cgi?flags=eygtnnl
Языки Сибири “http://www.kulturstiftung-sibirien.de/itd_R.html
Alpha online. Древнегреческо-русский словарь http://gurin.tomsknet.ru/alphaonline.html
Perseus http://www.perseus.tufts.edu
Корпус туалетных надписей https://linghub.ru/wc_corpus/index.html