lingdata2020

Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)

View the Project on GitHub olesar/lingdata2020

Экзаменационное задание

Экзамен сдается как групповой проект, в ходе которого участники вместе сдают письменное задание и выступают с презентацией на устном экзамене.

Не забудьте в шапке указать название ресурса, его адрес в интернете и имена-фамилии участников экзаменационного проекта с email-ами.

Презентацию можно сделать в Power Point, Google Slides, LaTeX или каком угодно другом редакторе презентаций. На титульном слайде должно быть указано название ресурса и имена-фамилии всех участников проекта. Перед экзаменом загрузите презентацию в ту же папку, куда ранее был загружен письменный проект.

Какой ресурс взять для проекта?

Ссылки на корпуса, словари и базы данных можно найти на странице НКРЯ, linguistlist.org, web-corpora, английские корпуса, Lancaster list, Humboldt list, ресурсы для экспериментальной лингвистики, тьюториалы, а также погуглить, вики по электронным словарям, FreeDictionary, LREC resourcebook. Большая просьба не выбирать для проектов большего одного корпуса из корпусов коллекции SketchEngine/*TenTen (не русский и не английский), с платформы Восточно-Армянского корпуса/web-corpora.net, синтаксических корпусов Universal Dependencies.

Идеи для подготовки к проекту

Экспертиза usability ресурса

  1. onboarding (ресурс глазами новичка): легко ли вы нашли сам ресурс и форму поиска; быстро ли вы сориентировались, как и что искать; насколько все “интуитивно очевидно”; есть ли образцы запросов для новичков?
  2. помощь пользователю: наличие подсказок, инструкций, насколько легко их найти, насколько легко в них ориентироваться; насколько быстро вы нашли нужную информацию (опять же дизайн)
  3. продвинутый функционал (сложные запросы) – что позволяет и что не позволяет найти ресурс.
  4. дизайн, что нравится и что не нравится (общее впечатление, цветовая гамма, форма и расположение кнопок и т.п.)

Fun-project: как улучшить ресурс

Эта часть призвана развить ваше умение поставить новые исследовательские лингвистические задачи, представить себя в роли пользователя ресурса и его разработчика, понять, что нужно сделать, чтобы внедрить новые функциональные возможности, оценить реализуемость ваших идей. “Fun” означает, что вы не обязаны реализовывать ничего из того, что запланировано в проекте (но кто знает?). Вопросы в помощь:

Любые другие идеи также приветствуются.

Оценка за экзамен

Приложение. Темы проектов 2018 и 2019 гг.

(как пример. Тут были отличные ресурсы, о которых можно много чего рассказать, и неудачные ресурсы)

Звуки Му http://web-corpora.net/zvukimu/ . Corpus of Global Web-Based English (GloWbE) https://corpus.byu.edu/glowbe/
Бурятский корпус http://web-corpora.net/BuryatCorpus/
The National Corpus of Polish Cheatsheet http://nkjp.pl
The IWeb Corpus https://corpus.byu.edu/iweb/
Польско-русский и русско-польский параллельный корпус http://pol-ros.polon.uw.edu.pl/index.php?id=01&lang=ru
Шведский корпус https://spraakbanken.gu.se/korp/
Русский учебный корпус http://web-corpora.net/RLC
Беларускі N-корпус https://bnkorpus.info/index.html
The Czech National Corpus https://www.korpus.cz/
The Free Dictionary https://www.thefreedictionary.com/
Online Etymology Dictionary https://www.etymonline.com/
Корпус цыганского языка http://web-corpora.net/RomaniCorpus/search/?interface_language=ru
Башкирский поэтический корпус http://web-corpora.net/bashcorpus/search/
Рукописные памятники Древней Руси: берестяные грамоты, летописи http://www.lrc-lib.ru/
Фонетический корпус эстонского языка http://www.murre.ut.ee/phonetic-corpus/
Корпус говора села Роговатка http://www.parasolcorpus.org/Rogovatka/
Рассказы о сновидениях и другие корпуса звучащей речи http://spokencorpora.ru/
База произношений Forvo https://forvo.com
Reverso Context http://context.reverso.net/перевод/
Vienna-Oxford International Corpus of English https://www.univie.ac.at/voice/stats/page/index.php
The Quranic Arabic Corpus http://corpus.quran.com
Roget’s Hyperlinked Thesaurus www.roget.org
AnCora http://clic.ub.edu/corpus/
language goldmine http://languagegoldmine.com
Hansard corpus https://www.hansard-corpus.org/
reverso.net
https://visuwords.com/ Корпус русского жестового языка http://rsl.nstu.ru
https://www.spreadthesign.com/ru.ru/search/
Leipzig Corpora Collection
Корпус мокшанского языка http://moksha.web-corpora.net/moksha_corpus/search
ГИКРЯ http://www.webcorpora.ru/
Корпус эсперанто https://corp.hum.sdu.dk/cqp.eo.html
Русско-французский поэтический корпус http://www.nevmenandr.net/fr/
SCOTS https://www.scottishcorpus.ac.uk
TIME Magazine Corpus https://www.english-corpora.org/time/
CHILDES Talkbank https://childes.talkbank.org/
The Online Slang Dictionary http://onlineslangdictionary.com/
Urban Dictionary https://wordnet.princeton.edu/
Татарский национальный корпус http://tugantel.tatar/
Русский учебный корпус http://web-corpora.net/CoRST/search/
Корпус русской публицистики http://smalt.karelia.ru/corpus/index.phtml
https://korp.csc.fi/lab/#?lang=en&stats_reduce=word&cqp=%5B%5D
Берестяные грамоты http://gramoty.ru/birchbark/
Вавилонская башня http://starling.rinet.ru/cgi-bin/main.cgi?flags=eygtnnl
Языки Сибири “http://www.kulturstiftung-sibirien.de/itd_R.html
Alpha online. Древнегреческо-русский словарь http://gurin.tomsknet.ru/alphaonline.html
Perseus http://www.perseus.tufts.edu
Корпус туалетных надписей https://linghub.ru/wc_corpus/index.html