lingdata

Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ

View the Project on GitHub olesar/lingdata

Конспект лекции 2

Форматы представления данных. Кодировки файлов. Поиск по тексту с помощью регулярных выражений.

Форматы представления данных

Кодирование

Перекодировка с помощью продвинутых текстовых редакторов

Помимо текстовых редакторов, прочитать файл в одной кодировке и сохранить в другой могут команды Python и других языков программирования, а также bash-команды, запускаемые из командной строки.

HTML

aka HyperText Markup Language

Что это такое?

Как он устроен?

Пример

<p align="left">Это пример абзаца с <b>жирным</b> и <i>курсивным</i> шрифтом.</p>

Этой строчке соответствует такой код:

<p align="left">Это пример абзаца с <b>жирным</b> и <i>курсивным</i> шрифтом.</p>

align - это атрибут тега p, у атрибутов есть значение, которое пишется через знак =.

Ещё пример:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"> <— тип документа

<html> <— начало страницы

<head> <— вводная часть (обычно служебная информация)

<title>Заголовок страницы</title>

</head> <— вводная часть закончилась

<body> <— основная часть документа

<h1>Заголовок текста</h1>

<p>Абзац,

<br> разбитый на две строки</p>

</body> <— основная часть закончилась

</html> <— конец страницы

Какие бывают HTML теги?

Принцип вложенности парных (открывающих и закрывающих) тегов

Что ещё?


XML

aka eXtensible Markup Language

Что это такое?

Как он устроен?

Стандарты XML

XML + HTML = XHTML

XHTML ― язык, основанный на тегах HTML и правилах XML

отличия от HTML:

Форматы хранения лингвистических корпусов (в примерах)

To illustrate the paradigm , reference is made to ... ``` * JSON (Бесермянский корпус): ``` ... { "text": "tačʼe taos.", "words": [ { "wf": "tačʼe", "wtype": "word", "off_start": 7, "off_end": 12, "next_word": 4, "sentence_index": 2, "ana": [ { "lex": "tačʼe", "gr.pos": "PRO", "gr.number": "sg", "gr.case": "nom", "parts": "tačʼe", "gloss": "STEM", "gloss_index": "STEM{tačʼe}-", "trans_ru": "такой" } ] }, ... ``` * ProtoBuf (Google serialization data) и мн. др. ## QR-код Графическое представление URL-ссылок. Защищая проект в виде постера, вы можете поместить на постер QR-код с адресом вашего сайта на github.io. QR-код можно сгенерировать, например, [здесь](http://qrcoder.ru/). *** # Веб-дизайн. Bootstrap Для создания веб-страницы рекомендуем использовать фреймворк [Bootstrap](http://getbootstrap.com/getting-started/). * [Здесь](http://ktonanovenkogo.ru/html/bootstrap/setochnaya-sistema-bootstrap-3-primer-raboty-chast-2.html) подробно описано, как работает Bootstrap. ### Зачем Bootstrap? * Набор шаблонов веб-страниц и JS-скриптов * Позволяет с минимальными усилиями создать красивую веб-страницу * Огромный набор готовых кнопочек, иконок, меню и проч. * Адаптивность - размеры и расположение каждого элемента меняются в зависимости от разрешения экрана ### Устройство * 12-колоночная сетка * Ряд html-элементов (например, анонсы статей на главной странице), который вы захотите позиционировать в сетке, нужно будет окружить контейнером (например, заключить в теги `div`) и прописать для него класс `row` (выглядеть открывающий тег в этом случае будет как `
`). * Сами элементы внутри ряда вы сможете распределить по одной или сразу по нескольким типам сеток с помощью прописывания атрибута `class` со значением, например, `.col-xs-цифра`. * `xs` - размер сетки, ориентированный на размер экрана. Есть 4 размера: `xs`, `sm`, `md`, `lg`. При размере сетки `xs` ваш сайт создается прежде всего для маленьких экранов мобильных устройств, при размере `lg` ваш сайт ориентирован на просмотр с ПК. * Если вам нужно получить в результате три равные по размеру колонки, то нужно разделить 12 (размерность сетки в Bootstrap) на 3 (требуемое число колонок). Значит для каждого html-элемента внутри ряда нужно будет прописать одинаковые классы — `
`. Если нужны колонки не равной ширины, то нужно будет просто соблюсти условие, при котором цифры после `col-xs-` во всех трех классах в сумме должны составлять 12 (например, 2-4-6). # Полезные ссылки * [начальный курс HTML](http://htmldog.com/guides/html/beginner/) * [начальный курс HTML на русском](http://www.site-do.ru/html/) * [объяснение сеточной системы Bootstrap](http://ktonanovenkogo.ru/html/bootstrap/setochnaya-sistema-bootstrap-3-primer-raboty-chast-2.html) ### Видео о Bootstrap: * [Анатомия Bootstrap 3 для начинающих. Урок ](https://www.youtube.com/watch?v=9N88P_CMQh0) * [Уроки по Bootstrap 3](https://www.youtube.com/watch?v=AYkEfr-5b1o&list=PLypd1VrGv7FPokhw3f5pwBQTHsU9T2mBq)