lingdata2020

Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)

View the Project on GitHub olesar/lingdata2020

Конспект лекции 2

Форматы представления данных. Кодировки файлов. Поиск по тексту с помощью регулярных выражений.

Форматы представления данных

Кодирование

Перекодировка с помощью продвинутых текстовых редакторов

Помимо текстовых редакторов, прочитать файл в одной кодировке и сохранить в другой могут команды Python и других языков программирования, а также bash-команды, запускаемые из командной строки.

HTML

aka HyperText Markup Language

Что это такое?

Как он устроен?

Пример

<p align="left">Это пример абзаца с <b>жирным</b> и <i>курсивным</i> шрифтом.</p>

Этой строчке соответствует такой код:

<p align="left">Это пример абзаца с <b>жирным</b> и <i>курсивным</i> шрифтом.</p>

align - это атрибут тега p, у атрибутов есть значение, которое пишется через знак =.

Ещё пример:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"> <— тип документа

<html> <— начало страницы

<head> <— вводная часть (обычно служебная информация)

<title>Заголовок страницы</title>

</head> <— вводная часть закончилась

<body> <— основная часть документа

<h1>Заголовок текста</h1>

<p>Абзац,

<br> разбитый на две строки</p>

</body> <— основная часть закончилась

</html> <— конец страницы

Какие бывают HTML теги?

Принцип вложенности парных (открывающих и закрывающих) тегов

Что ещё?


XML

aka eXtensible Markup Language

Что это такое?

Как он устроен?

Стандарты XML

XML + HTML = XHTML

XHTML ― язык, основанный на тегах HTML и правилах XML

отличия от HTML:

Форматы хранения лингвистических корпусов (в примерах)

<s n="12"><w type="TO0" lemma="to">To </w>
           <w type="VVI" lemma="illustrate">illustrate </w>
           <w type="AT0" lemma="the">the </w>
           <w type="NN1" lemma="paradigm"> paradigm</w>
           <c type="PUN"> , </c>
           <w type="NN1" lemma="reference"> reference </w>
           <w type="VBZ" lemma="be"> is </w>
           <w type="VVN" lemma="make"> made </w>
           <w type="PRP" lemma="to"> to </w>...
...
{
  "text": "tačʼe taos.",
  "words": [
    {
      "wf": "tačʼe",
      "wtype": "word",
      "off_start": 7,
      "off_end": 12,
      "next_word": 4,
      "sentence_index": 2,
      "ana": [
        {
          "lex": "tačʼe",
          "gr.pos": "PRO",
          "gr.number": "sg",
          "gr.case": "nom",
          "parts": "tačʼe",
          "gloss": "STEM",
          "gloss_index": "STEM{tačʼe}-",
          "trans_ru": "такой"
        }
      ]
    },
...  

QR-код

Графическое представление URL-ссылок. Защищая проект в виде постера, вы можете поместить на постер QR-код с адресом вашего сайта на github.io. QR-код можно сгенерировать, например, здесь.


Веб-дизайн. Bootstrap

Для создания веб-страницы рекомендуем использовать фреймворк Bootstrap.

Зачем Bootstrap?

Устройство

Полезные ссылки

Видео о Bootstrap: