lingdata2020

Course materials for the HSE course Linguistic Data (1st year BA, program on Fundamental and Computational Linguistics)

View the Project on GitHub olesar/lingdata2020

Обработка лингвистических данных в табличном редакторе

Часть 1: Фильтры, сводные таблицы, сортировки, текстовые формулы

Для работы нам понадобятся (Google Таблицы)[https://docs.google.com/spreadsheets] или Excel, OpenOffice, LibreOffice и др. табличные редакторы.

Основные операции в таблицах

Не знаете, как сделать что-то из этого? Посмотрите подробные инструкции на странице Основная информация по Google Таблицам.

Полезно знать: “горячие” клавиши
F2 - редактировать текст или формулу в ячейке
Ctrl + C (копировать), Ctrl + V (вставить)
Ctrl + End (Ctrl + Fn + End) - переместиться в нижний правый угол таблицы
Ctrl + Home (Ctrl + Fn + Home) - переместиться в правый левый угол таблицы
Shift + Ctrl + End (Shift +..) - выделить область от текущей ячейки до нижнего правого края таблицы
Shift + Ctrl + Home (Shift +..) - выделить область от текущей ячейки до начала таблицы

Файл для работы

Скачайте выдачу из НКРЯ, Araneum или других корпусов. Скачайте таблицу самых частотных n-грам корпуса. Можно просто скопировать эту таблицу.

Темы практикума

Создайте новый лист (spreadsheet) и сделайте копию вашей таблицы. Это можно сделать, щёлкнув по названию листа правой кнопкой (или кликнув левой кнопкой мыши по стрелке рядом с названием листа) и выбрав пункт «Создать копию» (там же можно его переименовать). Другой способ — создать новый лист и скопировать содержание ячеек с другого листа (в этом случае форматы ширины и высоты ячеек могут измениться).
Вставьте пустую строку в начало листа и озаглавьте все колонки.
Потренируйте основные навыки работы с таблицами (см. выше).

Сортировка: отсортируем таблицу по первому столбцу n-грамма, по последнему, по второму и третьему вместе.

Фильтры: Установим режим фильтров (в панели над таблицей — третий значок справа, похожий на воронку). Обратите внимание: выделилась область, с которой будет работать фильтр (тонкая зелёная граница по краю), а текст в первой строке таблицы выделился полужирным шрифтом. В верхней ячейке столбца со вторым словом n-грама щелкнем по стрелке вниз и выберем “Фильтровать по условию”. Фильтры с текстовым условием: текст содержит…, текст не содержит…, начинается с…, заканчивается на…, текст в точности… Фильтры на несколько столбцов.

Сводные таблицы: подробные инструкции со скриншотами

Формулы для работы с текстом:

Работа с диаграммами:
Отфильтруйте те n-граммы, между элементами которых нет знаков препинания. Вставьте отфильтрованные результаты “как текст, сохраняя только значения ячеек, затем найдите сверху меню “Вставка” — “Диаграммы”. В открывшемся окне выбрать диапазон и тип диаграммы.

Разобьём текст по столбцам: Кликните по ячейке рядом с первой строчкой со словами и воспользуйтесь формулой SPLIT(текст; разделитель), где ваш разделитель — это пробел. «Растяните» формулу на всю таблицу.

В конце работы укажите ссылку на гугл-док, с которым вы работали, здесь.

Справка по Google Таблицам https://support.google.com/docs#topic=2811806