lingdata

Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ

View the Project on GitHub olesar/lingdata

Обработка лингвистических данных в табличном редакторе

Фильтры, сводные таблицы, сортировки, текстовые формулы

Для работы нам понадобятся (Google Таблицы)[https://docs.google.com/spreadsheets] или Excel, OpenOffice, LibreOffice и им подобные табличные редакторы.

Файл для работы

Вариант 1 - вторая сравнительная степень в предикативной конструкции типа жить стало легче файл1 – сделайте себе копию и работайте с ней
Вариант 2 - конструкции типа “Человек человеку друг…” отсюда
Вариант 3 - таблица N-грамм отсюда - сохраните себе их копию.
Можно также скачать выдачу из НКРЯ, Araneum или других корпусов для интересующего вас языкового явления.
Можно также скачать таблицу (самых частотных) n-грам корпуса.

Темы практикума

Начало работы
Создайте новый лист (spreadsheet) и сделайте копию вашей таблицы. Это можно сделать, щёлкнув по названию листа правой кнопкой (или кликнув левой кнопкой мыши по стрелке рядом с названием листа) и выбрав пункт «Создать копию» (там же можно его переименовать).
Другой способ — создать новый лист и скопировать содержание ячеек с другого листа (в этом случае форматы ширины и высоты ячеек могут измениться).
Вставьте пустую строку в начало листа и озаглавьте все колонки.
Потренируйте основные навыки работы с таблицами (см. ниже).

Сортировка:
отсортируем таблицу по первому столбцу n-грамма, по последнему, по второму и третьему вместе.

Фильтры:
Установим режим фильтров (в панели над таблицей — значок справа, похожий на воронку).

Обратите внимание: выделилась область, с которой будет работать фильтр (тонкая зелёная граница по краю), а текст в первой строке таблицы выделился полужирным шрифтом. В верхней ячейке столбца со вторым словом n-грама щелкнем по стрелке вниз и выберем “Фильтровать по условию”.
Фильтры с текстовым условием:

Сводные таблицы:
Сводные таблицы позволяют составлять списки уникальных элементов в столбце, получать статистику по ним, а также получать таблицы сопряженности (статистики совместной встречаемости) для некольких столбцов.

Выделите нужные столбцы (у них обязательно должны быть заголовки),
создайте заготовку для сводной таблицы в отдельной вкладке
и отметьте столбцы - источник информации в окнах Ряд и Значение (можно перетащить туда название столбцов или кликнуть Добавить ряд…).

Значение: Количество (COUNTA) по тому же столбцу, который указан в Ряде - сколько раз встретилось данное значение ячейки (например, предлог “в”) в столбце.
Значение: Сумма (SUM) по другому столбцу с числовыми данными (например, по частоте встречаемости) - покажет общую частоту встречаемости для данной единицы (например, предлога “в”).

Добавив несколько столбцов в Ряд, можно получить вложенные сводные таблицы.
Указав (другой) столбец исходной таблицы в окне Столбец, можно получить таблицу сопряженности.

подробные инструкции со скриншотами

Формулы для работы с текстом:

Работа с диаграммами:
Отфильтруйте те n-граммы, между элементами которых нет знаков препинания. Вставьте отфильтрованные результаты “как текст, сохраняя только значения ячеек, затем найдите сверху меню “Вставка” — “Диаграммы”. В открывшемся окне выбрать диапазон и тип диаграммы.

Разобьём текст по столбцам:
Кликните по ячейке рядом с первой строчкой со словами и воспользуйтесь формулой SPLIT(текст; разделитель), где ваш разделитель — это пробел. «Растяните» формулу на всю таблицу.

В конце работы укажите ссылку на гугл-док, с которым вы работали, здесь. (Или положите файл Excel в ваш репозиторий и дайте прямую ссылку на него).

Дополнительно

Основные операции в таблицах, которые полезно освоить:

Полезно знать: “горячие” клавиши
F2 - редактировать текст или формулу в ячейке
Ctrl + C (копировать), Ctrl + V (вставить)
Ctrl + End (Ctrl + Fn + End) - переместиться в нижний правый угол таблицы
Ctrl + Home (Ctrl + Fn + Home) - переместиться в правый левый угол таблицы
Shift + Ctrl + End (Shift +..) - выделить область от текущей ячейки до нижнего правого края таблицы
Shift + Ctrl + Home (Shift +..) - выделить область от текущей ячейки до начала таблицы

Ссылки