lingdata

Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ

View the Project on GitHub olesar/lingdata

Объединение данных из разных таблиц с помощью индексации

Возьмем частотные списки слов в из двух корпусов, КРУТ и Русского учебного корпуса (RLC) - частотные списки обрезаны по частоте. Вот ссылка на гугл-таблицу, с которой вы можете сделать себе копию (или скачать версию для работы в Excel).

Таблицы корпусов CorST и RLC находятся на разных вкладках.

таблица 1

таблица 14

Мы хотим получить общую таблицу, где данные из двух таблиц сведены вместе и их можно сравнить.

Внимание, в получившейся таблице могут и должны будут встречаться пустые ячейки!

Что нужно делать:

Шаг 0. Заполните в обеих таблицах столбец “Ранг”. Ваши таблицы уже отсортированы по частоте, поэтому заполним этот столбец числами 1, 2, 3 и т.д. Есть разные способы сделать это, например, заполнить первые 3 ячейки, выделить и дважды кликнуть на нижний правый угол (там появится “+”). Или вставить 1, а потом использовать формулу =1+D2 и т.п., которая будет увеличивать значения на 1.

Теперь сложнее. Слова с одинаковой частотой должны получить одинаковый ранг, например, слова может, также, является и у в CorST должны получить ранг 28, 29, 29, 31, соответственно. Придумайте и используйте формулу, которая может это сделать. (Если вы не справитесь с этим заданием, переходите к следующим шагам, ваши ответы будут засчитаны, но оценка будет снижена на 1 балл.)

Шаг 1.

Добавим в таблицу CorST столбец “Номер строки, на которой слово стоит в RLC”.

таблица 3

Шаг 2.

Затем для каждого слова в таблице CorST нужно:

Сделаем это с помощью формулы =ПОИСКПОЗ(...) (в английской версии =MATCH(...)).
В Excel эту формулу можно найти на вкладке Формулы в разделе “Ссылки и массивы”.

таблица 4

В окне вставки формул укажем три аргумента:

Нажмем OK.

таблица 5

В ячейке должен отобразиться номер строки, на которой искомое слово стоит в таблице RLC. Проверьте (с помощью поиска), что номер правильный.

Скопируем ячейку с формулой и вставим ее в том же столбце напротив всех остальных слов (можно дважды кликнуть на правый нижний угол заполненной ячейки, чтобы ее формула автоматически растянулась на весь столбец; выделение можно также растянуть на весь диапазон до конца таблицы, пользуясь комбинацией горячих клавиш Shift + Ctrl + стрелка вниз).

таблица 6

NB Пересчет значений ячеек может занять некоторое время, особенно для больших таблиц. Если после пересчета значений в каких-то ячейках появится #Н/Д (в английской версии - #N/A), это означает, что строка с таким словом не найдена.

Шаг 3

Добавим в таблицу CorST столбец “IPM-RLC”.

таблица 7

Шаг 4

На вкладке Формулы в разделе “Ссылки и массивы” найдем формулу “ИНДЕКС” (в английской версии “INDEX”), и в открывшемся мастере формулы:

таблица 8

таблица 9

Нажмите ОК.

Проверьте (с помощью поиска), что частота для данного слова указана правильно. Скопируем ячейку с формулой и вставим ее напротив всех остальных слов.

таблица 10

Теперь мы переставили все найденные данные из таблицы RLC. Осталось добавить те слова из RLC, которых не нашлось в основной таблице.

Шаг 5

Теперь все будет наоборот: добавим в таблицу RLC столбец “Номер строки, на которой слово стоит в CorST”.

Шаг 6

Для каждого слова в таблице RLC найдем его позицию в столбце со словами таблицы CorST и запишем в столбце “Номер строки…” (так же, как в Шаге 2).

таблица 11

Шаг 7

Теперь мы хотим взять из таблицы RLC только те слова, которых не нашлось в списке CorST. Для этого отфильтруем все ячейки со значением “#Н/Д” в столбце “Номер строки…”.

Делается это так:

Если отфильтровать слова почему-то не удалось, можно попробовать отсортировать их по значению столбца “Номер строки, на которой слово стоит в RLC”. Так все слова со значением “#Н/Д” в этом столбце окажутся внизу или вверху таблицы, и их можно будет скопировать вручную.

таблица 13

Теперь добавим данные по этим словам в таблицу CorST (тут можно просто скопировать слова в столбец “Слова”, внизу под существующим списком, а затем скопировать значения IPM в столбец IPM-RLC). Примечание: если вам не удается вставить скопировать слова на другую вкладку, значит, вы пытаетесь вставить содержание целого столбца в часть другого столбца, что невозможно. Выделите именно диапазон ячеек от первого до последнего слова (и соответствующий диапазон частот).

Шаг 8

Теперь у нас в таблице CorST сведены все данные!

Давайте выделим нужные нам данные в отдельный лист. Создадим лист “merge”, вставим туда колонки Слово, IPM-CorST и IPM-RLC (используйте специальную вставку: только значений). В столбце IPM-RLC замените все вхождения #Н/Д на пустую строку. Укажите формат ячеек с IPM - числовой.

таблица 14

Отсортируйте таблицу по столбцу “Слово” (по возрастанию), а затем по столбцу “IPM-CorST” (по убыванию).

УРА!

Вопросы для проверки:

Вопросы находятся в этой форме. Ответьте на них.
При ответах на вопросы не сортируйте таблицу, а пользуйтесь фильтрами в нужных столбцах.