Сайт курса «Лингвистические данные», бакалавры 1 курс НИУ ВШЭ
Возьмем частотные списки слов в из двух корпусов, КРУТ и Русского учебного корпуса (RLC) - частотные списки обрезаны по частоте. Вот ссылка на гугл-таблицу, с которой вы можете сделать себе копию (или скачать версию для работы в Excel).
Таблицы корпусов CorST и RLC находятся на разных вкладках.


Мы хотим получить общую таблицу, где данные из двух таблиц сведены вместе и их можно сравнить.
Внимание, в получившейся таблице могут и должны будут встречаться пустые ячейки!
Шаг 0.
Заполните в обеих таблицах столбец “Ранг”. Ваши таблицы уже отсортированы по частоте, поэтому заполним этот столбец числами 1, 2, 3 и т.д. Есть разные способы сделать это, например, заполнить первые 3 ячейки, выделить и дважды кликнуть на нижний правый угол (там появится “+”). Или вставить 1, а потом использовать формулу =1+D2 и т.п., которая будет увеличивать значения на 1.
Теперь сложнее. Слова с одинаковой частотой должны получить одинаковый ранг, например, слова может, также, является и у в CorST должны получить ранг 28, 29, 29, 31, соответственно. Придумайте и используйте формулу, которая может это сделать. (Если вы не справитесь с этим заданием, переходите к следующим шагам, ваши ответы будут засчитаны, но оценка будет снижена на 1 балл.)
Шаг 1.
Добавим в таблицу CorST столбец “Номер строки, на которой слово стоит в RLC”.

Шаг 2.
Затем для каждого слова в таблице CorST нужно:
RLCCorSTСделаем это с помощью формулы =ПОИСКПОЗ(...) (в английской версии =MATCH(...)).
В Excel эту формулу можно найти на вкладке Формулы в разделе “Ссылки и массивы”.

В окне вставки формул укажем три аргумента:
RLC и выделите столбец “Слово”Нажмем OK.

В ячейке должен отобразиться номер строки, на которой искомое слово стоит в таблице RLC. Проверьте (с помощью поиска), что номер правильный.
Скопируем ячейку с формулой и вставим ее в том же столбце напротив всех остальных слов (можно дважды кликнуть на правый нижний угол заполненной ячейки, чтобы ее формула автоматически растянулась на весь столбец; выделение можно также растянуть на весь диапазон до конца таблицы, пользуясь комбинацией горячих клавиш Shift + Ctrl + стрелка вниз).

NB Пересчет значений ячеек может занять некоторое время, особенно для больших таблиц. Если после пересчета значений в каких-то ячейках появится #Н/Д (в английской версии - #N/A), это означает, что строка с таким словом не найдена.
Шаг 3
Добавим в таблицу CorST столбец “IPM-RLC”.

Шаг 4
На вкладке Формулы в разделе “Ссылки и массивы” найдем формулу “ИНДЕКС” (в английской версии “INDEX”), и в открывшемся мастере формулы:

RLC и выделите столбец с IPM.CorST
Нажмите ОК.
Проверьте (с помощью поиска), что частота для данного слова указана правильно. Скопируем ячейку с формулой и вставим ее напротив всех остальных слов.

Теперь мы переставили все найденные данные из таблицы RLC. Осталось добавить те слова из RLC, которых не нашлось в основной таблице.
Шаг 5
Теперь все будет наоборот: добавим в таблицу RLC столбец “Номер строки, на которой слово стоит в CorST”.
Шаг 6
Для каждого слова в таблице RLC найдем его позицию в столбце со словами таблицы CorST и запишем в столбце “Номер строки…” (так же, как в Шаге 2).

Шаг 7
Теперь мы хотим взять из таблицы RLC только те слова, которых не нашлось в списке CorST.
Для этого отфильтруем все ячейки со значением “#Н/Д” в столбце “Номер строки…”.
Делается это так:
Если отфильтровать слова почему-то не удалось, можно попробовать отсортировать их по значению столбца “Номер строки, на которой слово стоит в RLC”. Так все слова со значением “#Н/Д” в этом столбце окажутся внизу или вверху таблицы, и их можно будет скопировать вручную.

Теперь добавим данные по этим словам в таблицу CorST (тут можно просто скопировать слова в столбец “Слова”, внизу под существующим списком, а затем скопировать значения IPM в столбец IPM-RLC).
Примечание: если вам не удается вставить скопировать слова на другую вкладку, значит, вы пытаетесь вставить содержание целого столбца в часть другого столбца, что невозможно. Выделите именно диапазон ячеек от первого до последнего слова (и соответствующий диапазон частот).
Шаг 8
Теперь у нас в таблице CorST сведены все данные!
Давайте выделим нужные нам данные в отдельный лист. Создадим лист “merge”, вставим туда колонки Слово, IPM-CorST и IPM-RLC (используйте специальную вставку: только значений). В столбце IPM-RLC замените все вхождения #Н/Д на пустую строку. Укажите формат ячеек с IPM - числовой.

Отсортируйте таблицу по столбцу “Слово” (по возрастанию), а затем по столбцу “IPM-CorST” (по убыванию).
УРА!
Вопросы находятся в этой форме. Ответьте на них.
При ответах на вопросы не сортируйте таблицу, а пользуйтесь фильтрами в нужных столбцах.