Два подхода к исследованию взаимосвязей (на конкретных примерах)
Евгений Бондаренко
Для исследования взаимосвязи между двумя переменными, которые выражены в относительной шкале (т.е. конкретные цифры: тонны, км, тыс. грн. и т. д.), мы можем использовать коэффициент корреляции.

Давайте посмотрим, как это сделать.

У нас есть данные по двум переменным: Скорость чтения и Количество книг (прочитанных):
Мы можем быстро построить график scatter plot, который покажет нам характер взаимосвязи:
Теперь мы можем рассчитать коэффициент корреляции.

Поскольку у нас нарушается условие нормальности распределения по одной из переменных, будем рассчитывать коэффициент корреляции Кендала:
Мы видим, что у нас есть слабая положительная корреляция 0,25 и этот результат статистически значим (p = 0.00387).

По сути, это все выводы, которые мы можем сделать из данного расчета.
Как же нам больше узнать о характере взаимосвязи эти двух переменных?
Есть еще один метод, который считается более достоверным, поскольку он учитывает индивидуальные особенности внутри выборки, а не приводит к «угрупнению», как это делается при расчете коэффициента корреляции.

Его суть состоит в следующем.

Для начала, мы берем нашу выборку и делим ее по показателям первой переменной на несколько групп. Например, мы можем по переменной «Скорость чтения» выделить три группы: медленная, средняя, быстрая. И эти три группы будут характеризовать выраженность нашего признака «Скорость чтения».

А потом, уже среди этих групп смотрим, насколько выражен второй признак. И начинаем искать значимые различия между группами.

И здесь мы можем применять уже более широкий арсенал, а не только коэффициент корреляции: критерий Розенбаума, критерий Манна-Уитни, критерий Стьюдента, критерий Крускала-Уоллиса и даже дисперсионный анализ.
Теперь давайте все это сделаем на практике.
Для начала нам нужно разделить нашу выборку на группы по первой переменной.
Давайте взглянем на кривую нормально распределения.
Мы помним, что +/- одно стандартное отклонение охватит 68,26% выборки, +/- два стандартных отклонения — 95,44% и т. д.

Если мы отложим от центра +/- 0,5 стандартного отклонения, тогда получим следующую картину:
Половина всех наблюдений из нашей выборки попадет в группу со средней выраженностью фактора — средняя; 25%, которые находятся слева, попадут в группу — медленная; и 25% выборки, которые находятся справа, попадут в группу — быстрая.

Проделав нехитрые манипуляции в R, мы разделим нашу выборку на три группы по фактору Скорость чтения:
Итак, мы разделили наши наблюдения по переменной Скорость чтения на три группы:

Медленная — 24 наблюдения

Средняя — 27 наблюдений

Быстрая — 16 наблюдений

Теперь у нас есть три группы, которые мы можем сравнивать между собой по второй переменной Количество (прочитанных) книг. И для того, чтобы наши различия были еще более выраженными, мы можем исключить нашу среднюю группу из дальнейших расчетов, и сравнивать только две группы: Медленная и Быстрая.

Давайте так и сделаем. Мы проведем двухвыборочный односторонний тест. Поскольку у нас нарушается условие нормальности по второй переменной Количество (прочитанных) книг, мы будем использовать непараметрический критерий Манна-Уитни:
Мы получили значимый результат p = 0.0035. Т. е. мы можем сделать вывод о том, что люди, которые читают быстрее (попали в группу «быстрая»), читают больше книг за год, нежели люди, которые читают медленно (попали в группу «медленная»).

Если сравнить средние значения Количества (прочитанных) книг этих двух групп, получится разница почти в три раза:
И давайте визуализируем наш финальный расчет:
Вывод

1. Исследовать взаимосвязи между количественными переменными можно не только расчетом коэффициента корреляции.

2. Часто, для более глубокого понимания взаимосвязи между количественными переменными, мы можем преобразовать нашу количественную переменную в качественную (фактор). И важно понимать, что такое преобразование открывает перед нами новые возможности для анализа взаимосвязей.


Евгений Бондаренко
Автор статьи
СПАСИБО!
Если вам понравилась статья, расскажите о ней в соцсетях