Применение дисперсионного анализа на конкретном примере
Евгений Бондаренко

В предыдущих статьях мы проводили сравнения двух групп (например, М и Ж, уволенных по собственному желания и по инициативе работодателя и т. д.) различными статистическими критериями. И если вы еще не читали данный материал, тогда рекомендую вам ознакомиться с ним:

Но, что делать, если у нас не две группы, а больше? В такой ситуации мы можем применить дисперсионный анализ.

Давайте это и сделаем!
Данные
Являясь адептом hr-аналитики, я еще и ярый сторонник энергоэффективности. Причем энергоэффективности не бумажной или теоретической, а реальной, практической энергоэффективности своего собственного жилья.

Многие ли из читающих данную статью, знают, сколько они потребляют электроэнергии в месяц в кВт*ч? А сколько в сутки? А сколько за день? А сколько за ночь? А есть ли разница между зимними и летними месяцами? И этот список вопросов можно продолжать.

Ответы на все эти вопросы могут помочь нам сделать свое жилье еще более энергоэффективным.

Последние 8 месяцев я веду детальный учет своего энергопотребления. За это время у меня собрался вот такой датасет.
Названия колонок говорят сами за себя, поэтому не буду останавливаться на этом.
Идея и гипотезы
Идея исследования состоит в том, чтобы поискать отличия в энергопотреблении в разные дни недели (т.е. мы имеем 7 групп). А также найти значимые отличия в энергопотреблении в различные месяцы (у меня есть данные за 8 месяцев).

В дисперсионном анализе у нас есть зависимая переменная — это количество потребляемой энергии и независимая переменная — день недели или месяц. По нашей независимой переменной мы будем делить выборку на несколько групп.

Давайте сформулируем наши гипотезы в дисперсионном анализе.

Нулевая гипотеза: Средние величины зависимой переменной во всех группах одинаковы.

Альтернативная гипотеза: Средние величины зависимой переменной в разных группах различны.

Идея данного исследования состоит в том, чтобы сравнить между собой различные месяцы, а также дни недели. Поскольку у нас есть данные за 8 месяцев, то у нас будет 8 групп. А также у нас есть 7 дней недели — 7 групп для сравнения.

С этой задачей как раз справиться дисперсионный анализ.
Знакомство с данными
Давайте для начала познакомимся с нашими данными и сделаем несколько визуализаций.
Посмотрим на общее потребление э/э по месяцам:
А теперь давайте посмотрим на соотношение потребления днем и ночью:
А теперь еще добавим день недели:
Идея №1. Месяц
Итак, у нас есть зависимая переменная Потребление э/э за сутки и независимая переменная Месяц.
Выполнив тест, получим следующие результаты:
Мы получили значимый результат, что свидетельствует о неодинаковом использовании э/э в разные месяцы.

Также мы можем построить график со средними значения по каждой группе с 95%-ми доверительными интервалами:
На таком графике мы можем хорошо видеть межгрупповые различия.

Однако не из расчета не из данного графика нельзя достоверно понять, какие именно месяцы различаются между собой.

Для этой задачи нам нужно провести тест на попарные различия между средними значения для всех групп:
Для тех пар, где в правой колонке p<0,05, там разница значима. Очевидно, что в таком виде результат не очень удобно интерпретировать. Поэтому давайте сделаем его более наглядным.
Вот так уже лучше. Те линии (синие), которые пересекают 0 (ноль), означают, что между двумя группами нет статистически значимой разницы. А вот зеленые и, особенно, красные линии заслуживают внимания, чтобы с ними подробнее разобраться.
Идея №2. День недели
Теперь давайте проведем дисперсионный анализ, разделив наши данные на группы по дням недели.
И построим график со средними значения по каждой группе с 95%-ми доверительными интервалами:
А теперь проведем тест на попарные различия между средними значения для всех групп и визуализируем результат:
Из графика видно, что все доверительные интервалы пересекают 0 (ноль), а это означает, что между парами групп нет значимой разницы.

Но давайте еще раз попробуем посмотреть на дни недели. Только в этот раз мы возьмем не суточное потребление, а дневное (т.е. с 7:00 до 23:00).

Тест на межгрупповые различия дает следующий результат:
Теперь мы получили значимый результат (р<0,05). Давайте взглянем, между какими именно парами у нас есть значимые отличия.
Выше мы уже видели такой график и знаем, как его интерпретировать. Смотрим на красные и зеленые линии, которые не пересекают 0 (ноль). Именно между этими парами и есть значимые различия. И во всех этих парах присутствует ПТ (пятница). Стало быть, именно пятница выбивается из общей картины.
Вывод

1. Если у нас есть больше двух групп для сравнения, мы можем использовать дисперсионный анализ.

2. Выполнив дисперсионный анализ и получив значимый результат, очень важно правильно найти пары, между которыми найдены значимые отличия. Для этого следует воспользоваться широкими графическими возможностями R.

3. Мы провели три теста, и нашли значимые различие между группами. Теперь нужно принять решения, на основе полученных данных, внедрить их и продвигаться дальше в вопросе энергоэффективности.

Евгений Бондаренко
Автор статьи
СПАСИБО!
Если вам понравилась статья, расскажите о ней в соцсетях