Вот и я решил взглянуть на данные полученные в ходе опроса (Ключевые факторы эффективности и текучести персонала), которыми любезно поделился Эдуард Бабушкин.

Вступление. Философское

Накинутся на такой объём данных с наскоку не получится из-за их реальности. Нужно много задач решить на пути к тому, чтобы уже можно было работать с данными. Корректно их импортировать, проверить переменные на соответствие их типу, отловить пропущенные значения, отловить NA значения, понять, что с ними делать, выловить ошибки (например, дата увольнения 2035 год ), решить, что с ними делать. И это только маленькая часть предварительной работы. Преодолев данный этап предобработки данных, уже чувствуешь себя победителем. Когда даты являются датами, а числа числами, а факторы факторами. Чувство, когда все на местах! Кто знает, тот меня поймет. А вот кто не понял, о чем это я в предыдущей строке, тогда вперед изучать статистику, аналитику, R, Python. Последовательность может быть любой. Главное начать!

Идея №1

Я решил начать с заработных плат и увольнений. У нас есть данные о том, какую человек получал з/плату: «белую» или «серую». А также данные о том, сколько лет проработал в компании (т.е. берем только уволенных). Если мы объединим эти данные в одну таблицу, тогда получим такой результат:

##                     
##                      белая серая
##   до года              378   313
##   от 1 года до 2 лет   357   194
##   от 2 лет до 3 лет    199   111
##   от 3 лет до 4 лет    137    71
##   от 4 лет до 5 лет    116    43
##   свыше 5 лет          351   112

Интересно узнать есть ли взаимосвязь между зарплатой («белая»/«серая») и тем, как долго человек работает в компании. \(X^2\) дает следующий результат.

## 
##  Pearson's Chi-squared test
## 
## data:  my_t
## X-squared = 60.043, df = 5, p-value = 1.191e-11

Т.е. полученный результат значимый и есть существенные отклонения. Чтобы их увидеть, давайте построим mosaicplot по остаткам:

Как читать данный тип графиков?

  1. Размеры прямоугольников соответствуют количеству наблюдений.

  2. Цвет прямоугольников – величине значимости отклонений ожидаемых и наблюдаемых частот в конкретной ячейке.

  3. Если значения стандартизированных остатков больше 3х (синий или красный цвет), тогда можно считать, что в этой ячейке зафиксированы значимые отклонения.

Мы видим, что у нас правый верхний квадрат («серая» зарплата и стаж до 1 года) темно-синего цвета. Это означает, что очень много людей, кто согласился на «серую» заработную плату увольняются в первый же год с этой работы. Т.е. количество таких наблюдений у нас в разы больше, нежели ожидалось.

Идея №2

У нас есть данные о том, кто являлся инициатором увольнения: работодатель или сам сотрудник. Давайте посмотрим, есть ли взаимосвязь между этой переменной и полом. Объединив эти данные в таблицу сопряженности получим:

##    
##       Вы Работодатель
##   Ж 1573          321
##   М  678          276

Рассчитаем \(X^2\):

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  my_t1
## X-squared = 54.261, df = 1, p-value = 1.756e-13

Отклоняем нулевую гипотезу (p<0.05) о том, что две переменные (инициатор увольнения и пол работника) не взаимосвязаны. Чтобы проинтерпретировать результаты, давайте построим mosaicplot.

Что мы видим на это графике? Работодатель гораздо чаще увольняет по своей инициативе именно мужчин (правый нижний темно синий квадрат). С женщинами картинка прямо противоположная (левый нижний светло красный квадрат).

Идея №3

Еще у нас есть данные о размере заработной платы на момент увольнения работника. Если объединить эту информацию с инициатором увольнения и стажем работы в этой компании до увольнения в один красивый график, тогда получим:

Зеленые и красные боксплоты нам четко показывают, что работодатель увольняет более дорогих сотрудников, чем те, которые увольняются по собственной инициативе. Можно еще сделать и такое предположение, что менее оплачиваемые сотрудники находят более высоко оплачиваемую работу и поэтому сами увольняются.

Резюме

Пока это еще не супер глубокий анализ, а всего лишь первый подход к данным. Я бы сказал – знакомство с данными. Но уже понятно, в каком направлении можно направить работу. Есть интересные идеи, которые хотелось бы «прощупать». Следите за следующими подходами. :)