Оценить:
 Рейтинг: 0

Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…

Год написания книги
2019
<< 1 ... 4 5 6 7 8
На страницу:
8 из 8
Настройки чтения
Размер шрифта
Высота строк
Поля

Первое, что мы делаем – проверяем типы данных и шкалы наших переменных. В Excel достаточно сделать все данные числовыми (кроме названий компаний, ФИО, случаев и т.д.). Когда Вы будете использовать другой продукт (SPSS, PSPP, OCA и т.д.), то там будут свои требования.

Второе – проверяем корректность данных, путем использования фильтров или функционала сводной таблицы. Например, если у Вас переменная «Пол» принимает кроме значения 1 (мужчина) и 0 (женщина) еще какие-то числа – надо отобрать фильтром эти числа и понять откуда они «всплыли». Возможно, просто массив по конкретных строкам сместился в сторону, а возможно их надо удалить или запросить уточнение данных.

Третье – недостающие или пропущенные данные. Что с ними делать надо решать исходя из особенностей предмета, который Вы анализируете / исследуете. Обычно их либо выкидывают, либо заменяют средними значениями или модой.

Четвертое – преобразование данных. Это когда одни данные переводятся в другие. Это как перевести килограммы в граммы или вообще в категорийное понятие «большой / малый вес».

Например, Вы собрали данные о количестве детей у сотрудников, а потом решили поделить на категории: до 2 детей, 3—4 ребенка, 5 и более детей. Потому что именно в разрезе таких категорий Вы будете принимать управленческие решения (например, выплачивать тот или иной размер выходного пособия при сокращении).

Давайте посмотрим, как преобразование выглядит в Excel и PSPP. Только не пытайтесь сейчас запомнить окна и надписи на рисунках – это иллюстративные примеры: просто попытайтесь уловить логику шагов. Даже если не уловите – мы будем в деталях рассматривать эти вещи в других разделах.

Для преобразования в Excel Вы добавляете колонку и используете формулу ЕСЛИ, чтобы на основании данных колонки «количество детей» вывести новую переменную (рис. 19).

Рис. 19. Перекодирование в Excel через формулу =ЕСЛИ

В PSPP необходимо будет использовать функцию TRANSFORM / COMPUTE или RECODE или ПРЕОБРАЗОВАТЬ / ВЫЧИСЛИТЬ или ПЕРЕКОДИРОВАТЬ…: с ее помощью можно на основании имеющихся переменных вычислить любые другие переменные (рис.20).

Рис. 20. Перекодирование в PSPP

Кого картинки с формулами и окнами «напрягли» – «спокойствие, только спокойствие»: они не страшны, да и работа с ними занимает на самом деле секунды. Выглядят просто эти окна страшнее, чем для даже более сложных видов в анализа. Как я говорил, с этими функциями (как в Excel, так и в PSPP) мы еще отдельно познакомимся далее по ходу книги.

Что стоит еще просто упомянуть в части подготовки массива к анализу.

Есть еще процедура нормирования всего массива – приведение всех переменных к % значениям или вычитанием среднего с последующим делением на стандартное отклонение – но в этих вычислениях Вас запутывать не буду.

Есть еще взвешивание. Вам пока этим также баловаться не нужно – и вряд ли работая в организациях (кроме исследовательских социологических или маркетинговых агентств) Вы с такой необходимостью столкнетесь.

Процедуру взвешивания чаще всего используют опытные социологи и политтехнологи. Особенно когда «на заказ» необходимо получить нужные результаты опроса: просто всегда можно подобрать для взвешивания массива какую-то переменную, чтобы получить нужные результаты.

Например, в опросе реально приняли участие 30% женщин и 70% мужчин, что отражает состав исследуемого региона и под это строилась выборка. Но результаты получились совсем не для PR и формирования мнения избирателей… А вот если «взвесить» массив по общепринятому распределению мужчин и женщин в мире или стране мы можем получить ближе к тому, что будет выглядеть более красиво. Проделывается процедура взвешивания по «целесообразному» распределению (потом в случае вопросов всяких «умников» полученные результаты обосновываются взвешиванием массива по некой «классической норме для М и Ж»).

Теперь Вы подготовили данные к анализу – можем начинать анализ. Только для отработки навыков Вам нужно работать с массивами прямо в программах.

На курсах и тренингах слушатели работают с моими массивами данных из разных проектов. Но при работе с книгой Вам нужно использовать собственные массивы данных – возьмите его на предприятии, по результатам опроса, собственную базу клиентов, если Вы фрилансер, или на худой конец скачайте какие-то данные из интернета.

«EXCEL'НЫЙ МИДКВЕЛ»

Весь бизнес-excel в 5 основных функциях

Я говорил во введении о вынужденной мере с Excel. Как раз после массивов и в преддверии перехода к описательной и аналитической статистике время по нему пройтись.


Вы ознакомились с фрагментом книги.
Приобретайте полный текст книги у нашего партнера:
<< 1 ... 4 5 6 7 8
На страницу:
8 из 8