Схематически дополняемость аналитики и опыта друг-другом можно представить так (рис. 8):
Рис. 8. Дополняемость опыта и интуиции аналитикой
Немного объяснений к картинке. Сначала мы снимаем / регистрируем / собираем / получаем из реальности некие данные (причем данные в широком смысле слова и в любом виде).
Далее данные превращаются в знания, которые потом объединяются какими-то связями (вот это событие произошло потому, что было вот то-то и то-то) на основании нашего взаимодействия с реальностью. Знаниями и опытом мы уже можем делиться с другими.
Аналитика может нам помочь уточнить наши взаимосвязи: как опровергнуть их наличие в реальности, так и обрисовать скрытые взаимосвязи, которых мы сами не замечали. Это формирует более целостную картину.
В итоге при взаимодействии данных, знаний, опыта и аналитической проверки у нас может родиться некое концептуальное представление реальности (какого-то объекта, процесса, явления, случая и т.д.) – модель.
Это не сама реальность – это только ее модель, наше представление о ней. Но на базе этой модели мы уже можем более эффективно обмениваться пониманием реальности с другими людьми, а также постоянно его уточнять, приращивая новые знания и устраняя пробелы.
Есть еще, конечно, креативная отсебятина (кстати, очень часто встречаемая в менеджменте, социально-экономических и гуманиртарных направлениях). Когда человек что-то увидел, чего-то нахватался – и из этого породил в голове какую-то ерунду и, уверовав в нее, обозвал некой моделью (рис. 9).
Рис. 9. Модели без опыта и аналитики зачастую имеют очень отдаленные связи с реальностью
Иногда, конечно, бывает, что из такого креатива рождаются ± верные модели. Но они все равно проверяются только опытом, аналитикой и самой реальностью.
Какая лучшая программа для анализа данных?
Существует ряд программ для анализа данных. От всем уже привычного Excel, до коммерческих продуктов типа SPSS, Statistica, OCA и вплоть до отдельного языка программирования R, созданного специально под аналитику. Есть и бесплатные аналоги дорогостоящего коммерческого программного обеспечения – например, программа PSPP как аналог SPSS.
В интернете есть ряд официальных инструкций, курсов, книг и самоучителей по той или иной аналитической программной среде (какие кнопки нажимать, где находится та или иная функция, где смотреть вывод результатов и т.д.).
Но главное – понимать, что все эти программы не заменители «головы» аналитика.
Это всего лишь инструментарий. Но, невзирая вроде на эту понятную истину, постоянно разворачиваются баталии на тему «какая программа лучше». Всегда хочется спросить о критерии «лучшести» – ведь каждая программа имеет свои плюсы и минусы, возможности и ограничения.
Решение об использовании той или иной программной среды – это на самом деле исключительно вопрос профессиональных и личных предпочтений.
Я, например, в своей практике использую несколько инструментов: подавляющая часть того, что я делаю, сделана в SPSS, ОСА и Excel.
SPSS и ОСА – поскольку привык ими пользоваться. Excel – потому, что удобен бизнеса и его может открыть, просмотреть и отследить логику формул любой бизнес-пользователь.
Для некоторых задач использую R. Но с языков программирования я бы не рекомендовал начинать не-техническим профессионалам. Это дольше, сложнее, да и вряд ли Вы в своей работе столкнетесь с настолько емкими задачами, чтобы не решить их более простым способом.
Потому, что использовать – больше будет зависеть от того, что Вы решите и осилите освоить. Однозначно в бизнесе (за исключением, если Вы профессиональный аналитик и это Ваша ежедневная работа) самым ходовым инструментом является Excel. Бизнес – это клеточки Excel.
Потому и в данной книге вначале будет показана реализация описательных статистик в Excel, чтобы Вы могли применять эти навыки в знакомом офисном приложении. Но по мере усложнения методов и уровня аналитики мы перейдем на PSPP (аналог-заменитель SPSS).
При обучении прикладному инструментарию для нас с Вами критерием «лучшести» является простота и привычность. Чтобы читатели тратили время не на изучение программы, а фокусировались на сути решаемых задач.
И мой выбор для начинающих и не-инженерных профессий – однозначно Excel и PSPP. Но не просто читайте разделы и главы, а после прочтения сходу отрабатывайте методы в этих программах на Ваших массивах.
Упоминая Excel, не хочу сформировать неправильные ожидания к книге, потому сделаю ударение: в книге не будет обучения базовым навыкам работы с Excel. Изложение книги предполагает, что читатель уже на минимальном базовом уровне знаком с Excel.
Очень краткие итоги раздела
Что я хотел, чтобы читатель вынес из раздела:
1. Никогда не ставьте ИЛИ между аналитикой и интуицией. Всегда И. Не умаляйте роль творчества и случайностей.
2. Пять особенностей социально-экономической реальности:
· Изменчивость
· Редкость нормального распределения
· Репрезентативность выборки
· Пристальное внимание к выбивающимся из общего массива случаям / объектам / наблюдениям
· Важность модели
3. Модель должна предшествовать анализу, чтобы иметь возможность объяснить и проинтерпретировать данные.
4. Разницу между данными, метриками, КПД, дашбордами и собственно аналитикой как поиском скрытых закономерностей и построения прогнозов посредством специального набора инструментов.
5. Неважно какой программный продукт / инструмент Вы используете – используйте то, что знаете. Программы / инструменты дополняют и повышают эффективность, но не заменяют человека.
ВВЕДЕНИЕ В СТАТИСТИЧЕСКИЙ АНАЛИЗ
О статистическом анализе
Нас повсюду окружают данные. В соцсетях, в магазинах, рекламе, метро… даже в авиалайнере. Весь мир – это цифры.
Нам может казаться, что собирая данные (при чем все больше и больше), мы контролируем большое количество важных вещей и держим ситуацию под контролем.
Но на самом деле важно уметь отбирать именно те данные, которые помогают понять ситуацию и принять решения, даже располагая неполной информацией. Какие именно данные важны помогает понять модель, о которой мы уже говорили.
С данными помогает работать такая наука как статистика. Именно она позволяет придать понятный вид и смысл огроменным массивам данных, состоящим даже из миллиардов или триллионов значений.
Статистика делится на описательную и аналитическую. Мы в книге рассмотрим оба эти ответвления.
Задача описательной статистики только описать объект, процесс, явление – используя среднее значение, % распределения, количество и т. д.
Аналитическая статистика использует более сложные методы, которые позволяют рассчитать взаимосвязи между переменными, а также понять, являются ли эти взаимосвязи просто случайными совпадениями или реальными закономерностями.
Анализ данных является ключевым этапом, в ходе которого происходит непосредственная проверка соответствия собранной информации нашим моделям явлений, процессов или объектов.
И более того: в ходе анализа формулируются и проверяются / уточняются существующие или рождаются новые модели, отражающие те закономерности, которые мы нашли в собранных данных.
Исследователь, ученый, менеджер или работник выдвигает определенную модель явления / процесса / объекта, демонстрирует соответствие (либо противоречие) данных и содержащихся в них закономерностей этой модели – и только потом может опираться на модель, отвлекаясь уже от самих данных. Нам, к примеру, уже не нужно постоянно опираться на данные, чтобы понимать, что Земля вращается вокруг Солнца.
Именно статистический анализ позволяет нам находить скрытые закономерности, которые дают нам больше понимания о реальности и уточняют как она работает.
Но, прежде чем искать закономерности, надо рассмотреть несколько важных вещей из области статистики – и мы их далее рассмотрим в рамках этого раздела.