Оценить:
 Рейтинг: 0

Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…

Год написания книги
2019
<< 1 2 3 4 5 6 7 8 >>
На страницу:
4 из 8
Настройки чтения
Размер шрифта
Высота строк
Поля

Схематически дополняемость аналитики и опыта друг-другом можно представить так (рис. 8):

Рис. 8. Дополняемость опыта и интуиции аналитикой

Немного объяснений к картинке. Сначала мы снимаем / регистрируем / собираем / получаем из реальности некие данные (причем данные в широком смысле слова и в любом виде).

Далее данные превращаются в знания, которые потом объединяются какими-то связями (вот это событие произошло потому, что было вот то-то и то-то) на основании нашего взаимодействия с реальностью. Знаниями и опытом мы уже можем делиться с другими.

Аналитика может нам помочь уточнить наши взаимосвязи: как опровергнуть их наличие в реальности, так и обрисовать скрытые взаимосвязи, которых мы сами не замечали. Это формирует более целостную картину.

В итоге при взаимодействии данных, знаний, опыта и аналитической проверки у нас может родиться некое концептуальное представление реальности (какого-то объекта, процесса, явления, случая и т.д.) – модель.

Это не сама реальность – это только ее модель, наше представление о ней. Но на базе этой модели мы уже можем более эффективно обмениваться пониманием реальности с другими людьми, а также постоянно его уточнять, приращивая новые знания и устраняя пробелы.

Есть еще, конечно, креативная отсебятина (кстати, очень часто встречаемая в менеджменте, социально-экономических и гуманиртарных направлениях). Когда человек что-то увидел, чего-то нахватался – и из этого породил в голове какую-то ерунду и, уверовав в нее, обозвал некой моделью (рис. 9).

Рис. 9. Модели без опыта и аналитики зачастую имеют очень отдаленные связи с реальностью

Иногда, конечно, бывает, что из такого креатива рождаются ± верные модели. Но они все равно проверяются только опытом, аналитикой и самой реальностью.

Какая лучшая программа для анализа данных?

Существует ряд программ для анализа данных. От всем уже привычного Excel, до коммерческих продуктов типа SPSS, Statistica, OCA и вплоть до отдельного языка программирования R, созданного специально под аналитику. Есть и бесплатные аналоги дорогостоящего коммерческого программного обеспечения – например, программа PSPP как аналог SPSS.

В интернете есть ряд официальных инструкций, курсов, книг и самоучителей по той или иной аналитической программной среде (какие кнопки нажимать, где находится та или иная функция, где смотреть вывод результатов и т.д.).

Но главное – понимать, что все эти программы не заменители «головы» аналитика.

Это всего лишь инструментарий. Но, невзирая вроде на эту понятную истину, постоянно разворачиваются баталии на тему «какая программа лучше». Всегда хочется спросить о критерии «лучшести» – ведь каждая программа имеет свои плюсы и минусы, возможности и ограничения.

Решение об использовании той или иной программной среды – это на самом деле исключительно вопрос профессиональных и личных предпочтений.

Я, например, в своей практике использую несколько инструментов: подавляющая часть того, что я делаю, сделана в SPSS, ОСА и Excel.

SPSS и ОСА – поскольку привык ими пользоваться. Excel – потому, что удобен бизнеса и его может открыть, просмотреть и отследить логику формул любой бизнес-пользователь.

Для некоторых задач использую R. Но с языков программирования я бы не рекомендовал начинать не-техническим профессионалам. Это дольше, сложнее, да и вряд ли Вы в своей работе столкнетесь с настолько емкими задачами, чтобы не решить их более простым способом.

Потому, что использовать – больше будет зависеть от того, что Вы решите и осилите освоить. Однозначно в бизнесе (за исключением, если Вы профессиональный аналитик и это Ваша ежедневная работа) самым ходовым инструментом является Excel. Бизнес – это клеточки Excel.

Потому и в данной книге вначале будет показана реализация описательных статистик в Excel, чтобы Вы могли применять эти навыки в знакомом офисном приложении. Но по мере усложнения методов и уровня аналитики мы перейдем на PSPP (аналог-заменитель SPSS).

При обучении прикладному инструментарию для нас с Вами критерием «лучшести» является простота и привычность. Чтобы читатели тратили время не на изучение программы, а фокусировались на сути решаемых задач.

И мой выбор для начинающих и не-инженерных профессий – однозначно Excel и PSPP. Но не просто читайте разделы и главы, а после прочтения сходу отрабатывайте методы в этих программах на Ваших массивах.

Упоминая Excel, не хочу сформировать неправильные ожидания к книге, потому сделаю ударение: в книге не будет обучения базовым навыкам работы с Excel. Изложение книги предполагает, что читатель уже на минимальном базовом уровне знаком с Excel.

Очень краткие итоги раздела

Что я хотел, чтобы читатель вынес из раздела:

1. Никогда не ставьте ИЛИ между аналитикой и интуицией. Всегда И. Не умаляйте роль творчества и случайностей.

2. Пять особенностей социально-экономической реальности:

· Изменчивость

· Редкость нормального распределения

· Репрезентативность выборки

· Пристальное внимание к выбивающимся из общего массива случаям / объектам / наблюдениям

· Важность модели

3. Модель должна предшествовать анализу, чтобы иметь возможность объяснить и проинтерпретировать данные.

4. Разницу между данными, метриками, КПД, дашбордами и собственно аналитикой как поиском скрытых закономерностей и построения прогнозов посредством специального набора инструментов.

5. Неважно какой программный продукт / инструмент Вы используете – используйте то, что знаете. Программы / инструменты дополняют и повышают эффективность, но не заменяют человека.

ВВЕДЕНИЕ В СТАТИСТИЧЕСКИЙ АНАЛИЗ

О статистическом анализе

Нас повсюду окружают данные. В соцсетях, в магазинах, рекламе, метро… даже в авиалайнере. Весь мир – это цифры.

Нам может казаться, что собирая данные (при чем все больше и больше), мы контролируем большое количество важных вещей и держим ситуацию под контролем.

Но на самом деле важно уметь отбирать именно те данные, которые помогают понять ситуацию и принять решения, даже располагая неполной информацией. Какие именно данные важны помогает понять модель, о которой мы уже говорили.

С данными помогает работать такая наука как статистика. Именно она позволяет придать понятный вид и смысл огроменным массивам данных, состоящим даже из миллиардов или триллионов значений.

Статистика делится на описательную и аналитическую. Мы в книге рассмотрим оба эти ответвления.

Задача описательной статистики только описать объект, процесс, явление – используя среднее значение, % распределения, количество и т. д.

Аналитическая статистика использует более сложные методы, которые позволяют рассчитать взаимосвязи между переменными, а также понять, являются ли эти взаимосвязи просто случайными совпадениями или реальными закономерностями.

Анализ данных является ключевым этапом, в ходе которого происходит непосредственная проверка соответствия собранной информации нашим моделям явлений, процессов или объектов.

И более того: в ходе анализа формулируются и проверяются / уточняются существующие или рождаются новые модели, отражающие те закономерности, которые мы нашли в собранных данных.

Исследователь, ученый, менеджер или работник выдвигает определенную модель явления / процесса / объекта, демонстрирует соответствие (либо противоречие) данных и содержащихся в них закономерностей этой модели – и только потом может опираться на модель, отвлекаясь уже от самих данных. Нам, к примеру, уже не нужно постоянно опираться на данные, чтобы понимать, что Земля вращается вокруг Солнца.

Именно статистический анализ позволяет нам находить скрытые закономерности, которые дают нам больше понимания о реальности и уточняют как она работает.

Но, прежде чем искать закономерности, надо рассмотреть несколько важных вещей из области статистики – и мы их далее рассмотрим в рамках этого раздела.
<< 1 2 3 4 5 6 7 8 >>
На страницу:
4 из 8