Оценить:
 Рейтинг: 2.6

Много цифр. Анализ больших данных при помощи Excel

Год написания книги
2014
Теги
<< 1 2 3 4 5 6 7 >>
На страницу:
2 из 7
Настройки чтения
Размер шрифта
Высота строк
Поля

Кто я?

Давайте прервемся ненадолго, и я расскажу вам о себе. Научный подход к изучению данных, который я проповедую, возник не вчера – к нему меня вел долгий путь. Много лет назад я был консультантом по менеджменту. Я работал над аналитическими проблемами таких организаций, как ФБР, министерство обороны США, компания Coca-Cola, группы отелей Intercontinental и Royal Carribbean. Из всего этого опыта я вынес одно: наука о данных должна стать прерогативой не только ученых.

Я работал с менеджерами, которые покупали симуляции, когда им были нужны модели оптимизации. Я работал с аналитиками, которые понимали только графики Ганта[1 - Популярный тип столбчатых диаграмм (гистограмм), который используется для иллюстрации плана, графика работ по какому-либо проекту. Является одним из методов планирования проектов. – Прим. ред.], так что абсолютно все приходилось представлять в виде этих графиков. Как консультанту, мне было нетрудно расположить к себе покупателя, имея в арсенале любые старые бумаги и миленькую презентацию в PowerPoint, потому что они не могли отличить искусственный интеллект от бизнес-анализа, а бизнес-анализ – от ВS.

Цель этой книги – расширение аудитории, способной понять и применить техники научного анализа данных. Я не пытаюсь обратить вас, уважаемые читатели, в специалистов по научной обработке данных против вашей воли. Я просто хочу, чтобы вы научились применять науку о данных настолько, насколько сможете, в той области, в которой вы уже хорошо разбираетесь.

Это заставляет задать вопрос: кто же вы?

Кто вы?

Не пугайтесь, я не использовал научный анализ данных, чтобы шпионить за вами. Я понятия не имею, кто вы, но заранее благодарен вам за то, что раскошелились на эту книгу.

Вот несколько архетипов (или личностей – для вас, маркетологи!), которые пришли мне на ум, когда я писал эту книгу. Возможно, вы:

• заместитель начальника по маркетингу и хотите использовать свои бизнес-переменные стратегическим образом, для оценки продукта и сегмента рынка, но не понимаете подходов, рекомендуемых разработчиками приложений и переоцененными консультантами;

• аналитик, предсказывающий спрос, который знает, что история заказов фирмы содержит больше информации о клиентах, чем даже план на следующий квартал;

• руководитель розничного интернет-магазина, желающий угадать по данным о предыдущих заказах, когда клиент скорее всего «созреет» для очередной покупки;

• бизнес-аналитик, который в состоянии просчитать растущие денежные потоки и затраты на снабжение, но не знает, как перебросить мостик экономии на издержках;

• онлайн-маркетолог, который хочет чего-то большего для своей компании от бесплатных текстовых сервисов, таких как электронные письма или социальные сети. Пока же судьба разосланных сообщений незавидна – их открывают и тут же выбрасывают в корзину.

Иными словами, вы – читатель, который получает практическую пользу от дополнительной информации о научной обработке данных, но пока не нашел «свой конек» во всем многообразии техник. Цель этой книги – стряхнуть мишуру (код, инструменты и просто слухи) с науки о данных и обучить необходимым техникам на практических примерах, понятных любому, прошедшему курс линейной алгебры или вычислительной математики в институте. Если вы, конечно, их успешно сдали. Если нет – читайте медленно и не стесняйтесь пользоваться Википедией.

Никаких сожалений – только электронные таблицы

Эта книга не о программировании. Я даже готов гарантировать полное отсутствие (ну, по крайней мере, до главы 10) в ней кода. Почему?

Да потому что я не хочу тратить первые сто страниц на возню с Git, объявлением переменных среды и выступление Emacs против Vi.

Если вы пользуетесь исключительно Windows и Microsoft Office, работаете в государственной структуре и вам запрещено скачивать и устанавливать приложения из каких попало открытых источников и даже если MATLAB или ваш графический калькулятор наводили на вас леденящий ужас во времена студенчества, вам нечего бояться.

Нужно ли вам знать, как пишется код, чтобы перевести большую часть этих техник в автоматизированную, производственную форму? Непременно! Вы или кто-то из ваших коллег должен знать технологии хранения данных и уметь управляться с кодом.

Нужно ли вам знать, как пишется код, чтобы понимать, различать и моделировать эти техники? Совершенно ни к чему!

Именно поэтому я объясняю каждую методику с помощью электронных таблиц.

Ну, ладно, если по-хорошему, то я должен признаться, что все вышесказанное мною не совсем правда. Последняя глава этой книги – о переходе на язык программирования R, ориентированный на анализ данных. Она предназначена для тех из вас, кто захочет использовать эту книгу как трамплин к пониманию новых глубин аналитики.

Но электронные таблицы так устарели!

Электронные таблицы – не самый привлекательный инструмент из существующих.

Электронные таблицы стоят немного особняком. Они позволяют вам видеть данные и взаимодействовать с ними (или, по крайней мере, кликать на них). Они создают определенную свободу для маневра. Во время изучения анализа данных вам понадобится инструмент – привычный, понятный каждому, позволяющий двигаться быстро и легко в процессе. Это и есть электронные таблицы.

Давайте, наконец, скажем себе: «Я человек и обладаю чувством собственного достоинства. Я не должен делать вручную работу программного фреймворка, чтобы научиться анализировать данные».

А еще электронные таблицы отлично подходят для прототипирования! Конечно, вы не запустите с их помощью производственную модель ИИ[2 - Искусственный интеллект. – Прим. пер.] для вашего интернет-магазина из программы Excel, но зато сможете понять характер заказов, спрогнозировать, какие продукты в будущем вызовут интерес потребителей, и разработать прототип модели для определения целевой аудитории.

Используйте Excel или LibreOffice

Все примеры, с которыми вам придется работать, отображаются в таблицах Excel.

На сайте этой книги (

) размещены электронные таблицы с открытым доступом для каждой главы, так что вы сможете следить за ходом повествования. Если вы по натуре склонны к риску, можете стереть оттуда все данные, кроме исходных, и сделать всю работу самостоятельно.

Эта книга совместима с Excel версий 2007, 2010, 2011 для MacOS и 2013. В первой главе достаточно подробно рассматриваются различия между версиями.

У большинства из вас есть доступ к Excel и вы наверняка уже применяете его в вашей работе для отчетности или хранения информации. Но если по какой-то причине этой программы у вас нет, вы можете ее либо купить, либо воспользоваться бесплатным аналогом от LibreOffice (

).

А как же Google Drive?

Кто-то из вас наверняка спросит, можно ли при решении задач, которые нам предстоят, использовать Google Drive – облачный сервис, доступный с любого устройства, как почтовый ящик. Что и говорить, вариант заманчивый… К сожалению, он не будет работать.

Google Drive отлично справляется с небольшими таблицами, но того, чем собираетесь заниматься вы, он просто не выдержит. Процесс добавления строк и колонок уже раздражает, реализация поиска решения просто ужасна, а у графиков даже нет линий тренда!

Хотелось бы мне, чтобы было иначе, но увы…

LibreOffice – открытый бесплатный ресурс, имеющий практически всю функциональность Excel. Я даже думаю, что его собственный поиск решений предпочтительнее, чем у Excel. Так что если вы не раздумали читать эту книгу – вперед!

Условные обозначения

Чтобы помочь вам извлечь из текста максимальную пользу, я ввел в эту книгу несколько условных обозначений.

Вставки

Вставки типа той, в которой вы только что прочитали про Google Drive, раскрывают «побочные» темы, упомянутые в тексте.

Внимание!

Эти разделы содержат важную информацию, напрямую связанную с текстом, которую я рекомендую все время держать в уме.

Заметки

Здесь вы найдете советы, подсказки, приемы и все в этом духе, что пришлось к слову в текущем обсуждении.

Частенько я буду вставлять в текст небольшие кусочки кода Excel вроде этого:

Мы выделяем курсивом новые термины и важные слова при первом упоминании. Названия файлов, веб-страниц и формул в тексте выглядят так:

Итак, начнем
<< 1 2 3 4 5 6 7 >>
На страницу:
2 из 7

Другие электронные книги автора Джон Форман