
Большие данные. Big Data. Учебник для вузов
Скачать книгу в форматах
Краткое содержание
Введение в концепцию больших данных
Учебник А. Е. Журавлева открывается фундаментальным анализом феномена больших данных (Big Data), определяя их как совокупность технологий и методов работы с огромными массивами информации, которые невозможно обработать традиционными инструментами. Автор подчеркивает революционный характер Big Data, изменивших подходы к анализу информации в науке, бизнесе и государственном управлении. Журавлев акцентирует внимание на историческом контексте: от первых баз данных 1960-х до современной эпохи, где ежесекундно генерируются терабайты данных через социальные сети, IoT-устройства и транзакционные системы. Ключевой тезис введения — переход от «данных как ресурса» к «данным как стратегическому активу», определяющему конкурентоспособность организаций.
Характеристики и вызовы Big Data
Детально разбирая знаменитые «3V» (Volume, Velocity, Variety), автор расширяет модель до «5V», добавляя Veracity (достоверность) и Value (ценность). Объем данных иллюстрируется примерами: суточный трафик YouTube (эксабайты), записи с камер наблюдения мегаполисов, геномные последовательности. Скорость поступления данных рассматривается через призму реального времени — биржевые котировки, данные телеметрии автономных автомобилей. Разнообразие форматов (текст, изображения, сенсорные сигналы) ставит задачи интеграции структурированных и неструктурированных данных. Отдельная глава посвящена проблеме «шума» — ложных, избыточных или противоречивых данных, требующих препроцессинга. Журавлев предупреждает о рисках «паралича анализа» — ситуации, когда затраты на хранение и обработку данных превышают их практическую пользу.
Технологический стек Big Data
Центральное место в учебнике занимает разбор технологий Hadoop и экосистемы связанных инструментов (HDFS, MapReduce, YARN). Принцип распределенной обработки объясняется через аналогии с промышленным конвейером, где задачи делятся на подзадачи, выполняемые кластером серверов. Автор противопоставляет пакетную обработку (Hadoop) и потоковую (Apache Kafka, Apache Flink), приводя кейсы финтеха — обнаружение мошеннических транзакций за миллисекунды. Глава о Spark фокусируется на интерактивности и MLlib — библиотеке машинного обучения для прогнозной аналитики. Отдельный раздел посвящен NoSQL-базам: Cassandra для временных рядов, MongoDB для документно-ориентированных данных, Neo4j для сетевого анализа. Журавлев критикует «моду на технологии», настаивая на выборе инструментов под конкретные бизнес-задачи.
Методы анализа и машинное обучение
Переходя к аналитике, автор систематизирует методы на дескриптивные, диагностические, предиктивные и прескриптивные. Классификация, кластеризация и регрессия разбираются на примерах: сегментация клиентов ритейла, прогноз оттока абонентов сотовых операторов. Подчеркивается роль feature engineering — создания признаков, повышающих точность моделей. Глубокое обучение представлено через архитектуры CNN (распознавание изображений в медицине) и RNN (обработка естественного языка в чат-ботах). Особое внимание уделено проблеме переобучения — автор рекомендует методы регуляризации и кросс-валидации. Этический аспект ML раскрыт через кейс bias в алгоритмах кредитного скоринга, дискриминирующих меньшинства.
Визуализация и интерпретация результатов
Журавлев настаивает: даже совершенная модель бесполезна без понятной визуализации. Разбираются инструменты — от классических (Tableau, Power BI) до программируемых (D3.js, Plotly). Принцип «расскажи историю данными» иллюстрируется дашбордами для топ-менеджмента, где KPI агрегируются в интерактивные графики. Кейс эпидемиологического прогнозирования COVID-19 демонстрирует, как анимация распространения вируса на карте повлияла на решения правительств. Автор предостерегает от манипуляций: выбор шкалы, цветовой палитры может искажать восприятие. Рекомендации по отчетности включают правила презентации доверительных интервалов и статистической значимости.
Применение Big Data в отраслях
Практическая часть учебника построена как серия отраслевых кейсов. В здравоохранении анализ данных wearable-устройств (часы, фитнес-трекеры) сочетается с геномикой для персонализированной медицины. Пример компании 23andMe показывает, как данные ДНК-тестов тренируют модели предрасположенности к болезням. В логистике оптимизация маршрутов UPS (ORION-система) снизила пробег на миллионы миль через предсказание трафика. Розничная торговля разобрана через механизмы динамического ценообразования Amazon и рекомендательные системы Netflix. Государственный сектор представлен smart city — от управления энергопотреблением в Барселоне до предиктивной полиции в Чикаго, где анализ паттернов преступности сократил грабежи на 20%.
Юридические и этические дилеммы
Заключительные главы посвящены «темной стороне» Big Data. Концепция информированного согласия на сбор данных сталкивается с реалиями пользовательских соглашений, написанных юридическим языком. GDPR и CCPA рассмотрены как попытки регулировать право на забвение и переносимость данных. Скандал Cambridge Analytica в Facebook служит примером манипуляции выборами через микротаргетирование. Журавлев дискутирует с концепцией С. Зубафф «капитализм наблюдения», предрекая необходимость цифрового суверенитета. Вопросы сохранения приватности балансируют с технологиями — дифференциальная приватность в Apple, федеративное обучение Google. Учебник завершается призывом к ответственному использованию Big Data, где эффективность не противоречит этике.

