Большие данные. Big Data. Учебник для вузов

Name: Большие данные. Big Data. Учебник для вузов
Rating: 4 (11 reviews)
Author: Любовь Николаевна Тындыкарь

Автор:

Любовь Николаевна Тындыкарь

Жанр:

учебная и научная литература, учебники и пособия для вузов, знания и навыки

Год написания книги: 2023

В учебнике излагается содержание курса по дисциплине «Теория информационных процессов и систем», а также дополнительные материалы по дисциплинам «Системы поддержки принятия решений» и «Технологии интеллектуального анализа данных» по направлению «Информационные системы и технологии», в том числе профиля «Информационные технологии на транспорте» в соответствии с ФГОС 3++. Рассмотрены основные аспекты работы с большими данными, методы и технологии «Big Data» и «Data Mining», а также общие приемы интеллектуального анализа данных. В качестве инструментальной среды разработки используется интегрированный пакет MatLab версий 6.5 и выше. Учебник предназначен для формирования у ст…

Большие данные. Big Data. Учебник для вузов

На сайте электронной библиотеки Litportal вы можете скачать книгу Большие данные. Big Data. Учебник для вузов в формате fb2.zip, txt, txt.zip, rtf.zip, a4.pdf, a6.pdf, mobi.prc, epub, ios.epub, fb3. У нас можно прочитать отзывы и рецензии о этом произведении.

Скачать книгу в форматах

Cкачать fb2.zip Cкачать txt Cкачать txt.zip Cкачать rtf.zip Cкачать a4.pdf Cкачать a6.pdf Cкачать epub Cкачать fb3

Краткое содержание

Введение в концепцию больших данных

Учебник А. Е. Журавлева открывается фундаментальным анализом феномена больших данных (Big Data), определяя их как совокупность технологий и методов работы с огромными массивами информации, которые невозможно обработать традиционными инструментами. Автор подчеркивает революционный характер Big Data, изменивших подходы к анализу информации в науке, бизнесе и государственном управлении. Журавлев акцентирует внимание на историческом контексте: от первых баз данных 1960-х до современной эпохи, где ежесекундно генерируются терабайты данных через социальные сети, IoT-устройства и транзакционные системы. Ключевой тезис введения — переход от «данных как ресурса» к «данным как стратегическому активу», определяющему конкурентоспособность организаций.

Характеристики и вызовы Big Data

Детально разбирая знаменитые «3V» (Volume, Velocity, Variety), автор расширяет модель до «5V», добавляя Veracity (достоверность) и Value (ценность). Объем данных иллюстрируется примерами: суточный трафик YouTube (эксабайты), записи с камер наблюдения мегаполисов, геномные последовательности. Скорость поступления данных рассматривается через призму реального времени — биржевые котировки, данные телеметрии автономных автомобилей. Разнообразие форматов (текст, изображения, сенсорные сигналы) ставит задачи интеграции структурированных и неструктурированных данных. Отдельная глава посвящена проблеме «шума» — ложных, избыточных или противоречивых данных, требующих препроцессинга. Журавлев предупреждает о рисках «паралича анализа» — ситуации, когда затраты на хранение и обработку данных превышают их практическую пользу.

Технологический стек Big Data

Центральное место в учебнике занимает разбор технологий Hadoop и экосистемы связанных инструментов (HDFS, MapReduce, YARN). Принцип распределенной обработки объясняется через аналогии с промышленным конвейером, где задачи делятся на подзадачи, выполняемые кластером серверов. Автор противопоставляет пакетную обработку (Hadoop) и потоковую (Apache Kafka, Apache Flink), приводя кейсы финтеха — обнаружение мошеннических транзакций за миллисекунды. Глава о Spark фокусируется на интерактивности и MLlib — библиотеке машинного обучения для прогнозной аналитики. Отдельный раздел посвящен NoSQL-базам: Cassandra для временных рядов, MongoDB для документно-ориентированных данных, Neo4j для сетевого анализа. Журавлев критикует «моду на технологии», настаивая на выборе инструментов под конкретные бизнес-задачи.

Методы анализа и машинное обучение

Переходя к аналитике, автор систематизирует методы на дескриптивные, диагностические, предиктивные и прескриптивные. Классификация, кластеризация и регрессия разбираются на примерах: сегментация клиентов ритейла, прогноз оттока абонентов сотовых операторов. Подчеркивается роль feature engineering — создания признаков, повышающих точность моделей. Глубокое обучение представлено через архитектуры CNN (распознавание изображений в медицине) и RNN (обработка естественного языка в чат-ботах). Особое внимание уделено проблеме переобучения — автор рекомендует методы регуляризации и кросс-валидации. Этический аспект ML раскрыт через кейс bias в алгоритмах кредитного скоринга, дискриминирующих меньшинства.

Визуализация и интерпретация результатов

Журавлев настаивает: даже совершенная модель бесполезна без понятной визуализации. Разбираются инструменты — от классических (Tableau, Power BI) до программируемых (D3.js, Plotly). Принцип «расскажи историю данными» иллюстрируется дашбордами для топ-менеджмента, где KPI агрегируются в интерактивные графики. Кейс эпидемиологического прогнозирования COVID-19 демонстрирует, как анимация распространения вируса на карте повлияла на решения правительств. Автор предостерегает от манипуляций: выбор шкалы, цветовой палитры может искажать восприятие. Рекомендации по отчетности включают правила презентации доверительных интервалов и статистической значимости.

Применение Big Data в отраслях

Практическая часть учебника построена как серия отраслевых кейсов. В здравоохранении анализ данных wearable-устройств (часы, фитнес-трекеры) сочетается с геномикой для персонализированной медицины. Пример компании 23andMe показывает, как данные ДНК-тестов тренируют модели предрасположенности к болезням. В логистике оптимизация маршрутов UPS (ORION-система) снизила пробег на миллионы миль через предсказание трафика. Розничная торговля разобрана через механизмы динамического ценообразования Amazon и рекомендательные системы Netflix. Государственный сектор представлен smart city — от управления энергопотреблением в Барселоне до предиктивной полиции в Чикаго, где анализ паттернов преступности сократил грабежи на 20%.

Юридические и этические дилеммы

Заключительные главы посвящены «темной стороне» Big Data. Концепция информированного согласия на сбор данных сталкивается с реалиями пользовательских соглашений, написанных юридическим языком. GDPR и CCPA рассмотрены как попытки регулировать право на забвение и переносимость данных. Скандал Cambridge Analytica в Facebook служит примером манипуляции выборами через микротаргетирование. Журавлев дискутирует с концепцией С. Зубафф «капитализм наблюдения», предрекая необходимость цифрового суверенитета. Вопросы сохранения приватности балансируют с технологиями — дифференциальная приватность в Apple, федеративное обучение Google. Учебник завершается призывом к ответственному использованию Big Data, где эффективность не противоречит этике.