Оценить:
 Рейтинг: 0

Интеллектуальный анализ данных. Учебник

Год написания книги
2023
1 2 >>
На страницу:
1 из 2
Настройки чтения
Размер шрифта
Высота строк
Поля
Интеллектуальный анализ данных. Учебник
Вадим Николаевич Шмаль

Сергей Сергеевич Павлов

Sergey Pavlov, master Plekhanov Russian University of Economics. Vadim Shmal, Ph. D., associate professor Russian University of Transport (MIIT).

Интеллектуальный анализ данных

Учебник

Вадим Николаевич Шмаль

Сергей Сергеевич Павлов

© Вадим Николаевич Шмаль, 2022

© Сергей Сергеевич Павлов, 2022

ISBN 978-5-0059-4480-1

Создано в интеллектуальной издательской системе Ridero

Интеллектуальный анализ данных

Интеллектуальный анализ данных – это процесс извлечения и обнаружения закономерностей в больших наборах данных с использованием методов на стыке машинного обучения, статистики и систем баз данных, особенно баз данных, содержащих большие числовые значения. Это включает в себя поиск в больших объемах информации статистически значимых закономерностей с применением сложных математических алгоритмов. Собранные переменные включают значение входных данных, уровень достоверности и частоту гипотезы, а также вероятность обнаружения случайной выборки. Он также включает в себя оптимизацию параметров для получения наилучшего шаблона или результата, корректировку входных данных на основе некоторых фактов для улучшения конечного результата. Эти параметры включают в себя параметры для статистических средних, таких как размеры выборки, а также статистические показатели, такие как частота ошибок и статистическая значимость.

Идеальный сценарий для интеллектуального анализа данных состоит в том, что параметры находятся в порядке, что обеспечивает наилучшие статистические результаты с наиболее вероятными значениями успеха. В этом идеальном сценарии интеллектуальный анализ данных происходит в рамках закрытой математической системы, которая собирает все входные данные для системы и выдает наиболее вероятный результат. На самом деле идеальный сценарий редко встречается в реальных системах. Например, в реальной жизни этого не происходит при получении инженерно-сметной документации по реальному дизайн-проекту. Вместо этого для расчета наилучшей оценки успеха используется множество факторов, таких как параметры проекта и текущая сложность приведения проекта в соответствие со спецификациями проекта, и эти параметры постоянно меняются по мере продвижения проекта. Хотя они могут быть полезны в определенных ситуациях, например при разработке конкретных продуктов, их значения должны подвергаться постоянной переоценке в зависимости от текущих условий проекта. На самом деле лучший анализ данных происходит в сложной математической структуре задач с множеством переменных и множеством ограничений, а не в закрытой математической системе всего с несколькими переменными и закрытой математической структурой.

Данные часто собираются из множества разных источников и нескольких разных направлений. Каждый тип данных анализируется, и все эти выходные данные анализируются, чтобы получить оценку того, как каждая часть данных может или не может быть вовлечена в конечный результат. Такой анализ часто называют процессом анализа или анализом данных. Анализ данных также включает в себя определение другой важной информации о базе данных, которая может иметь или не иметь прямого влияния на результаты. Часто они также генерируются из разных источников.

Данные обычно собираются из множества различных источников, и для получения наилучших статистических результатов применяется множество статистических методов. Результаты этих методов часто называют статистическими свойствами или параметрами и часто задают математические формулы, которые предназначены для результатов каждой математической модели. Математические формулы часто являются наиболее важными аспектами процесса анализа данных и обычно структурируются с использованием математических формул, известных как алгоритмы. Некоторые математические алгоритмы основаны на некотором теоретическом подходе или модели. Другие математические алгоритмы используют логику и логические доказательства в качестве математических инструментов для понимания данных. Другие математические алгоритмы часто используют вычислительные процедуры, такие как математическое моделирование и математические инструменты, чтобы понять конкретную проблему или данные. Хотя такие вычислительные процедуры могут быть необходимы для завершения математической модели данных, такие математические алгоритмы могут иметь другие математические инструменты, которые могут быть более подходящими для реального мира. Хотя эти математические модели часто очень сложны, зачастую проще разработать математический алгоритм и модель на основе математической модели, чем разработать математический алгоритм и модель на основе реального процесса анализа данных.

В действительности обычно существует ряд математических моделей, которые обеспечивают более полное понимание ситуации и данных, чем какая-либо одна математическая модель или математический алгоритм. Затем данные анализируются, и математическая модель данных часто используется для получения определенного значения параметра. Это значение параметра обычно определяется численными расчетами. Если параметр не имеет прямой связи с результатом окончательного анализа, параметр иногда рассчитывается косвенно с использованием статистической процедуры, которая дает параметр, имеющий прямую корреляцию с результатом анализа данных. Если параметр имеет прямую корреляцию с результатом анализа данных, этот параметр часто используется непосредственно для получения окончательного результата анализа. Если параметр не имеет прямого отношения к результату анализа, параметр часто получается косвенно с помощью математического алгоритма или модели. Например, если анализ данных может быть описан математической моделью, то параметр может быть получен косвенно с помощью математического алгоритма или модели. Обычно проще получить параметр прямо или косвенно с помощью математического алгоритма или модели.

Собирая и анализируя множество различных видов данных, а также выполняя математический анализ данных, данные можно анализировать, а статистику и другие статистические инструменты можно использовать для получения результатов. Во многих случаях использование численных расчетов для получения реальных данных может быть очень эффективным. Тем не менее, этот процесс обычно требует тестирования в реальных условиях перед анализом данных.

Агентный анализ данных

Агентный интеллектуальный анализ – это междисциплинарная область, которая объединяет многоагентные системы с интеллектуальным анализом данных и машинным обучением для решения бизнес-задач и решения проблем в науке.

Агенты можно описать как децентрализованные вычислительные системы, обладающие как вычислительными, так и коммуникационными возможностями. Агенты моделируются на основе алгоритмов обработки данных и сбора информации, таких как «проблема агента», которая представляет собой метод машинного обучения, который пытается найти решения бизнес-проблем без какого-либо центра обработки данных.

Агенты похожи на распределенные компьютеры, где пользователи совместно используют вычислительные ресурсы друг с другом. Это позволяет агентам обмениваться полезными данными и обрабатывать данные параллельно, эффективно ускоряя обработку и позволяя агентам быстрее выполнять свои задачи.

Обычным применением агентов является обработка и передача данных, например, задача поиска и анализа больших объемов данных из нескольких источников для определенных шаблонов. Агенты особенно эффективны, потому что у них нет централизованного сервера, который бы отслеживал их действия.

В настоящее время в этой области существуют две технологии, которые обеспечивают ту же функциональность, что и агенты, но только одна из них широко используется: распределенные вычисления, которые основаны на ЦП и часто используют централизованные серверы для хранения информации; и локальные вычисления, которые обычно основаны на локальных устройствах, таких как ноутбук или мобильный телефон, при этом пользователи обмениваются информацией друг с другом.

Обнаружение аномалий

При анализе данных обнаружение аномалий (также обнаружение выбросов) – это идентификация редких элементов, событий или наблюдений, которые вызывают подозрения, поскольку значительно отличаются от большинства данных. Одним из применений обнаружения аномалий является безопасность или бизнес-аналитика как способ определения уникальных условий нормального или наблюдаемого распределения. Аномальные распределения отличаются от среднего тремя способами. Во-первых, они могут быть соотнесены с предыдущими значениями; во-вторых, существует постоянная скорость изменения (в противном случае они являются выбросом); и в-третьих, они имеют нулевое среднее значение. Регулярное распределение является нормальным распределением. Аномалии в данных могут быть обнаружены путем измерения среднего значения и деления на значение среднего значения. Поскольку не существует теоретического верхнего предела количества вхождений в наборе данных, эти множественные значения подсчитываются и представляют элементы, которые имеют отклонения от среднего, хотя они не обязательно представляют собой истинную аномалию.

Сходства аномалий данных

Понятие аномалии можно описать как значение данных, которое значительно отличается от среднего распределения. Но описание аномалий также достаточно общее. В наборе данных может возникнуть любое количество отклонений, если существует разница между наблюдаемыми отношениями или пропорциями. Эта концепция наиболее известна для наблюдения за отношениями. Они усредняются для получения распределения. Сходство наблюдаемого соотношения или пропорции гораздо меньше аномалии. Аномалии не обязательно редки. Даже когда наблюдения более похожи, чем ожидаемые значения, наблюдаемое распределение не является типичным или ожидаемым распределением (выбросами). Однако существует также естественное распределение возможных значений, в которое могут вписаться наблюдения. Аномалии легко обнаружить, наблюдая за статистическим распределением наблюдаемых данных.

Во втором сценарии известное распределение отсутствует, поэтому невозможно сделать вывод, что наблюдения типичны для какого-либо распределения. Однако может быть доступное распределение, которое предсказывает распределение наблюдений в этом случае.

В третьем сценарии имеется достаточно различных точек данных, чтобы использовать полученное распределение для прогнозирования наблюдаемых данных. Это возможно при использовании данных, которые не являются очень нормальными или имеют разную степень отклонения от наблюдаемого распределения. В этом случае имеется среднее или ожидаемое значение. Прогноз – это распределение, которое будет описывать данные, которые не являются типичными для данных, хотя они не обязательно являются аномалиями. Это особенно характерно для нерегулярных наборов данных (также известных как выбросы).

Аномалии не ограничиваются естественными наблюдениями. Фактически, большинство данных в деловой, социальной, математической или научной областях иногда имеют необычные значения или распределения. Чтобы помочь в принятии решений в таких ситуациях, можно выявить закономерности, относящиеся к различным значениям данных, отношениям, пропорциям или отличиям от нормального распределения. Эти закономерности или аномалии представляют собой отклонения, имеющие некоторое теоретическое значение. Однако значение отклонения обычно настолько мало, что большинство людей его не замечают. Его можно назвать аномальным значением, аномалией или разницей, причем любой из этих терминов относится как к наблюдаемым данным, так и к возможному основному распределению вероятностей, которое генерирует данные.

Проблемы оценки аномалий данных

Теперь, когда мы немного знаем об аномалиях данных, давайте рассмотрим, как интерпретировать данные и оценить возможность аномалии. Полезно рассматривать аномалии, исходя из предположения, что данные генерируются относительно простыми и предсказуемыми процессами. Следовательно, если бы данные были сгенерированы конкретным процессом с известным распределением вероятностей, то мы могли бы уверенно идентифицировать аномалию и наблюдать за отклонением данных.

Маловероятно, что все аномалии связаны с распределением вероятностей, поскольку маловероятно, что некоторые аномалии связаны. Однако если есть какие-либо аномалии, связанные с распределением вероятностей, то это будет свидетельствовать о том, что данные действительно генерируются процессами или процессами, которые, вероятно, предсказуемы.

В этих обстоятельствах аномалия свидетельствует о вероятности обработки данных. Маловероятно, что закономерность отклонений или аномальных значений данных является случайным отклонением лежащего в основе распределения вероятностей. Это говорит о том, что отклонение связано с конкретным, случайным процессом. В соответствии с этим предположением аномалии можно рассматривать как аномалии данных, генерируемых процессом. Однако аномалия не обязательно связана с процессом обработки данных.

Понимание аномалии данных

В контексте оценки аномалий данных важно понимать распределение вероятности и ее вероятность. Также важно знать, распределена ли вероятность приблизительно или нет. Если она приблизительно распределена, то вероятность, скорее всего, будет примерно равна истинной вероятности. Если оно не распределено приблизительно, то есть вероятность, что вероятность отклонения может быть немного больше, чем истинная вероятность. Это позволяет интерпретировать аномалии с возможностью большего отклонения как аномалии большей величины. Вероятность аномалии данных можно оценить с помощью любой меры вероятности, такой как вероятность выборки, правдоподобие или доверительные интервалы. Даже если аномалия не связана с конкретным процессом, все же можно оценить вероятность отклонения.

Эти вероятности необходимо сравнить с естественным распределением. Если вероятность намного больше естественной вероятности, то существует вероятность того, что отклонение не такой же величины. Однако маловероятно, чтобы отклонение намного превышало естественную вероятность, поскольку вероятность очень мала. Следовательно, это не свидетельствует о фактическом отклонении от распределения вероятностей.

Выявление значимости аномалий данных

В контексте оценки аномалий данных полезно определить соответствующие обстоятельства. Например, если есть аномалия в количестве задержанных рейсов, может случиться так, что отклонение будет довольно небольшим. Если задерживается много рейсов, более вероятно, что количество задержек очень близко к естественной вероятности. Если есть несколько рейсов, которые задерживаются, маловероятно, что отклонение намного превышает естественную вероятность. Следовательно, это не будет свидетельствовать о значительно более высоком отклонении. Это говорит о том, что аномалия данных не имеет большого значения.

Если процентное отклонение от нормального распределения значительно выше, то есть вероятность, что аномалии данных связаны с процессом, как в случае с этой аномалией. Это является дополнительным свидетельством того, что аномалия данных является отклонением от нормального распределения.

После анализа значимости аномалии важно узнать, в чем причина аномалии. Связано ли это с процессом, сгенерировавшим данные, или не связано? Возникла ли аномалия данных в ответ на внешнее воздействие или она возникла внутри? Эта информация полезна при определении того, каковы перспективы получения дополнительной информации о процессе.

Причина в том, что не все отклонения связаны с изменчивостью процесса и по-разному влияют на процесс. В отсутствие понятного процесса определение влияния аномалии данных может оказаться сложной задачей.

Анализ важности аномалий данных

При отсутствии признаков отклонения от распределения вероятностей аномалии данных часто игнорируются. Это дает возможность выявить аномалии данных, которые имеют большое значение. В такой ситуации полезно рассчитать вероятность отклонения. Если вероятность достаточно мала, то аномалией можно пренебречь. Если вероятность намного выше, чем естественная вероятность, то она может предоставить достаточную информацию, чтобы сделать вывод о том, что процесс имеет большую величину, а потенциальное воздействие аномалии имеет большое значение. Наиболее разумным предположением является то, что аномалии данных возникают часто.

Вывод

В контексте оценки точности данных важно выявить и проанализировать количество аномалий данных. Когда количество аномалий данных относительно невелико, маловероятно, что отклонение имеет значительную величину и влияние аномалии невелико. В этой ситуации аномалии данных можно игнорировать, но, когда количество аномалий данных велико, вполне вероятно, что аномалии данных связаны с процессом, который можно понять и оценить. В этом случае проблема заключается в том, как оценить влияние аномалии данных на процесс. Качество данных, частота данных и скорость, с которой генерируются данные, являются факторами, определяющими, как оценивать влияние аномалии.

Анализ аномалий данных имеет решающее значение для изучения процессов и повышения их производительности. Он предоставляет информацию о характере процесса. Эта информация может быть использована при оценке влияния отклонения, оценке рисков и преимуществ применения корректировок процесса. В конце концов, аномалии данных важны, потому что они дают представление о процессах.

Непрерывный процесс оценки воздействия аномалий данных предоставляет ценную информацию. Эта информация предоставляет полезную информацию о процессе и предоставляет лицам, принимающим решения, информацию, которую можно использовать для повышения эффективности процесса.

Этот подход дает возможность создавать аномалии данных, которые дают возможность оценить влияние аномалии. Цель состоит в том, чтобы получить представление о процессах и улучшить их производительность. В таком сценарии подход дает четкое представление о типе изменения процесса, которое может быть произведено, и о влиянии отклонения. Это может быть полезная информация, которую можно использовать для выявления аномалий процесса, которые можно оценить для оценки влияния отклонения. Процесс выявления аномалий процесса очень важен для получения ценных данных для оценки потенциальных аномалий в производительности процесса.
1 2 >>
На страницу:
1 из 2