Оценить:
 Рейтинг: 0

Машинное обучение. Погружение в технологию

Год написания книги
2023
Теги
<< 1 2 3
На страницу:
3 из 3
Настройки чтения
Размер шрифта
Высота строк
Поля

Обучение без учителя полезно для обнаружения структур в данных и получения инсайтов о них, когда отсутствуют явные метки или целевые переменные. Этот подход позволяет модели самой извлекать информацию из данных и обнаруживать их скрытые характеристики.

1.5 Метрики и оценка производительности моделей

Оценка производительности моделей является важной частью процесса Машинного обучения. Для этого используются различные метрики, которые позволяют оценить, насколько хорошо модель справляется с поставленной задачей. Применение соответствующих метрик играет важную роль в измерении и сравнении производительности моделей. Вот более подробное описание некоторых метрик и методов оценки производительности:

1.      В задачах классификации:

•      Точность (accuracy): Измеряет долю правильно классифицированных объектов относительно общего числа объектов в выборке.

•      Полнота (recall): Измеряет способность модели обнаруживать положительные случаи из общего числа положительных объектов.

•      Точность (precision): Измеряет способность модели давать правильные положительные предсказания относительно всех положительных предсказаний.

•      F-мера (F1 score): Комбинирует точность и полноту в одну метрику, представляющую сбалансированное среднее между ними.

2.      В задачах регрессии:

•      Средняя абсолютная ошибка (MAE): Измеряет среднее абсолютное отклонение между предсказанными и фактическими значениями.

•      Средняя квадратичная ошибка (MSE): Измеряет среднее квадратичное отклонение между предсказанными и фактическими значениями.

•      Коэффициент детерминации (R^2): Показывает, насколько хорошо модель объясняет изменчивость целевой переменной относительно базовой модели.

3.      В задачах кластеризации:

•      Коэффициент силуэта (silhouette coefficient): Измеряет степень разделения кластеров и их компактность на основе расстояний между объектами внутри кластера и между кластерами.

•      Индекс Данна (Dunn index): Оценивает компактность и разделение кластеров на основе минимальных и максимальных расстояний между объектами.

4.      Методы оценки производительности:

•      Кросс-валидация (cross-validation): Позволяет оценить стабильность и обобщающую способность модели путем повторного разделения данных на обучающую и валидационную выборки.

•      Разделение выборки на обучающую, валидационную и тестовую: Позволяет проверить производительность модели на новых, ранее не виденных данных, чтобы оценить ее способность к обобщению.

Выбор подходящих метрик и методов оценки производительности зависит от конкретной задачи и характеристик данных. Цель состоит в том, чтобы выбрать метрики, которые наилучшим образом отражают требуемые характеристики модели и задачи, и использовать соответствующие методы оценки для получения надежной оценки производительности модели.

Глава 2: Обучение с учителем

2.1 Линейная регрессия

Линейная регрессия – это один из основных методов Машинного обучения, используемый для предсказания непрерывной зависимой переменной на основе линейной комбинации независимых переменных. Она является простым и интерпретируемым алгоритмом.

В линейной регрессии предполагается, что существует линейная связь между независимыми и зависимой переменными. Модель линейной регрессии определяется уравнением:

y = b0 + b1x1 + b2x2 + … + bn*xn

где y – зависимая переменная, x1, x2, …, xn – независимые переменные, b0, b1, b2, …, bn – коэффициенты модели, которые определяют веса, или важность, каждой независимой переменной.

Для оценки коэффициентов модели используется метод наименьших квадратов (МНК), который минимизирует сумму квадратов разностей между фактическими и предсказанными значениями зависимой переменной.

Линейная регрессия может быть однофакторной (с одной независимой переменной) или многофакторной (с несколькими независимыми переменными). Она может использоваться для прогнозирования значений на основе новых данных или для анализа влияния отдельных переменных на зависимую переменную. Кроме обычной линейной регрессии, существуют различные варианты этого метода, которые могут решать специфические задачи или учитывать особенности данных. Например, существуют регуляризованные модели линейной регрессии, такие как Ridge (гребневая регрессия) и Lasso (лассо-регрессия), которые добавляют штрафы к коэффициентам модели для борьбы с переобучением и улучшения обобщающей способности.

Линейная регрессия также может быть расширена для работы с нелинейными связями между переменными путем добавления полиномиальных или других нелинейных функций признаков. Это называется полиномиальной регрессией или нелинейной регрессией.

Одним из преимуществ линейной регрессии является ее простота и интерпретируемость. Коэффициенты модели позволяют оценить вклад каждой независимой переменной и понять, как они влияют на зависимую переменную. Кроме того, линейная регрессия требует меньше вычислительных ресурсов по сравнению с некоторыми более сложными моделями.

Однако линейная регрессия имеет свои ограничения. Она предполагает линейную связь между переменными, и если это предположение нарушено, модель может быть неправильной. Кроме того, она чувствительна к выбросам и может давать неверные предсказания в случае наличия значительных отклонений в данных.

2.2 Логистическая регрессия

Логистическая регрессия – это алгоритм классификации, используемый для прогнозирования вероятности принадлежности наблюдения к определенному классу. Она часто применяется в задачах бинарной классификации, где требуется разделить данные на два класса.

В логистической регрессии используется логистическая функция (сигмоид), которая преобразует линейную комбинацию независимых переменных в вероятность принадлежности к классу. Функция имеет следующий вид:

p = 1 / (1 + e^(-z))

где p – вероятность принадлежности к классу, z – линейная комбинация независимых переменных.

Модель логистической регрессии оценивает коэффициенты модели с использованием метода максимального правдоподобия. Она стремится максимизировать вероятность соответствия фактическим классам наблюдений.

Логистическая регрессия может быть расширена на многоклассовую классификацию с использованием подходов, таких как one-vs-rest или softmax. Логистическая регрессия является популярным алгоритмом классификации по нескольким причинам. Во-первых, она проста в понимании и реализации. Во-вторых, она обладает хорошей интерпретируемостью, поскольку коэффициенты модели позволяют определить вклад каждой независимой переменной в вероятность классификации. В-третьих, логистическая регрессия может обрабатывать как категориальные, так и числовые признаки, что делает ее гибкой для различных типов данных.

Однако следует отметить, что логистическая регрессия также имеет свои ограничения. Она предполагает линейную разделимость классов, что может быть недостаточным для сложных данных. Кроме того, она чувствительна к выбросам и может давать неверные предсказания, если данные имеют значительные отклонения или нарушают предположения модели.

В применении логистической регрессии важно учитывать также регуляризацию, чтобы справиться с проблемой переобучения и улучшить обобщающую способность модели. Регуляризация может быть выполнена с использованием L1-регуляризации (лассо) или L2-регуляризации (гребневая регрессия).

Логистическая регрессия может быть применена во многих областях, включая медицину, биологию, маркетинг, финансы и многие другие. Она может использоваться для прогнозирования вероятности наступления событий, определения рисков и принятия решений на основе классификации.

2.3 Метод k ближайших соседей

Метод k ближайших соседей (k-NN) – это алгоритм классификации и регрессии, основанный на принципе близости объектов. Он относит новое наблюдение к классу, основываясь на классификации его k ближайших соседей в пространстве признаков.

В алгоритме k-NN выбирается значение k – количество ближайших соседей, которые будут участвовать в принятии решения. Для классификации нового наблюдения происходит подсчет количества соседей в каждом классе, и наблюдение относится к классу с наибольшим числом соседей.

Для классификации с помощью метода k-NN необходимо выбрать значение k – количество ближайших соседей, которые будут участвовать в принятии решения. При поступлении нового наблюдения алгоритм вычисляет расстояние между ним и остальными объектами в обучающем наборе данных. Затем выбираются k объектов с наименьшими расстояниями, и их классы используются для определения класса нового наблюдения. Например, если большинство ближайших соседей относится к классу "A", то новое наблюдение будет отнесено к классу "A".

В задачах регрессии метод k-NN использует среднее или медианное значение целевой переменной у k ближайших соседей в качестве прогноза для нового наблюдения. Таким образом, предсказание для нового наблюдения вычисляется на основе значений его ближайших соседей.

Выбор метрики расстояния является важным аспектом в методе k-NN. Евклидово расстояние является наиболее распространенной метрикой, но также можно использовать и другие метрики, такие как манхэттенское расстояние или расстояние Минковского.

Одним из ограничений метода k-NN является его вычислительная сложность. При большом размере обучающего набора данных поиск ближайших соседей может быть времязатратным. Кроме того, метод k-NN чувствителен к масштабированию данных, поэтому рекомендуется нормализовать или стандартизировать признаки перед применением алгоритма.

Метод k-NN также имеет некоторые проблемы, связанные с выбросами и несбалансированными данными. Выбросы могут искажать результаты, особенно при использовании евклидова расстояния. Кроме того, если классы в обучающем наборе данных несбалансированы (то есть один класс преобладает над другими), то может возникнуть проблема с предсказанием редкого класса.

В целом, метод k-NN представляет собой простой и гибкий алгоритм, который может быть эффективным во многих задачах классификации и регрессии. Однако для его успешного применения необходимо правильно выбрать значение k, подобрать подходящую метрику расстояния и учитывать особенности данных, такие как выбросы и несбалансированность классов.


<< 1 2 3
На страницу:
3 из 3