Оценить:
 Рейтинг: 0

Предсказываем тренды. С Rattle и R в мир моделей классификации

Год написания книги
2019
<< 1 ... 4 5 6 7 8 9 10 11 12 ... 16 >>
На страницу:
8 из 16
Настройки чтения
Размер шрифта
Высота строк
Поля

svm (LIBSVM)

подгонка машины опорных векторов

ksvm (kernlab)

подгонка машины опорных векторов

knnreg (caret)

подгонка k-ближайших соседей

bagging (ipred)

подгонка бутстрэп агрегированных деревьев

bag (caret)

подгонка бутстрэп агрегированных деревьев

randomForest (randomForest)

подгонка случайного леса

cforest (party)

подгонка случайного леса

gbm (gbm)

подгонка усиленных регрессионных деревьев с помощью стохастической градиентной усиливающей машины.

5. Результативность классификационных моделей

В предыдущей части этой книги мы сосредоточились на создании и оценке моделей с непрерывной целевой переменной. Теперь сосредоточимся на создании и оценке моделей с категориальной целевой переменной. Многие методы моделирования регрессии могут использоваться и для классификации. Однако оценка результативность моделей классификации отличается, начиная таких с метрик, как RMSE и R

, которые не соответствуют идеологии классификации.

5.1. Предсказания класса

Модели классификации обычно генерируют два типа предсказаний. Подобно регрессионным моделям модели классификации делают предсказания непрерывных величин, являющихся по смыслу вероятностями, то есть, ожидаемые значения принадлежности к классу для любого отдельного наблюдения между 0 и 1 с суммой, равной 1. В дополнение к предсказанию непрерывных величин модели классификации генерируют предсказанный класс, который представлен в форме дискретной категории. Для большей практичности применения требуется дискретное предсказание категории для принятия решения. Предсказание тренда, например, требует категорического решения для каждого нового тайм фрейма котировок.

Хотя модели классификации производят оба из этих типов предсказаний, часто внимание обращено на дискретное предсказание, а не на предсказание вероятности. Однако оценки вероятности для каждого класса могут быть очень полезными для измерения доверия к предсказанных моделью классов. Возвращаясь к примеру тренда, поступившие котировки могут привести к предсказанию «лонг» с вероятностью 51% или с вероятностью 99%. Если наша модель выдает предсказание только в виде «лонг», то это привело бы к уравниванию доверия к совершенно разным предсказаниям.

В некоторых применениях желаемый результат – предсказанные вероятности класса, которые затем используются в качестве исходных данных для других вычислений. В случае трендовой торговой системы напрашивается использование вероятности как основы для вычисления размера лота, или расстояния до стоп-лосса.

Вне зависимости от использования мы требуем, чтобы оцененные вероятности класса отражали истинную базовую вероятность выборки. Таким образом, предсказанная вероятность класса должна быть хорошо калибрована. Для хорошей калибровки вероятности должны эффективно отразить истинное правдоподобие тренда. Вернемся к примеру тренда. Если модель производит вероятность, равную 20% для правдоподобия наличия «лонгов» на рынке, то это значение вероятности было бы хорошо калибровано, если «лонги» будут встречаться в среднем в 1 из 5 баров.

5.2. Основы предсказаний классов

Диаграмма ROC – метод для визуализации, организации и выбора классификаторов на основе их результативности. Использование диаграмм ROC в машинном обучении было начато в 1989 с демонстрации кривых ROC в сравнении оценки алгоритмов. Последние годы увеличивается использования диаграмм ROC в сообществе машинного обучения. В дополнение к их полезности в составлении графика результативности у диаграмм ROC есть свойства, которые делают их особенно полезными для областей с не равными классами и неравной стоимостью ошибок классификации. Эти характеристики диаграмм ROC стали все более и более важными, поскольку исследование продолжается в области чувствительного к стоимости изучения и изучения в присутствии несбалансированных классов.

У большинства книг по анализу данных и машинному обучению, если они упоминают диаграммы ROC вообще, есть только краткое описание метода. Диаграммы ROC концептуально просты, но есть некоторые неочевидные сложности, которые возникают при построении торговых систем. Есть также распространенные заблуждения и ловушки при их практическом использовании.

Кривая ROC (Receiver Operator Characteristic) – кривая, которая наиболее часто используется для представления результатов бинарной классификации в машинном обучении. Название пришло из систем обработки сигналов. Поскольку классов два, один из них называется классом с положительными исходами, второй – с отрицательными исходами. Кривая ROC показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров. В терминологии ROC-анализа первые называются истинно положительным, вторые – ложно отрицательным множеством. При этом предполагается, что у классификатора имеется некоторый параметр, варьируя который, можно получить то или иное разбиение на два класса. Этот параметр часто называют порогом, или точкой отсечения (cut-off value). В зависимости от него будут получаться различные величины ошибок I и II рода.

В логистической регрессии порог отсечения изменяется от 0 до 1 – это и есть расчетное значение уравнения регрессии. Будем называть его рейтингом.

Для понимания сути ошибок I и II рода рассмотрим четырехпольную таблицу сопряженности (confusion matrix), которая строится на основе результатов классификации моделью и фактической (объективной) принадлежностью наблюдений к классам.

Таблица 5.1. Матрица сопряженности

– TP (True Positives) – верно классифицированные положительные примеры (так называемые истинно положительные случаи);

– TN (True Negatives) – верно классифицированные отрицательные примеры (истинно отрицательные случаи);

– FN (False Negatives) – положительные примеры, классифицированные как отрицательные (ошибка I рода). Это так называемый «ложный пропуск» – когда интересующее нас событие ошибочно не обнаруживается (ложно отрицательные примеры);

– FP (False Positives) – отрицательные примеры, классифицированные как положительные (ошибка II рода); Это ложное обнаружение, так как при отсутствии события ошибочно выносится решение о его присутствии (ложно положительные случаи).

Что является положительным событием, а что – отрицательным, зависит от конкретной задачи. Укажем три полезных для нас варианта смыслового наполнения предложенной абстракции:

– целевая переменная «лонг/шорт». Для этой целевой переменной можно считать за положительный пример «лонг», а за отрицательный пример «шорт», обозначив в числовом виде как (1, -1). Наполнение «положительных» и «отрицательных» примеров содержательными понятиями «лонг/шорт» приводит к симметричному случаю в том смысле, что если модель ошибочно классифицирует «лонг» как «шорт» и наоборот, то убытки будут одинаковы;

– моделируем две разных целевых переменных. Одна – «лонг/вне рынка», вторая – «шорт/вне рынка», обозначив в числовом виде как (1,0) и (0, -1). Это привело к наполнению «положительных» и «отрицательных» примеров содержательными понятиями «лонг/вне рынка/шорт». Так как мы разбили на две переменные, то пришли к несимметричному случаю в том смысле, что, например, не правильная классификация «вне рынка» как «лонга» приведет к убыткам, а вот обратная ситуация к убыткам не приводит.

При анализе чаще оперируют не абсолютными показателями, а относительными – долями (rates):

– доля истинно положительных примеров (True Positives Rate):

TPR = TP/ (TP+FN)

В случае целевой переменной «лонг/шорт» – это доля правильно классифицированных «лонгов» по отношению ко всему множеству (ко всей выборке).

– доля ложно положительных примеров (False Positives Rate):

FPR = FP/ (TN+FP)

В случае целевой переменной «лонг/шорт» – это доля ложно классифицированных «лонгов» по отношению ко всему множеству (ко всей выборке).

Введем еще два определения: чувствительность и специфичность модели. Ими определяется объективная ценность любого бинарного классификатора.

Чувствительность(Sensitivity) – это и есть доля истинно положительных случаев, т.е.:

Se = TPR = TP/ (TP+FN)

Специфичность(Specificity) – доля истинно отрицательных случаев, которые были правильно идентифицированы моделью:

Sp = TN (TN+FP) = 1 – FPR
<< 1 ... 4 5 6 7 8 9 10 11 12 ... 16 >>
На страницу:
8 из 16