При решении задачи классификации часто необходимо выбирать пороговое значение анализируемого параметра для отнесения наблюдений к классам. Выбрать оптимальное значение параметра для классификации можно с помощью анализа ROC-кривых (от англ. Receiver Operator Characteristic). ROC-кривая – это кривая, которая используется для представления результатов бинарной классификации и оценки эффективности классификации. В анализе ROC-кривых различают два класса наблюдений:
- класс с положительными исходами;
- класс с отрицательными исходами.
Что является положительным событием, а что – отрицательным, зависит от конкретной задачи. ROC-кривая показывает зависимость количества верно классифицированных положительных исходов от количества неверно классифицированных отрицательных исходов. Наблюдения с положительными исходами верно классифицированные моделью называют истинно положительными. Наблюдения с отрицательными исходами неверно классифицированные называют ложно отрицательными.
При классификации могут возникать ошибки двух типов:
- 1 рода – положительные исходы, классифицируемые как отрицательные;
- 2 рода – отрицательные исходы, классифицируемые как положительные.
Пороговое значение вероятности для классификации является параметром в ROC-анализе, который необходимо оценить. Оценка параметра порога отсечения должна минимизировать одновременно ошибки 1 и 2 рода. При анализе ROC-кривых часто оперируют не абсолютными показателями верно классифицированных исходов, а относительными:
- чувствительностью – долей истинно положительных случаев, которые были правильно классифицированы моделью;
- специфичностью – долей истинно отрицательных случаев, которые были правильно классифицированы моделью.
Вам может быть интересно ...
Онлайн курс "Углубленные методы статистического анализа данных в IBM SPSS Statistics"