Click here to print.

Корректировка числа редких событий в логистической регрессии

Важные практические аспекты построения модели логистической регрессии - определение минимального объема выборки и проблема недостаточности наблюдений редких событий.  Как правило, логистическая регрессия используется для предсказания наступления редких событий, число которых в выборке может  быть от несколько десятков до несколько тысяч раз меньше числа противоположных событий.

В предыдущей статье мы затронули один из возможных подходов определения минимального объема выборки – расчет минимального объема выборки, исходя из оценки соотношения доли «плохих» и «хороших» событий в генеральной совокупности.

Если рассмотреть математическую запись модель логистической регрессии через логарифм шансов:

модель логистической регрессии,

где pi – вероятность того, что произойдет интересующее событие;

xi (j) – значения j-го предиктора для i-го наблюдения (j=1, … , k; i=1, … , n);

bj  – коэффициенты модели.

Константа в модели b0 отражает некоторый естественный уровень риска или наступления моделируемого критического события, а коэффициенты при предикторах отражают влияние независимых переменных на изменение логарифмического шанса (логита) наступления моделируемого события.

Поэтому изложенный подход с точки зрения оценки естественной доли «плохих» и «хороших» наблюдений верен, если мы пытаемся оценить естественный риск, естественную долю плохих и хороших в генеральной совокупности или использовать модель для оценки вероятности наступления событий. Например, оценить вероятность выдачи верного прогноза экспертами при построении экспертных прогнозов.

Но, как правило, основная цель построения логистической регрессии – классифицировать наблюдения на две группы. И в случае объективно малого объема отрицательных исходов в генеральной совокупности построенная модель логистической регрессии может недооценивать вероятности редких событий и плохо их классифицировать или предсказывать. С этой точки зрения, второй подход к решению проблемы недостаточности данных – применить прореживание данных или пере взвешивание данных – вполне применим.

Первая стратегия сбора данных для построения модели логистической регрессии при малом количестве «плохих» наблюдений и большом объеме выборки может быть следующей. Можно взять 100 процентов всех «плохих» наблюдений и случайным образом отобрать часть «хороших» наблюдений. После реализации такого алгоритма доля «плохих» к «хорошим» может составлять от 1/10 до 1/3.

Вторая стратегия может быть более предпочтительна при небольшом объеме выборке. Суть ее в перевзвешивании данных, чтобы добиться нужного соотношения «плохих» и «хороших» наблюдений в выборке для построения модели. Перевзвешивание данных, в отличие от корректировки выборки за счет случайного отбора, дает, как правило, более надежные оценки параметров.

При этом при таком подходе следует избегать двух основных ошибок. Во-первых, если мы берем часть «хороших» наблюдений, а не все, то их следует отбирать на основе механизма случайного отбора, чтобы наблюдения были независимы. Например, отобрав каждое третье «хорошее» наблюдение в данных мы рискуем получить зависимые наблюдения.

Во-вторых, «плохие» и «хорошие» наблюдений должны быть сформированы по одной методике. Классический пример нарушения этого условия выбор всех больных с раком печени, обратившихся в больницу, и случайный отбор населения без рака печени при построении модели логистической регрессии появления рака печени.  Ошибка в формировании выборки заключается в том, что «хорошие» наблюдения выбираются среди тех людей, кто не имеет склонность обращаться за медицинской помощью. И по ним может не быть явной информации для оценки риска заболевания. Напротив, «плохие» пациенты были выбраны из тех, кто явно обратился за помощью в медицинское учреждение. Правильным было бы следующее решение. Выбирать «хорошие» случайным образом наблюдения среди тех, кто обратился за медицинской помощью, но у кого не был диагностирован рак печени. Правда, построенная модель будет верна только для людей, заботящихся о своем здоровье.

Нарушение условия независимости наблюдений и разной методики формирования групп «плохих» и «хороших» приведет к получению смещенных оценок модели логистической регрессии.

Итак, меняя долю «плохих» и «хороших» в выборке данных, как это отразится на параметрах модели?  Меняя пропорцию «успехов» и «неуспехов» в выборке при построении модели логистической регрессии изменится оценка нулевого коэффициента. Именно константа отражает естественный уровень риска появления моделируемого события в генеральной совокупности при условии отсутствия влияния независимых переменных. Коэффициенты при независимых переменных при рассмотренной выше методике корректировки выборки останутся практически неизменными.

После корректировки выборки и оценки параметров модели логистической регрессии способность классифицировать редкие события в модели логистической регрессии улучшиться. Если мы используем модель логистической регрессии для разработки скоринговой карты, например, в банковском скоринге, то значений коэффициентов при независимых переменных будет достаточно для классификации наблюдений.

Для оценки правильной вероятности наступления моделируемого события риска в случае реализации случайного отбора части «хороших» для каждого наблюдения можно откорректировать значение константы в модели и провести перерасчет прогнозных вероятностей по формуле:

 

где  w1  – доля редких событий в исходной выборке;

w2  – доля редких событий в исправленной выборке.

В конце статьи приведем результаты эмпирических расчетов  для иллюстрации рассмотренной методики. Изначально по выборке 700 наблюдений с долей «плохих» наблюдений 26% и «хороших» 74%. Точность предсказания «плохих» наблюдений составила всего 50%. Было реализовано два альтернативных подхода. В первом были взяты все «плохие» наблюдения и случайно отобрано 50% «хороших» наблюдений. Таким образом, соотношение «плохих-хороших» составило 42%  и 58% соответственно. Объем откорректированной выборки составил 434 наблюдений. Это позволило увеличить процент верно предсказанных «плохих» наблюдений до 71%. При этом доля верного предсказания «хороших» наблюдений составила 82%.

Во втором подходе все данные  были перевзвешенны ,чтобы соотношение «плохих-хороших» в выборке было также 42 и 58% процентов. Число наблюдений в выборке сохранилось и составило 700. Это привело практически к идентичным результатам с точки зрения точности предсказания наблюдений по полученной модели.

Если для второго слушая откорректировать значение константы, то она получиться практически такая же, как и при перевзвешивании данных:

Корпоративный тренинг по построению скоринговой модели