Важные практические аспекты построения модели логистической регрессии - определение минимального объема выборки и проблема недостаточности наблюдений редких событий. Как правило, логистическая регрессия используется для предсказания наступления редких событий, число которых в выборке может быть от несколько десятков до несколько тысяч раз меньше числа противоположных событий.
В предыдущей статье мы затронули один из возможных подходов определения минимального объема выборки – расчет минимального объема выборки, исходя из оценки соотношения доли «плохих» и «хороших» событий в генеральной совокупности.
Если рассмотреть математическую запись модель логистической регрессии через логарифм шансов:
,
где pi – вероятность того, что произойдет интересующее событие;
xi (j) – значения j-го предиктора для i-го наблюдения (j=1, … , k; i=1, … , n);
bj – коэффициенты модели.
Константа в модели b0 отражает некоторый естественный уровень риска или наступления моделируемого критического события, а коэффициенты при предикторах отражают влияние независимых переменных на изменение логарифмического шанса (логита) наступления моделируемого события.
Поэтому изложенный подход с точки зрения оценки естественной доли «плохих» и «хороших» наблюдений верен, если мы пытаемся оценить естественный риск, естественную долю плохих и хороших в генеральной совокупности или использовать модель для оценки вероятности наступления событий. Например, оценить вероятность выдачи верного прогноза экспертами при построении экспертных прогнозов.
Но, как правило, основная цель построения логистической регрессии – классифицировать наблюдения на две группы. И в случае объективно малого объема отрицательных исходов в генеральной совокупности построенная модель логистической регрессии может недооценивать вероятности редких событий и плохо их классифицировать или предсказывать. С этой точки зрения, второй подход к решению проблемы недостаточности данных – применить прореживание данных или пере взвешивание данных – вполне применим.
Первая стратегия сбора данных для построения модели логистической регрессии при малом количестве «плохих» наблюдений и большом объеме выборки может быть следующей. Можно взять 100 процентов всех «плохих» наблюдений и случайным образом отобрать часть «хороших» наблюдений. После реализации такого алгоритма доля «плохих» к «хорошим» может составлять от 1/10 до 1/3.
Вторая стратегия может быть более предпочтительна при небольшом объеме выборке. Суть ее в перевзвешивании данных, чтобы добиться нужного соотношения «плохих» и «хороших» наблюдений в выборке для построения модели. Перевзвешивание данных, в отличие от корректировки выборки за счет случайного отбора, дает, как правило, более надежные оценки параметров.
При этом при таком подходе следует избегать двух основных ошибок. Во-первых, если мы берем часть «хороших» наблюдений, а не все, то их следует отбирать на основе механизма случайного отбора, чтобы наблюдения были независимы. Например, отобрав каждое третье «хорошее» наблюдение в данных мы рискуем получить зависимые наблюдения.
Во-вторых, «плохие» и «хорошие» наблюдений должны быть сформированы по одной методике. Классический пример нарушения этого условия выбор всех больных с раком печени, обратившихся в больницу, и случайный отбор населения без рака печени при построении модели логистической регрессии появления рака печени. Ошибка в формировании выборки заключается в том, что «хорошие» наблюдения выбираются среди тех людей, кто не имеет склонность обращаться за медицинской помощью. И по ним может не быть явной информации для оценки риска заболевания. Напротив, «плохие» пациенты были выбраны из тех, кто явно обратился за помощью в медицинское учреждение. Правильным было бы следующее решение. Выбирать «хорошие» случайным образом наблюдения среди тех, кто обратился за медицинской помощью, но у кого не был диагностирован рак печени. Правда, построенная модель будет верна только для людей, заботящихся о своем здоровье.
Нарушение условия независимости наблюдений и разной методики формирования групп «плохих» и «хороших» приведет к получению смещенных оценок модели логистической регрессии.
Итак, меняя долю «плохих» и «хороших» в выборке данных, как это отразится на параметрах модели? Меняя пропорцию «успехов» и «неуспехов» в выборке при построении модели логистической регрессии изменится оценка нулевого коэффициента. Именно константа отражает естественный уровень риска появления моделируемого события в генеральной совокупности при условии отсутствия влияния независимых переменных. Коэффициенты при независимых переменных при рассмотренной выше методике корректировки выборки останутся практически неизменными.
После корректировки выборки и оценки параметров модели логистической регрессии способность классифицировать редкие события в модели логистической регрессии улучшиться. Если мы используем модель логистической регрессии для разработки скоринговой карты, например, в банковском скоринге, то значений коэффициентов при независимых переменных будет достаточно для классификации наблюдений.
Для оценки правильной вероятности наступления моделируемого события риска в случае реализации случайного отбора части «хороших» для каждого наблюдения можно откорректировать значение константы в модели и провести перерасчет прогнозных вероятностей по формуле:
где w1 – доля редких событий в исходной выборке;
w2 – доля редких событий в исправленной выборке.
В конце статьи приведем результаты эмпирических расчетов для иллюстрации рассмотренной методики. Изначально по выборке 700 наблюдений с долей «плохих» наблюдений 26% и «хороших» 74%. Точность предсказания «плохих» наблюдений составила всего 50%. Было реализовано два альтернативных подхода. В первом были взяты все «плохие» наблюдения и случайно отобрано 50% «хороших» наблюдений. Таким образом, соотношение «плохих-хороших» составило 42% и 58% соответственно. Объем откорректированной выборки составил 434 наблюдений. Это позволило увеличить процент верно предсказанных «плохих» наблюдений до 71%. При этом доля верного предсказания «хороших» наблюдений составила 82%.
Во втором подходе все данные были перевзвешенны ,чтобы соотношение «плохих-хороших» в выборке было также 42 и 58% процентов. Число наблюдений в выборке сохранилось и составило 700. Это привело практически к идентичным результатам с точки зрения точности предсказания наблюдений по полученной модели.
Если для второго слушая откорректировать значение константы, то она получиться практически такая же, как и при перевзвешивании данных: