Click here to print.

Практика построения модели логистической регрессии

Практика построения модели логистической регрессии: определение минимального объема выборки

Логистическая регрессия или логит-регрессия – это статистическая модель, применяемая для предсказания вероятности возникновения некоторого события по значениям множества переменных, как количественных, так и категориальных. В прикладном статистическом анализе логистическая регрессия используется для решения двух задач: моделирования взаимосвязи и классификации наблюдений. Логистическую регрессию применяют при проведение клинических исследований в медицине, в банковском скоринге для построения рейтинга заемщиков и управления кредитными рисками, в потребительском скоринге для моделирование поведения покупателей и других сферах. Рассчитать модель логистической регрессии можно практически во всех программах для профессионального статистического анализа данных таких, как SPSS, SAS, R, Statistica и других.

Наиболее часто используют модель бинарной логистической регрессии, записываемую уравнением:

 ,

где pi – вероятность того, что произойдет интересующее событие,

e – основание натурального логарифма,

zi – линейная комбинация предикторов;

 

– значения j-го предиктора для i-го наблюдения (j=1, … , k; i=1, … , n).

 

Зависимая переменная в данной модели является дихотомической и кодируется 0 – отсутствие интересующего события, и 1 – проявление интересующего исследователя события.

 В научной литературе тема построения и оценки параметров модели логистической регрессии освещена достаточно хорошо [1]. Однако многие авторы  недостаточно, а иногда и вовсе, не уделяют внимания, практическим аспектам построения логит-регрессии. К ним можно отнести следующие вопросы: определение минимального числа наблюдений с отрицательными исходами, определение общего числа наблюдений и количества предикторов, задание взаимодействий предикторов и их интерпретация, введение категориальных предикторов и их взаимодействия, мультиколлинеарность предикторов и способы ее устранения, подгонка модели и ее обучение. В данной статье мы подробно остановимся на проблеме определения объема выборки для построения модели логистической регрессии на практическом примере из области кредитного скоринга.

Предположим, необходимо знать, как будут погашать кредит новые клиенты, обратившиеся в банк за кредитом. Фактически мы хотим предугадать, кто окажется «плохим», а кто «хорошим» заемщиком. Пусть, в нашем распоряжении имеются данные о 700 клиентах, которые уже воспользовались кредитом, и результат погашения кредита по которым известен. Это так называемая историческая выборка. Из 700 клиентов исторической выборки дефолта по кредиту не было у 650 заемщиков, а у оставшихся 50 клиентов был соответственно дефолт по кредиту. По этим данным в зависимости от демографических, социальных, поведенческих характеристик клиента (возраст, образование, стаж работы, срок проживания по прописке, доход, обороты по кредитным картам и прочие) была построена модель логистической регрессии.

Одна из проблем, которая возникает после построения модели логистической регрессии, связана с низкой степенью точности предсказания отрицательных исходов, т.е. дефолтов. Причина этого – недостаточное число отрицательных исходов в исторической выборке. В научной литературе содержаться следующие рекомендации по определению минимального объема выборки и числа предикторов в модели. Выбор минимального объема выборки зависит от равномерности распределения значений зависимой переменной. При относительно равномерном распределении необходимо задавать не менее 10 наблюдений на 1 предиктор. Но чем больше распределение зависимой переменной смещено в пользу конкретного значения (в нашем случае в пользу положительной кредитной истории), тем больше наблюдений нужно брать на один предиктор.

Другой подход, так называемое правило 20 EPV [2], также связывает минимальный объем выборки с распределением зависимой переменной и количеством предикторов в модели. Согласно этому подходу, необходимо взять количество наблюдений в исторической выборке, у которых зависимая переменная имеет наименьший объем (в нашем примере, это «плохие» заемщики). Это число наблюдений нужно разделить на число предикторов, включенных в модель. На один предиктор должно приходиться не менее 20 наблюдений. Если это правило выполняется, то объем выборки достаточный.

В нашем примере объем выборки составляет 700 клиентов, их которых 50 имеют «плохую» кредитную историю. Для построения модели было отобрано 10 предикторов. Наша выборка делится на две группы по значению зависимой переменной. Берем объем наименьшей группы – 50, и делим это число на минимальное число наблюдений на один предиктор, т.е.  на 20. Получаем, что при такой исторической выборке построить «хорошую» модель можно будет в лучшем случае, включив в нее не более 3 предикторов. Это явно не достаточно, и необходимо увеличить объем выборки. С ростом объема выборки будет расти и доля «отрицательных» исходов. Но увеличить объем выборки не всегда представляется возможным.

Среди практиков построения скоринговых моделей встречаются следующие подходы к изложенной проблеме недостаточности «отрицательных» исходов зависимой переменной: используется так называемое «прореживание выборки» и взвешивание наблюдений. Суть процедуры прореживания заключается в том, что часть «хороших» клиентов отбрасывается, для построения берется только каждый второй или третий «хороший» клиент. Тем самым увеличивается доля «плохих» клиентов в выборке. 

Взвешивание наблюдений позволяет перевзвесить историческую выборку, получив заданные пропорции «плохих» и «хороших» клиентов. Сама по себе идея взвешивания данных имеет право на применение. Однако суть взвешивания данных в том, что оно должно увеличить репрезентативность выборки, максимально приблизив долю «плохих» и «хороших» клиентов к генеральной совокупности. Взвешивание данных, приводящее к равномерному распределению целевой переменной, т.е. когда доли отрицательных и положительных исходов становятся по 0,5, как делают многие специалисты по построению скоринговых моделей, не имеет собой никакого научного обоснования. При таком подходе получается абсолютно нерепрезентативная выборка. Действительно, вряд ли найдется хоть один банк, у которого 50% клиентов не отдают взятые кредиты.

Изложенные выше подходы и рекомендации не позволяют четко определить: какое соотношение между «плохими» и «хорошими» заемщиками должны быть, и какой должен быть минимальный объем выборки для построения логистической регрессии. Подойдем к этому вопросу с точки зрения теории выборочных обследований [3] и математической статистики [4].

Итак, историческая выборка должна быть репрезентативной и максимально отражать генеральную совокупность. Другими словами, данные о «плохих» и «хороших» клиентах для построения модели, их соотношение, максимально должны отражать поток клиентов с улицы. Если этот поток считать бесконечным, т.е. рассмотреть всех потенциально возможных заемщиков банка, это и будет генеральная совокупность.  Поэтому будем считать, что объем генеральной совокупности у нас не известен.

Доля дефолтов в исторической выборке – это всего лишь точечная оценка доли дефолтов в генеральной совокупности. Зная точечную оценку доли, задав минимальную допустимую для нас предельную ошибку в ее оценке и уровень надежности этой оценки, можно найти минимальный объем выборки. Добиться репрезентативности выборки можно за счет случайности отбора. Будем предполагать, что у нас простой случайный отбор. Наша задача определить минимальный объем выборки при как можно точной оценке доли «плохих» заемщиков. Согласно теории выборочных обследований при простом случайном отборе при неизвестном объеме генеральной совокупности предполагают, что имеют повторный отбор. Для определения минимального объема выборки при повторном случайном отборе при оценке генеральной доли используют формулу:

где n – минимальный объем выборки,

zγ – значение стандартного нормального закона распределения, определяемое в зависимости от выбранного уровня надежности γ;

w – доля «плохих» клиентов по исторической выборке;

Δw –  максимально допустимая предельная ошибка оценки доли.

 Вернемся к нашему примеру. Среди 700 клиентов 50 оказались «проблемными». Оценка доли «плохих» клиентов по имеющимся данным для построения модели составила около 0,07 или 7%. При таком значении оценки доли, предположим, мы хотим ошибиться не более чем на 5%, что будет соответствовать допустимой предельной ошибке оценки доли 0,0035. При этом мы хотим получить результаты с надежностью не менее 99%. В этом случае z-значение стандартного нормального закона распределения составит около 2,58. Подставим эти значения в формулу:

.

Такой объем выборки не всегда доступен для построения модели логистической регрессии. Все дело в том, что мы задали очень большую надежность для оценки доли случаев с отрицательными исходами – 99%, при том, что точность оценивания доли мы задали также достаточно высокой. В отличие от оценки средней величины, для оценки доли предельная ошибка оценки в 10% считается вполне приемлемой. В нашем же случае мы задали значение в два раза меньшее – 5%. 

Если задать предельную ошибку выборки 10% или 0,007, а надежность 95%, что вполне приемлемо для построения модели на первом этапе, до ее калибровки, получаем совсем другие результаты:

Этот объем выборки вполне реалистичен. При определении минимального объема выборки можно воспользоваться и интервальными оценками. По формуле нахождения интервальной оценки для генеральной доли рассчитать три варианта объема выборки – минимальный, оптимальный и максимальный:

где P –  оцениваемая доля «плохих» заемщиков в генеральной совокупности;

w – доля «плохих» заемщиков по выборке;

n – объем изначальной исторической выборки;

zγ – значение стандартного нормального закона распределения, определяемое в зависимости от выбранного уровня надежности γ.

Рассчитаем нижнюю и верхнюю границу доверительного интервала для оценки генеральной доли «плохих» заемщиков для нашего примера при уровне надежности 95%:

и

.

В лучшем случае с точки зрения оценки риска, но наихудшем с точки зрения для определения минимального объема выборки, будет нижняя граница доверительного интервала для доли «плохих» клиентов. В нашем примере это около 0,05, и тогда необходимо будет взять объем выборки примерно 7299 клиентов при относительной ошибке оценки доли в 10%. А при доле «отрицательных» исходов в 0,09 будет уже достаточно 3885 наблюдений. Если же мы повысим точность оценивания генеральной доли до относительной ошибки в 5%, то уже понадобиться соответственно 29 196 и 15 537 наблюдений.

Теперь вернемся к вопросу взвешивания наблюдений. Предположим, мы имеем возможность взять для построения модели только 700 первоначальных наблюдений с 50 «плохими» клиентами. При такой ситуации, как было показано выше, верхняя граница доверительного интервала, как мы показали ранее, составит около 0,09. В этой ситуации мы можем только взвесить наблюдения, повысив долю «плохих» клиентов не более чем на 0,09, и посмотреть, насколько улучшиться чувствительность модели. Для всех наблюдений с наличием дефолта по кредиту мы должны взять вес:

, а для всех остальных наблюдений:

.

В заключении отметим, что правильное определение необходимого объема выборки это еще не решение проблемы построения модели логистической регрессии, хорошо предсказывающей «дефолты». Это только предпосылка, необходимое условие для построения модели с хорошими прогностическими свойствами. Успех построения модели логистической регрессии, обладающей хорошими классификационными свойствами, зависит от успешного решения всех обозначенных в начале данной статьи возможных проблем.

Литература:

  1. Hosmer D.W., Lemeshow S. Applied logistic regression. NY: John Wiley & Sons, 2000
  2. Harrell, Frank. Regression modeling strategies. NY: Springer, 2001
  3. Васильева Э.К., Юзбашев М.М. - Выборочный метод в социально-экономической статистике. М.: Финансы и статистика, ИНФРА-М, 2010
  4. Айвазян С.А., Мхитарян В.С. Прикладная статистика. Основы эконометрики. Т.1: Теория вероятностей и прикладная статистика. М.: ЮНИТИ, 2001

Продолжение статьи: Корректировка числа редких событий при построении модели логистической регрессиии

 

Корпоративный тренинг по построению скоринговой модели