Click here to print.

Деревья решений

Деревья решений (decision trees)  – это статистический метод, позволяющий предсказывать принадлежность наблюдений или объектов к тому или иному классу категориальной зависимой переменной или среднее значение количественной переменной в зависимости от соответствующих значений одной или нескольких независимых переменных.  Построение деревьев решений относят к методам интеллектуальной добычи знаний «data mining».

Цель метода деревьев решений – предсказать значение целевой переменной в зависимости от соответствующих значений независимых переменных (предикторов, атрибутов). По типу шкалы целевой переменной деревья решений подразделяются на деревья регрессии и деревья классификации. При построении деревьев регрессии прогнозируется значение целевой переменной в зависимости от соответствующих значений предикторов. Например, прогнозируется вероятность отказа клиента от услуг банка в зависимости от пола и возраста клиента. Деревья регрессий работают с количественной целевой переменной.

При построении деревьев классификации предсказывается принадлежность объекта к той или иной категории целевой переменной в зависимости от соответствующих значений предикторов.  Например, классифицируются больные и здоровые пациенты в зависимости от их симптомов. Деревья классификации работают с категориальной целевой переменной.

Зависимость значения целевой переменной от значений предикторов, представляется  в виде иерархической структуры – «дерева». Если зависимая переменная является категориальной, строится дерево классификации. Если зависимая переменная является количественной, строится дерево регрессии.

Методы деревьев решений тесно связаны с более традиционными методами дискриминантного анализа, кластерного анализа, непараметрической статистики и нелинейного оценивания.  Деревья решений рекомендуется применять вместе с традиционными методами статистического моделирования. Однако, если предпосылки традиционных методов не соблюдаются и традиционные методы не работают, деревья решений, как последнее средство, могут дать удовлетворительный результат в исследовании данных и выявлении скрытых закономерностей.

Широкая сфера применимости деревьев решений делает их весьма привлекательным инструментом анализа данных. Деревья решений успешно применяются для решения практических задач в следующих областях: