Click here to print.

Логлинейный анализ

Логлинейный анализ (log liner analysis) – статистический метод моделирования распределения частот в таблице сопряженности. Для оценки наличия взаимосвязи между двумя категориальными переменными строится двумерная таблица сопряженности. В этом случае наличие связи можно проверить на основе, например,  критерия хи-квадрат. Многомерные таблицы сопряженности – это таблицы сопряженности с числом категориальных переменных большим двух. Визуальный анализ таких многомерных таблиц сопряженности для оценки взаимосвязи между категориальными переменными весьма затруднителен. Поэтому один из используемых методов для решения этой задачи – логлинейный анализ.

Логлинейный анализ имеет сходство с дисперсионным анализом и регрессионным анализом. Для проведения логлинейного анализа все переменные должны быть измерены в категориальной шкале. Логлинейная модель представляет собой линейную множественную модель регрессии. Зависимая переменная в логлинейной модели представляет собой натуральный логарифм соответствующей частоты многомерной таблицы сопряженности. Использование логарифма обуславливает линейность модели. Отсюда и название модели – логлинейная модель – логарифмическая линейная модель.

Предикторами в логлинейной модели выступают категориальные переменные и их взаимодействия. Категориальные переменные в логлинейной модели, как и в дисперсионном анализе, называют также факторами. Логлинейный анализ используется для углубленного исследования многомерных таблиц сопряженности. Он позволяет проверить статистическую значимость различных факторов и их взаимодействий, присутствующих в таблице сопряженности. В этом его сходство с дисперсионным анализом. Модель взаимосвязи между натуральными логарифмами частот и предикторами – линейная, в этом сходство логлинейного анализа с регрессионным анализом.

 В зависимости от числа факторов логлинейные модели бывают: двухфакторные и многофакторные. В зависимости от числа параметров в модели выделяют насыщенные и ненасыщенные логлинейные модели.

Модель называется насыщенной, если она содержит все факторы  и их возможные взаимодействия. В этом случае число параметров в модели будет больше или равно числу ячеек в таблице сопряженности. Модель называется ненасыщенной, если она содержит только часть статистически значимых факторов и их взаимодействий. В этом случае число параметров в модели будет меньше числа ячеек в таблице сопряженности. Насыщенная модель не всегда бывает оптимальной, т.к. редко все факторы и все их взаимодействия оказываются статистически значимыми. Задача проведения логлинейного анализа – найти оптимальную ненасыщенную модель с минимальным числом параметров и максимальной точностью и надежностью. Для оценки качества приближения логлинейной модели применяют критерий хи-квадрат и отношение правдоподобия.

Логлинейный анализ часто используют при анализе нечисловой информации, например, в социологии, психологии и других науках при обработке больших массивов категориальных переменных.