При статистическом анализе данных очень важным является поиск зависимостей между переменными. Построение таблиц сопряженности – метод изучения взаимосвязи между категориальными переменными. Таблица сопряженности в простейшем виде представляют собой таблицу двумерного распределения категориальных переменных: строки таблицы задаются категориями одной переменной, а столбцы таблицы задаются категориями другой переменной. Таблицы сопряженности могут иметь многомерный характер. На практике таблицы размерностью более трех измерений редко анализируются по следующим причинам:
- интерпретация таких таблиц достаточно затруднительна;
- для анализа таких таблиц существуют специальные методы, такие как логлинейный анализ и деревья решений.
При анализе таблиц сопряженности важным является не только установить наличие связи между переменными. Для этого, как правило, используется тест независимости хи-квадрат или его модификации. Оценить силу и направление связи между переменными помогают различные тесты и критерии, основа расчета которых частоты из таблицы сопряженности:
- модификации теста хи-квадрат для малых выборок;
- точный тест Фишера;
- меры связи для переменных, относящихся к номинальной шкале (коэффициент сопряженности, коэффициент Крамера, коэффициенты Гудмена-Крускала, коэффициенты неопределенности и др.);
- меры связи для переменных, относящихся к порядковой шкале (коэффициенты Сомерса, Кендалла, гамма коэффициент);
- меры связи для переменных, относящихся к интервальной шкале (эта-коэффициент);
- коэффициент согласованности Каппа;
- коэффициенты риска (отношения шансов и др.);
- тест Мак-Немара для зависимых выборок;
- статистики Кохрана и Мантеля-Хэнзеля.
Вам может быть интересно ...
Онлайн курс "Углубленные методы статистического анализа данных в IBM SPSS Statistics"