Цель проведения тренинга «Анализ структуры многомерных данных в пакете R» – освоить статистические методы анализа многомерных данных и их реализацию в программе R. Эти методы часто называют методами интеллектуального анализа данных или data mining – визуальные и аналитические методы, позволяющие изучить структуру большого массива данных. Анализируемый массив информации может содержать тысячи и сотни тысяч наблюдений с десятками и сотнями характеристик наблюдений.
Предварительная подготовка
Прохождение курса «Анализ данных и моделирование взаимосвязи в пакете R» или эквивалентная подготовка, навыки программирования или опыт работы в пакете R, владение базовыми методами статистического анализа, желательно математическое или инженерное образование.
По окончания обучения Вы будете уметь в программе R:
- визуализировать многомерные данные;
- применять кластерный анализ (иерархический метод, метод к-средних);
- владеть методами снижения размерности данных (компонентным анализом, факторным анализом, многомерным шкалированием, анализом соответствий);
- проводить классификацию с обучением (с помощью логистической регрессии, дискриминантного анализа, деревьев решений).
Продолжительность тренинга: 32 ак.ч. или 4 дня.
Программа обучения
Тема 1. Визуализация многомерных данных в R– 2 ак.ч.
- Подходы к визуализации многомерных данных
- Построение трехмерных диаграмм
- Построение составных диаграмм: задание панелей
- Матричные графики
- Использование графиков-пиктограмм: «звезды» и «лица Чернова»
- График параллельных координат
Тема 2. Снижение размерности данных методом факторного и компонентного анализа в R – 4 ак.ч.
- Суть методов снижения размерности
- Этапы реализации методов снижения размерности
- Понятие факторного анализа
- Цель и задачи факторного анализа
- Понятие компонентного анализа
- Цели и задачи компонентного анализа
- Алгоритм компонентного анализа
- Алгоритм факторного анализа
- Предпосылки применения факторного и компонентного анализа
- Сравнение факторного и компонентного анализов
- Правила отбора факторов
- Проблема вращения факторов
- Реализация компонентного анализа в R
- Реализация факторного анализа в R
Тема 3. Методы многомерной классификации без обучения: иерархический кластерный анализ и метод к-средних в R – 6 ак.ч.
- Понятие и области применения кластерного анализа
- Задачи кластерного анализа
- Методы кластерного анализа
- Преимущества и недостатки кластерного анализа
- Этапы кластерного анализа
- Исходные данные для проведения кластерного анализа
- Меры сходства и различия между количественными данными
- Меры различия между частотными данными
- Меры сходства и различия между бинарными данными
- Анализ качества классификации
- Особенности иерархического кластерного анализа
- Алгоритм иерархических методов кластерного анализа
- Меры расстояния между кластерами
- Выбор метода иерархического кластерного анализа
- Графическое представление результатов иерархического кластерного анализа
- Реализация иерархического кластерного анализа в R
- Классификация методом k-средних
- Алгоритм метода k-средних
- Представление результатов метода k-средних
- Реализация иерархического кластерного анализа в R
Тема 4. Классификация с обучением: логистическая регрессия и дискриминантный анализ в R – 8 ак.ч.
- Методы классификации на основе откликов
- Модель логистической регрессии
- Оценка параметров и их интерпретация в модели логистической регрессии
- Анализ качества модели логистической регрессии
- Задание категориальных независимых переменных в модели логистической регресси
- Пошаговые алгоритмы логистической регрессии
- Классификация на основе логистической регрессии
- Построение и анализ ROC-кривых
- Реализация модели логистической регрессии в R
- Исходные данные для дискриминантного анализа
- Сходства дискриминантного анализа и логистической регрессии
- Различия дискриминантного анализа и логистической регрессии
- Цель и задачи дискриминантного анализа
- Предпосылки дискриминантного анализа
- Этапы дискриминантного анализа
- Методы дискриминантного анализа
- Линейная модель дискриминантного анализа
- Классификация на основе результатов дискриминантного анализа
- Классификационные статистики
- Геометрическая интерпретация классификационных функций
- Реализация дискриминантного анализа в R
Тема 5. Снижение размерности на основе многомерного шкалирования в R – 4 ак.ч.
- Основные понятия многомерного шкалирования
- Предпосылки применения многомерного шкалирования
- Задачи и области применения многомерного шкалирования
- Преимущества и недостатки многомерного шкалирования
- Сбор данных в многомерном шкалировании
- Организация данных в многомерном шкалировании
- Этапы многомерного шкалирования
- Алгоритмы методов многомерного шкалирования
- Вычисление расстояний между объектами
- Преобразование исходных близостей
- Оценка качества модели
- Методы определения стартовой конфигурации точек
- Модели многомерного шкалирования
- Задание внешних переменных для интерпретации осей
- Построение модели многомерного шкалирования в R
Тема 6. Анализ соответствий в R – 4 ак.ч.
- Цели и задачи анализа соответствий
- Области применения анализа соответствий
- Сравнение факторного анализа и анализа соответствий
- Исходные данные для анализа соответствий
- Модель анализа соответствий
- Выбор меры расстояния в таблице соответствий
- Результаты анализа соответствий и из интерпретация
- Графическая интерпретация результатов анализа соответствий
- Проведение анализа соответствий в R
Тема 7. Классификация на основе деревьев решений в R – 4 ак.ч.
- Цель метода деревьев решений
- Терминология деревьев решений
- Задачи построения деревьев решения
- Области применения деревьев решений
- Преимущества и недостатки метода деревьев решений
- Обзор основных методов деревьев решений
- Построение деревьев решений методом CHAID
- Реализация построения деревьев решений в R