Центр статистического анализа - Статистический анализ данных: консалтинг, тренинги, обучение

Анализ структуры многомерных данных в R

Цель проведения тренинга «Анализ структуры многомерных данных в пакете R» - освоить статистические методы анализа многомерных данных и их реализацию в программе R. Эти методы часто называют методами интеллектуального анализа данных или data mining – визуальные и аналитические методы, позволяющие изучить структуру большого массива данных. Анализируемый массив информации может содержать тысячи и сотни тысяч наблюдений с десятками и сотнями характеристик наблюдений.

Предварительная подготовка

Прохождение курса «Анализ данных и моделирование взаимосвязи в пакете R» или эквивалентная подготовка, навыки программирования или опыт работы в пакете R, владение базовыми методами статистического анализа, желательно математическое или инженерное образование.

По окончания обучения Вы будете уметь в программе R:

  • визуализировать многомерные данные;
  • применять кластерный анализ (иерархический метод, метод к-средних);
  • владеть методами снижения размерности данных (компонентным анализом, факторным анализом, многомерным шкалированием, анализом соответстивий);
  • проводить классификацию с обучением (с помощью логистической регрессии, дискриминантного анализа, деревьев решений)

Продолжительность тренинга: 32 ак.ч. или 4 дня.

Программа обучения

Тема 1. Визуализация многомерных данных в R– 2 ак.ч.

  • Подходы к визуализации многомерных данных
  • Построение трехмерных диаграмм
  • Построение составных диаграмм: задание панелей
  • Матричные графики
  • Использование графиков-пиктограмм: «звезды» и «лица Чернова»
  • График параллельных координат

Тема 2. Снижение размерности данных методом факторного и компонентного анализа в R – 4 ак.ч.

  • Суть методов снижения размерности
  • Этапы реализации методов снижения размерности
  • Понятие факторного анализа
  • Цель и задачи факторного анализа
  • Понятие компонентного анализа
  • Цели и задачи компонентного анализа
  • Алгоритм компонентного анализа
  • Алгоритм факторного анализа
  • Предпосылки применения факторного и компонентного анализа
  • Сравнение факторного и компонентного анализов
  • Правила отбора факторов
  • Проблема вращения факторов
  • Реализация компонентного анализа в R
  • Реализация факторного анализа в R

 Тема 3. Методы многомерной классификации без обучения: иерархический кластерный анализ и метод к-средних в R – 6 ак.ч.  

  • Виды многомерных методов классификации
  • Понятие и области применения кластерного анализа
  • Задачи кластерного анализа
  • Методы кластерного анализа
  • Преимущества и недостатки кластерного анализа
  • Этапы кластерного анализа
  • Исходные данные для проведения кластерного анализа
  • Меры сходства и различия между количественными данными
  • Меры различия между частотными данными
  • Меры сходства и различия между бинарными данными
  • Анализ качества классификации 
  • Особенности иерархического кластерного анализа
  • Алгоритм иерархических методов кластерного анализа
  • Меры расстояния между кластерами
  • Выбор метода иерархического кластерного анализа
  • Графическое представление результатов иерархического кластерного анализа
  • Реализация иерархического кластерного анализа в R
  • Классификация методом k-средних 
  • Алгоритм метода k-средних
  • Представление результатов метода k-средних
  • Реализация иерархического кластерного анализа в R

Тема 4. Классификация с обучением: логистическая регрессия и дискриминантный анализ в R – 8 ак.ч.

  • Методы классификации на основе откликов
  • Модель логистической регрессии
  • Оценка параметров и их интерпретация в модели логистической регрессии
  • Анализ качества модели логистической регрессии
  • Задание категориальных независимых переменных в модели логистической регресси
  • Пошаговые алгоритмы логистической регрессии
  • Классификация на основе логистической регрессии
  • Построение и анализ ROC-кривых
  • Реализация модели логистической регрессии в R
  • Исходные данные для дискриминантного анализа
  • Сходства дискриминантного анализа и логистической регрессии
  • Различия дискриминантного анализа и логистической регрессии
  • Цель и задачи дискриминантного анализа
  • Предпосылки дискриминантного анализа
  • Этапы дискриминантного анализа
  • Методы дискриминантного анализа
  • Линейная модель дискриминантного анализа
  • Классификация на основе результатов дискриминантного анализа
  • Классификационные статистики
  • Геометрическая интерпретация классификационных функций
  • Реализация дискриминантного анализа в R

 Тема 5. Снижение размерности на основе многомерного шкалирования в R – 4 ак.ч.

  • Основные понятия многомерного шкалирования
  • Предпосылки применения многомерного шкалирования
  • Задачи и области применения многомерного шкалирования
  • Преимущества и недостатки многомерного шкалирования
  • Сбор данных в многомерном шкалировании
  • Организация данных в многомерном шкалировании
  • Этапы многомерного шкалирования
  • Алгоритмы методов многомерного шкалирования
  • Вычисление расстояний между объектами
  • Преобразование исходных близостей
  • Оценка качества модели
  • Методы определения стартовой конфигурации точек
  • Модели многомерного шкалирования
  • Задание внешних переменных для интерпретации осей
  • Построение модели многомерного шкалирования в R

Тема 6. Анализ соответствий в R – 4 ак.ч.                                                                          

  • Цели и задачи анализа соответствий
  • Области применения анализа соответствий
  • Сравнение факторного анализа и анализа соответствий
  • Исходные данные для анализа соответствий
  • Модель анализа соответствий
  • Выбор меры расстояния в таблице соответствий
  • Результаты анализа соответствий и из интерпретация
  • Графическая интерпретация результатов анализа соответствий
  • Проведение анализа соответствий в R

Тема 7. Классификация на основе деревьев решений в R – 4 ак.ч.        

  • Цель метода деревьев решений
  • Терминология деревьев решений
  • Задачи построения деревьев решения
  • Области применения деревьев решений
  • Преимущества и недостатки метода деревьев решений
  • Обзор основных методов деревьев решений
  • Построение деревьев решений методом CHAID
  • Реализация построения деревьев решений в R