Центр статистического анализа - Статистический анализ данных: консалтинг, тренинги, обучение

Анализ данных и моделирование взаимосвязи в R

Цель проведения тренинга «Анализ данных и моделирование взаимосвязи в пакете R» - изучить базовые возможности программы R - бесплатного языка программирования для проведения статистичеких вычислений, а также научиться организовывать ввод данных и управлять ими, проводить первичный статистический анализ данных, представлять их в графическом виде, уметь находить взаимосвязи в данных. Обучение рассчитано на слушателей без опыта работы в R или с начальными знаниями пакета.

Слушателям желательно иметь навыки программирования и быть знакомым с основами статистического анализа.

По окончания обучения Вы будете уметь в программе R:

  • Правильно формировать выборку данных для анализа
  • Организовывать ввод данных и управлять данными
  • Выполнять описательный статистический анализ
  • Изучать взаимосвязь в таблицах сопряженности
  • Проверять статистические гипотезы о равенстве средних
  • Использовать графические возможности
  • Проводить корреляционный анализ
  • Проводить регрессионный анализ
  • Проводить дисперсионный анализ

Продолжительность тренинга: 32 ак.ч. или 4 дня.

Программа обучения:

Тема 1. Основные понятия статистического анализа данных – 2 ак.ч.

  • Статистическое исследование
  • Способы получения данных
  • Отличие наблюдения от эксперимента
  • Генеральная совокупность и выборка
  • Требования к данным при формировании выборки
  • Понятие точечной и интервальной статистической оценки
  • Признаки и переменные
  • Шкалы измерения переменных
  • Направления анализ статистических данных
  • Описательная и аналитическая статистика
  • Выбор методов статистического анализа в зависимости от шкал измерения переменных
  • Статистическая гипотеза
  • Виды статистических ошибок
  • Принципы проверки статистических гипотез
  • Выбор уровня значимости при проверке гипотез

 Тема 2. Введение в работу в среде R – 2 ак.ч.                                                                          

  • Особенности работы с R
  • Установка программы
  • Запуск программы
  • Среда R
  • Интерфейс командной строки и диалоговых окон
  • Правила задания команд
  • Создание рабочей директории
  • Пакеты
  • Графические интерфейсы
  • R как калькулятор
  • Справочная система

Тема 3. Основы программирования в R – 2 ак.ч.                                                                   

  • Виды объектов в R
  • Вектора
  • Списки
  • Матрицы
  • Факторы
  • Таблицы данных
  • Выражения
  • Операторы доступа к данным
  • Функции и аргументы
  • Циклы и условные операторы
  • Управления базами данных в R
  • Векторизация операций
  • Отладка
  • Объектно-ориентированное программирование

 Тема 4. Ввод и организация данных в R – 2 ак.ч.                                                                   

  • Способы загрузки данных
  • Непосредственный ввод данных
  • Ввод данных в таблице
  • Загрузка данных из текстовых файлов
  • Импорт данных из MS Excel
  • Импорт данных из других статистических пакетов и баз данных
  • Сохранение результатов анализа
  • Задание количественных данных
  • Задание порядковых и номинальных данных
  • Задание пропущенных значений в данных
  • Выявление выбросов и ошибок
  • Принципы преобразование данных

Тема 5. Графические возможности R – 2 ак.ч.                                                                         

  • Графические функции
  • Графические устройства
  • Графические параметры
  • Интерактивная графика
  • Составные изображения
  • Устройства вывода

 Тема 6. Описательный статистический анализ в R – 4 ак.ч.                                                

  • Статистики центральной тенденции
  • Средняя арифметическая
  • Модальное значение
  • Медианное значение
  • Статистики разброса
  • Дисперсия и стандартное отклонение
  • Коэффициент вариации
  • Процентили
  • Гистограммы
  • Ящичковые диаграммы
  • Z-преобразование
  • Нормальный закон распределения
  • Асимметрия и эксцесс
  • Проверка распределения на нормальность
  • Некоторые законы распределения
  • Биномиальное распределение
  • Распределение Пуассона
  • Равномерное распределение
  • Экспоненциальное распределение
  • Логнормальное распределение
  • Стандартная ошибка и интервал для средней

Тема 7. Формирование данных для анализа выборочным методом – 2 ак.ч.                   

  • Генеральная и выборочная совокупность
  • Характеристики выборки
  • Особенности выборочного метода исследования
  • Классификация выборок
  • Виды и методы вероятностного отбора
  • Способы формирования выборок
  • Простой случайный отбор
  • Систематический случайный отбор
  • Кластерный отбор
  • Одноступенчатный кластерный отбор
  • Многоступенчатый кластерный отбор
  • Алгоритм проведения выборочных обследований
  • Определение необходимого объема выборки

 Тема 8. Статистические тесты выявлений различий в выборках в R – 4 ак.ч.               

  • Гипотезы о сравнении средних
  • Z-критерий для сравнения средних
  • Z-критерий для сравнения долей
  • Одновыброчный t-критерий
  • Проверка гипотезы о равенстве дисперсий
  • T-критерий для независимых выборок
  • T-критерий для зависимых выборок
  • Условия применения непараметрических критериев
  • Одновыборочный критерий знаковых рангов Вилкоксона
  • Критерий Манна-Уитни
  • Критерий знаков для связанных выборок
  • Критерий знаков Вилкоксона для связанных выборок
  • Непараметрический дисперсионный анализ Крускала-Уоллиса
  • Критерий Фридмана для зависимых выборок

Тема 9. Оценка взаимосвязи между переменными в R – 4 ак.ч.

  • Анализ взаимосвязи между категориальными переменными
  • Таблицы сопряженности
  • Ожидаемые частоты и остатки в таблицах сопряженности
  • Критерий хи-квадрат
  • Критерий согласия
  • Классификация видов взаимосвязи между количественными переменными
  • Диаграммы рассеяния
  • Предпосылки и условия проведения корреляционного анализа
  • Коэффициент корреляции Пирсона
  • Ранговые коэффициенты корреляции
  • Коэффициент корреляции Спирмена
  • Проверка значимости связи
  • Интервальные оценки коэффициентов корреляции
  • Частные коэффициенты корреляции

 Тема 10. Моделирование формы связи с помощью регрессионного анализа в R– 4 ак.ч.      

  • Основные понятия регрессионного анализа
  • Парная и множественная линейная модель регрессии
  • Предпосылки линейного регрессионного анализа
  • Оценка коэффициентов регрессии
  • Проверка обоснованности модели регрессии
  • Значимость уравнения регрессии
  • Значимость коэффициентов регрессии
  • Отбор переменных в регрессионном анализе
  • Оценка точности уравнения регрессии
  • Оценка статистической устойчивости уравнения регрессии
  • Точечная и интервальная оценка зависимой переменной
  • Нелинейные регрессионные модели
  • Категориальные независимые переменные в модели регрессии

 Тема 11. Моделирование взаимосвязи с помощью дисперсионного анализа в R– 4 ак.ч.

  • Модели дисперсионного анализа
  • Предпосылки применения дисперсионного анализа
  • Проверка гипотезы о равенстве дисперсий
  • Модель однофакторного дисперсионного анализа
  • Таблица однофакторного дисперсионного анализа
  • Оценка степени влияния фактора
  • Апостериорные критерии парных сравнений
  • Дисперсионный анализ с двумя и более факторами
  • Таблица двухфакторного дисперсионного анализа с взаимодействием
  • Графическая интерпретация взаимодействия факторов
  • Анализ многофакторной модели