Цель проведения тренинга «Анализ данных и моделирование взаимосвязи в пакете R» – изучить базовые возможности программы R – бесплатного языка программирования для проведения статистических вычислений, а также научиться организовывать ввод данных и управлять ими, проводить первичный статистический анализ данных, представлять их в графическом виде, уметь находить взаимосвязи в данных. Обучение рассчитано на слушателей без опыта работы в R или с начальными знаниями пакета.
Слушателям желательно иметь навыки программирования и быть знакомым с основами статистического анализа.
По окончания обучения Вы будете уметь в программе R:
- Правильно формировать выборку данных для анализа
- Организовывать ввод данных и управлять данными
- Выполнять описательный статистический анализ
- Изучать взаимосвязь в таблицах сопряженности
- Проверять статистические гипотезы о равенстве средних
- Использовать графические возможности
- Проводить корреляционный анализ
- Проводить регрессионный анализ
- Проводить дисперсионный анализ
Продолжительность тренинга: 32 ак.ч. или 4 дня.
Программа обучения:
Тема 1. Основные понятия статистического анализа данных – 2 ак.ч.
- Статистическое исследование
- Способы получения данных
- Отличие наблюдения от эксперимента
- Генеральная совокупность и выборка
- Требования к данным при формировании выборки
- Понятие точечной и интервальной статистической оценки
- Признаки и переменные
- Шкалы измерения переменных
- Направления анализ статистических данных
- Описательная и аналитическая статистика
- Выбор методов статистического анализа в зависимости от шкал измерения переменных
- Статистическая гипотеза
- Виды статистических ошибок
- Принципы проверки статистических гипотез
- Выбор уровня значимости при проверке гипотез
Тема 2. Введение в работу в среде R – 2 ак.ч.
- Особенности работы с R
- Установка программы
- Запуск программы
- Среда R
- Интерфейс командной строки и диалоговых окон
- Правила задания команд
- Создание рабочей директории
- Пакеты
- Графические интерфейсы
- R как калькулятор
- Справочная система
Тема 3. Основы программирования в R – 2 ак.ч.
- Виды объектов в R
- Вектора
- Списки
- Матрицы
- Факторы
- Таблицы данных
- Выражения
- Операторы доступа к данным
- Функции и аргументы
- Циклы и условные операторы
- Управления базами данных в R
- Векторизация операций
- Отладка
- Объектно-ориентированное программирование
Тема 4. Ввод и организация данных в R – 2 ак.ч.
- Способы загрузки данных
- Непосредственный ввод данных
- Ввод данных в таблице
- Загрузка данных из текстовых файлов
- Импорт данных из MS Excel
- Импорт данных из других статистических пакетов и баз данных
- Сохранение результатов анализа
- Задание количественных данных
- Задание порядковых и номинальных данных
- Задание пропущенных значений в данных
- Выявление выбросов и ошибок
- Принципы преобразование данных
Тема 5. Графические возможности R – 2 ак.ч.
- Графические функции
- Графические устройства
- Графические параметры
- Интерактивная графика
- Составные изображения
- Устройства вывода
Тема 6. Описательный статистический анализ в R – 4 ак.ч.
- Статистики центральной тенденции
- Средняя арифметическая
- Модальное значение
- Медианное значение
- Статистики разброса
- Дисперсия и стандартное отклонение
- Коэффициент вариации
- Процентили
- Гистограммы
- Ящичковые диаграммы
- Z-преобразование
- Нормальный закон распределения
- Асимметрия и эксцесс
- Проверка распределения на нормальность
- Некоторые законы распределения
- Биномиальное распределение
- Распределение Пуассона
- Равномерное распределение
- Экспоненциальное распределение
- Логнормальное распределение
- Стандартная ошибка и интервал для средней
Тема 7. Формирование данных для анализа выборочным методом – 2 ак.ч.
- Генеральная и выборочная совокупность
- Характеристики выборки
- Особенности выборочного метода исследования
- Классификация выборок
- Виды и методы вероятностного отбора
- Способы формирования выборок
- Простой случайный отбор
- Систематический случайный отбор
- Кластерный отбор
- Одноступенчатный кластерный отбор
- Многоступенчатый кластерный отбор
- Алгоритм проведения выборочных обследований
- Определение необходимого объема выборки
Тема 8. Статистические тесты выявления различий в выборках в R – 4 ак.ч.
- Гипотезы о сравнении средних
- Z-критерий для сравнения средних
- Z-критерий для сравнения долей
- Одновыброчный t-критерий
- Проверка гипотезы о равенстве дисперсий
- T-критерий для независимых выборок
- T-критерий для зависимых выборок
- Условия применения непараметрических критериев
- Одновыборочный критерий знаковых рангов Вилкоксона
- Критерий Манна-Уитни
- Критерий знаков для связанных выборок
- Критерий знаков Вилкоксона для связанных выборок
- Непараметрический дисперсионный анализ Крускала-Уоллиса
- Критерий Фридмана для зависимых выборок
Тема 9. Оценка взаимосвязи между переменными в R – 4 ак.ч.
- Анализ взаимосвязи между категориальными переменными
- Таблицы сопряженности
- Ожидаемые частоты и остатки в таблицах сопряженности
- Критерий хи-квадрат
- Критерий согласия
- Классификация видов взаимосвязи между количественными переменными
- Диаграммы рассеяния
- Предпосылки и условия проведения корреляционного анализа
- Коэффициент корреляции Пирсона
- Ранговые коэффициенты корреляции
- Коэффициент корреляции Спирмена
- Проверка значимости связи
- Интервальные оценки коэффициентов корреляции
- Частные коэффициенты корреляции
Тема 10. Моделирование формы связи с помощью регрессионного анализа в R– 4 ак.ч.
- Основные понятия регрессионного анализа
- Парная и множественная линейная модель регрессии
- Предпосылки линейного регрессионного анализа
- Оценка коэффициентов регрессии
- Проверка обоснованности модели регрессии
- Значимость уравнения регрессии
- Значимость коэффициентов регрессии
- Отбор переменных в регрессионном анализе
- Оценка точности уравнения регрессии
- Оценка статистической устойчивости уравнения регрессии
- Точечная и интервальная оценка зависимой переменной
- Нелинейные регрессионные модели
- Категориальные независимые переменные в модели регрессии
Тема 11. Моделирование взаимосвязи с помощью дисперсионного анализа в R– 4 ак.ч.
- Модели дисперсионного анализа
- Предпосылки применения дисперсионного анализа
- Проверка гипотезы о равенстве дисперсий
- Модель однофакторного дисперсионного анализа
- Таблица однофакторного дисперсионного анализа
- Оценка степени влияния фактора
- Апостериорные критерии парных сравнений
- Дисперсионный анализ с двумя и более факторами
- Таблица двухфакторного дисперсионного анализа с взаимодействием
- Графическая интерпретация взаимодействия факторов
- Анализ многофакторной модели