Цель проведения тренинга «Добыча данных в программе Statistica» – освоить основы методологии Data Mining (добычи данных) и научиться работать в среде визуального моделирования Statistica Data Miner – специального модуля для анализа "больших данных" (big data). Обучение рассчитано на слушателей без опыта работы Statistica или с начальными знаниями пакета. Курс является вводным для специалистов, осваивающие инструменты интеллектуального анализа данных (Data Mining) с помощью программы Statistica.
По окончания обучения Вы будете:
- Знать основы методологии интеллектуального анализа данных
- Знать интерфейс оболочки Statistica Data Mining
- Уметь работать с мастером добычи знаний
- Создавать проекты (стримы) по анализу и добычи данных в рабочей среде Statistica Data Mining
Продолжительность тренинга: 8 ак.ч. или 1 день.
Программа обучения:
Тема 1. Основы методологии Data Mining – 2 ак.ч.
- Понятие Data Mining
- Междисциплинарный характер Data Mining
- Основные этапы добычи данных
- Источники данных для добычи знаний
- Типы и форматы исходных данных
- Шкалы измерения данных и выбор методов моделирования
- Сферы применения Data Mining
- Понятие машинного обучения
- Основные виды машинного обучения
- Классы задач Data Mining
- Алгоритмы Data Mining
- Требования к обучающей выборке
- Проблемы переобучения и недообучения модели
- Причины переобучения модели
- Методы кросс-проверки
Тема 2. Запуск и начало работы в Statistica Data Miner – 2 ак.ч.
- Запуск программы Statistica
- Стандартные модули анализа данных
- Модули анализа данных Statistica Data Mining
- Дополнительные модули Statistica Data Mining
- Специальные возможности Statistica Data Mining
- Создание и сохранение таблицы данных
- Открытие файла данных
- Открытие текстовых файлов
- Текстовые переменные и текстовые значения
- Открытие табличных файлов
- Создание и сохранение файла проекта
Тема 3. Работа с мастером добычи данных – 2 ак.ч.
- Модуль Мастер добычи данных
- Этапы работы Мастера добычи данных
- Загрузка данных
- Создание случайной выборки
- Чистка данных
- Создание тестовой и обучающей выборки
- Анализ корреляций предикторов
- Определение степени влияния предикторов
- Построение модели и оценка ее качества
- Расчет модели на новых данных
Тема 4. Рабочее пространство для создания проектов по добыче данных – 2 ак.ч.
- Модуль Рабочее пространство
- Интерфейс Рабочего пространства
- Браузер узлов
- Настройка параметров узлов
- Загрузка данных
- Настройка ролей переменных
- Преобразование данных
- Задание случайной выборки
- Фильтрация дублирующихся наблюдений
- Отбор предикторов
- Обработка пропущенных значений
- Импутация пропущенных значений
- Обработка выбросов
- Шаблоны анализа данных
- Интерактивное бурение данных