Введение в Data Mining c помощью IBM SPSS Modeler
Цель проведения тренинга «Введение в Data Mining c помощью IBM SPSS Modeler» – освоить основы методологии Data Mining (добычи данных) и научиться работать в среде визуального моделирования SPSS Modeler. Обучение рассчитано на слушателей без опыта работы в SPSS Modeler или с начальными знаниями пакета. Курс является вводным для специалистов, осваивающие инструменты интеллектуального анализа данных (Data Mining) с помощью программы SPSS Modeler.
По окончания обучения Вы будете:
- Знать основы методологии интеллектуального анализа данных
- Знать интерфейс программы SPSS Modeler
- Уметь создавать проекты (стримы) по анализу и добычи данных в рабочей среде SPSS Modeler
- Уметь проводить все основные операции по импорту/экспорту данных
- Уметь проводить основные операции подготовки данных перед моделированием
- Уметь проводить исследование данных перед моделированием
Продолжительность тренинга: 16 ак.ч. или 2 дня.
Программа обучения:
Тема 1. Основы методологии Data Mining – 2 ак.ч.
- Понятие Data Mining
- Междисциплинарный характер Data Mining
- Основные этапы добычи данных
- Источники данных для добычи знаний
- Типы и форматы исходных данных
- Шкалы измерения данных
- Сферы применения Data Mining
- Понятие машинного обучения
- Основные виды машинного обучения
- Классы задач Data Mining
- Алгоритмы Data Mining
- Инструменты для добычи данных
Тема 2. Принципы работы в среде визуального моделирования SPSS Modeler – 2 ак.ч.
- Запуск работы и интерфейс программы
- Палитра узлов
- Панель менеджеров
- Панель проектов
- Основные этапы добычи данных по стандарту CRISP-DM
- Панель инструментов
- Использование мыши и клавиатуры при работе
- Палитра моделирования
- Понятие потока данных
- Работа с узлами
- Работа с потоками
- Запуск потока
- Работа с моделями
- Сохранение объектов
- Надузлы и их типы
- Создание надузлов
- Работа с надузлами
Тема 3. Работа с выводом результатов в SPSS Modeler – 1 ак.ч.
- Средство просмотра
- Управление элементами средства просмотра
- Панель схемы
- Сохранение и открытие вывода
- Экспорт вывода
- Печать вывода
Тема 4. Загрузка данных в IBM SPSS Modeler – 2 ак.ч.
- Чтение данных из Excel (узел Excel)
- Чтение данных из баз данных (узел База данных)
- Чтение данных SPSS Statistics (узел Файл статистики)
- Чтение текстовых файлов фиксированной длины (узел Фиксированный файл)
- Чтение текстовых файлов с разделителем (узел Файл с переменной шириной)
- Общие вкладки узлов источников данных (задание шкал измерения, фильтрация полей, задание типа данных, аннотация к узлу)
- Экспорт результатов моделирования (обзор узлов палитры Экспортировать)
Тема 5. Операции с записями в IBM SPSS Modeler – 2 ак.ч.
- Обработка пропущенных значений
- Отбор данных (узел Выбрать)
- Формирование выборки (узел Выборка)
- Перевзвешивание данных (узел Баланс)
- Агрегирование данных (узел Агрегирование)
- Поиск дубликатов наблюдений (узел Особый тип)
- Сортировка данных (узел Сортировка)
- Добавление переменных (узел Слияние)
- Добавление наблюдений (узел Добавление)
- Сортировка данных (узел Сортировка)
Тема 6. Операции с полями в IBM SPSS Modeler – 2 ак.ч.
- Автоматическая подготовка данных
- Настройка свойств переменных (узел Тип)
- Отбор переменных (узел Фильтр)
- Вычисление переменных (узел Произвести)
- Замена значений переменных (узел Заполнения)
- Перекодировка значений переменных (узел Переклассифицировать)
- Категоризация количественных данных (узел Категоризация)
- Защита конфиденциальных данных (узел Анонимизировать)
- Разделение данных (узел Подмножества)
- Создание бинарных переменных (узел Задать как флаг)
- Реструктуризация данных: переменных в наблюдения и наблюдений в переменные (узел Реструктурировать)
Тема 7. Графическое предоставление данных в IBM SPSS Modeler – 1 ак.ч.
- Обзор возможностей узлов диаграмм
- Мастер создания диаграмм (узел Панель выбора диаграмм)
- Линейные диаграммы и диаграммы рассеяния (узел График)
- Графики множественных сравнений (узел Несколько графиков)
- Графики временных рядов (узел График зависимости от времени)
- Графическое представление категориальных данных (узел Распределение)
- Графическое представление количественных данных (узел Гистограмма)
- Сравнение точности прогнозных моделей (узел Оценка)
Тема 8. Разведочный статистический анализ данных – 4 ак.ч.
- Определение целевой переменной для построения модели
- Выбор независимых переменных для построения модели
- Анализ пропущенных значений
- Меры центральной тенденции для количественных данных
- Меры разброса для количественных данных
- Оценка однородности данных
- Процентили и их анализ
- Графический анализ распределения данных
- Нормальный закон распределения
- Основные распределения, отличные от нормального
- Нормализация количественных данных (узел Преобразование)
- Стандартизация количественных переменных
- Категоризация количественных переменных
- Исследование категориальных данных (узел Таблица)
- Экспресс-анализ данных (узел Аудит данных)
- Вывод описательной статистики (узел Статистика)
- Вывод отчетов (узел Отчеты)
- Сравнение средних (узел Средние)
- Анализ взаимосвязи на основе таблиц сопряженности (узел Матрица)