Управление данными
Как правило, большая часть времени всех проектов, связанных с аналитикой, приходится на работу с данными. Сбор данных, их ввод, проверка и чистка данных, подготовка данных в нужном формате для обработки в статистических пакетах, техническая обработка данных – не просто рутинные операции, а необходимое условие успешности последующего статистического анализа. Также может быть актуальна задача выгрузки данных и сформированных отчетов в аналитическую систему компании в удобном для пользователя виде.
Ниже представлен пример проекта по автоматизации обработки данных интернет-опросов для информационного агентства.
Разработка программного модуля для обработки данных опросов
Основное предназначение модуля – облегчить работу пользователей при обработке данных периодически повторяющихся типовых опросов посредством сокращения времени на составление команд для обработки данных в среде IBM SPSS Statistics и автоматического экспорта результатов в рабочую книгу MS Excel в удобном для дальнейшей работы формате.
Задачи для решения
Суть работы программного модуля для обработки данных опросов сводилось к следующему.
1. Пользователь подготавливает файл с результатами проведенного опроса заданной спецификации в формате SPSS (специфика проведенных опросов в том, что файл включает в себя более 100 переменных).
2. В рабочей книге MS Excel файла-задания пользователь формируется все необходимые параметры для выполнения обработки (список переменных, тип данных, формат таблицы, дополнительные параметры).
3. Пользователь запускает макрос в MS Excel, который автоматически генерирует и запускает синтаксис SPSS, необходимые команды синтаксиса и их параметры берутся из файла задания.
4. Результаты выполнения синтаксиса команд SPSS автоматически экспортируются в документ отчета заданного формата в MS Excel и автоматически форматируются в нем.
Используемые языки программирования
Создаваемый программный модуль должен был в автоматическом режиме обеспечить интеграцию между приложением MS Excel и программой обработки данных IBM SPSS Statistics (импорт данных и экспорт результатов). Для решения поставленной задачи использовались макросы и скрипты, написанные на языке VBA (Visual Basic for Application), встроенный язык программирования в SPSS – синтаксис, скрипты Sax (WinWrap) Basic в SPSS, а также язык Python.
Полученные результаты
1. Создан программный модуль для автоматической обработки данных социологических опросов (программный код и необходимая документация, проведено обучение по работе с программным модулем). Модуль включает в себя автоматическое применение в зависимости от типа шкал переменных и нужного анализа следующих статистических методов: вывод таблиц и графиков, теста хи-квадрат, вывод описательной статистики, t-критерий для парных и независимых выборок, расчет корреляций и др. Всего модуль включает 17 алгоритмов обработки данных, которые не просто выполняют статистические расчеты и выдают техническую информацию, а результаты обнаруженных связей в целом по выборке и различным подгруппам представляют в наглядном виде для обычных пользователей – конечных заказчиков проведенного опроса.
2. Время на обработку опросов и подготовку отчета с результатами обработки для конечных клиентов заказчика сократилось в десятки раз. От получения данных опроса до сдачи готового отчета уходит не более 1 дня. Основное время уходить на формирование файла задания и подготовку данных. Статистические расчеты и формирование отчета стандартизированного формата занимают не более 10-15 минут в автоматическом режиме (объем отчета не ограничен).