Click here to print.

Управление данными

Как правило, большая часть времени всех проектов, связанных с аналитикой, приходится на работу с данными. Сбор данных, их ввод, проверка и чистка данных, подготовка данных в нужном формате для обработки в статистических пакетах, техническая обработка данных – не просто рутинные операции, а необходимое условие успешности последующего статистического анализа. Также может быть актуальна задача выгрузки данных и сформированных отчетов в аналитическую систему компании в удобном для пользователя виде.

Ниже представлен пример проекта по автоматизации обработки данных интернет-опросов для информационного агентства.

Разработка программного модуля для обработки данных опросов

Основное предназначение модуля – облегчить работу пользователей при обработке данных периодически повторяющихся типовых опросов посредством сокращения времени на составление команд для обработки данных в среде IBM SPSS Statistics и автоматического экспорта результатов в рабочую книгу MS Excel в удобном для дальнейшей работы формате.

Задачи для решения

Суть работы программного модуля для обработки данных опросов сводилось к следующему.

1. Пользователь подготавливает файл с результатами проведенного опроса заданной спецификации в формате SPSS (специфика проведенных опросов в том, что файл включает в себя более 100 переменных).

2. В рабочей книге MS Excel файла-задания пользователь формируется все необходимые параметры для выполнения обработки (список переменных, тип данных, формат таблицы, дополнительные параметры).

3. Пользователь запускает макрос в MS Excel, который автоматически генерирует и запускает синтаксис SPSS, необходимые команды синтаксиса и их параметры берутся из файла задания.

4. Результаты выполнения синтаксиса команд SPSS автоматически экспортируются в документ отчета заданного формата в MS Excel и автоматически форматируются в нем.

Используемые языки программирования

Создаваемый программный модуль должен был в автоматическом режиме обеспечить интеграцию между приложением MS Excel и программой обработки данных IBM SPSS Statistics (импорт данных и экспорт результатов). Для решения поставленной задачи использовались макросы и скрипты, написанные на языке VBA (Visual Basic for Application), встроенный язык программирования в SPSS – синтаксис, скрипты Sax (WinWrap) Basic в SPSS, а также язык Python. 

Полученные результаты

1. Создан программный модуль для автоматической обработки данных социологических опросов (программный код и необходимая документация, проведено обучение по работе с программным модулем). Модуль включает в себя автоматическое применение в зависимости от типа шкал переменных и нужного анализа следующих статистических методов:  вывод таблиц и графиков, теста хи-квадрат, вывод описательной статистики, t-критерий для парных и независимых выборок, расчет корреляций и др. Всего модуль включает 17 алгоритмов обработки данных, которые не просто выполняют статистические расчеты и выдают техническую информацию, а результаты обнаруженных связей в целом по выборке и различным подгруппам представляют в наглядном виде для обычных пользователей – конечных заказчиков проведенного опроса.

2. Время на обработку опросов и подготовку отчета с результатами обработки для конечных клиентов заказчика сократилось в десятки раз. От получения данных опроса до сдачи готового отчета уходит не более 1 дня. Основное время уходить на формирование файла задания и подготовку данных. Статистические расчеты и формирование отчета стандартизированного формата занимают не более 10-15 минут в автоматическом режиме (объем отчета не ограничен).