Назначение, задачи и особенности применения технологии оперативного анализа данных в АС АДППР “Аналитика 2000”

 

 

 

 

 

Реферат

 

 

по дисциплине

“Информационные таможенные технологии”

 

 

 

тема

“Назначение, задачи и особенности применения технологии оперативного анализа данных в АС АДППР “Аналитика 2000””

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Содержание

 

 

Введение

Основные  цели создания ПК «Аналитика» заключаются  в:

  • сокращении времени и трудозатрат, необходимых для получения оперативной агрегированной информации;
  • повышении производительности труда сотрудников УТСиА
  • улучшении качества аналитических данных, выдаваемых, по запросам вышестоящих организаций;
  • предоставлении возможности руководителям высшего и 
    среднего звена, а также аналитикам ориентироваться в огромных 
    объемах данных и выбирать информацию, необходимую для принятия решений;
  • обеспечении возможности графического представления 
    данных, а также получения отчетов сводной информации.

Таможенный  процесс, реализуемый с помощью  ПК “Аналитика”, относится к аналитической части деятельности центрального аппарата ГТК России в области использования информации таможенной статистики внешней торговли России на федеральном уровне.

Исходной информацией  для решения аналитических задач являются данные из центральной базы данных электронных копий грузовых таможенных деклараций (ЦБД ГТД), размещенной в ГНИВЦ ГТК России. Непосредственно анализируемой конечным пользователем (аналитиком) с помощью ПК «Аналитика» информацией является база агрегированных данных (БАД) грузовых таможенных деклараций, полученная путем загрузки из ЦБД ГТД.

Результатом работы конечного пользователя (аналитика) являются различные (произвольные в рамках определенных размерностей) табличные формы и их графические представления.

ПК «Аналитика»  связан с другими комплексами, входящими в технологическую схему сбора и обработки информации ЕАИС ГТК России, единством используемых данных ЦБД ГТД и связанных с ней данных нормативно-справочной информации. ЦБД ГТД, сформированная программным комплексом загрузки и ведения ЦБД ГТД ЕАИС ГТК России, является источником данных для программного комплекса «Аналитика».

Программный комплекс «Аналитика» позволяет формировать и исполнять нерегламентированные («гибкие») запросы к базе агрегированных данных ГТД в среде СУБД Oracle и Oracle Express и относится к классу систем динамического анализа данных .

 

структура комплекса

Программный комплекс «Аналитика» имеет структуру, приведенную на рис.1.

Служебные подсистемы программного комплекса «Аналитика» обеспечивают работу функциональной подсистемы. К служебным относятся:

  • подсистема администрирования — обеспечивает выполнение 
    операций по разграничению доступа к ЦБД ГТД и базам агрегированных данных, по настройке сессии для осуществления взаимодействия с ЦБД ГТД, по определению параметров физического размещения файлов агрегированных данных;
  • подсистема загрузки — обеспечивает выполнение операций 
    по загрузке данных, подлежащих анализу из ЦБД ГТД (Хранили 
    ща Данных1), в базы агрегированных данных (Витрины Данных2). 

Подсистема  загрузки состоит из:

— задачи загрузки технологической БД — обеспечивает формирование промежуточной, технологической БД, используемой как источник данных для последующей загрузки агрегированных баз данных;

— задач загрузки баз агрегированных данных (БАД)- обеспечивает загрузку целевой базы данных Витрин Данных - в реляционном (задача загрузки реляционных БАД) и многомерном представлении (задача загрузки многомерных БАД);

— Функциональная подсистема программного комплекса «Аналитика» обеспечивает конечных пользователей — аналитиков (сотрудников УТСиА) возможностями анализа данных в рамках, определенных техническим заданием задач:

  • Задача 1 — «Общие итоги по всем товарам»;
  • Задача 2— «Распределение экспорта-импорта РФ по странам и товарам»;
  • Задача 3 — «Категории участников»;

Задача 4 — «Подакцизные товары».

 

Рис. 1 Структура программного комплекса  “Аналитика”3

Подсистема администрирования

 

Подсистема  обеспечивает выполнение стандартными средствами функций администрирования СУБД Oracle и Oracle Express в целях обеспечения функционирования программного комплекса «Аналитика».

Администрирование сервера Oracle включает выполнение следующих основных операций:

  • создание базы Oracle и выделение необходимого табличного пространства для технологической базы и реляционной базы агрегированных данных;
  • создание пользователя - «хозяина (OWNER)» таблиц технологической базы и реляционной базы агрегированных данных;
  • обеспечение доступа «хозяину» технологической базы к базе 
    ЦБД ГТД на сервере Oracle для осуществления DATABASE LINK 
    (связи) между технологической базой и ЦБД ГТД;
  • обеспечение доступа «хозяину» технологической базы к базе 
    НСИ на сервере Oracle для осуществления DATABASE LINK (связи) между технологической базой и базой НСИ.

Администрирование сервера Oracle Express включает выполнение следующих основных операций:

- определение и установку прав доступа пользователей на определенные базы Oracle Express либо через права доступа на файлы (Windows NT), либо через указание пользователей определенных баз данных (Oracle Express Administrator);

  • определение оптимального размера файла многомерной 
    базы агрегированных данных, задание имени базы данных, определение ее размещения;
  • обеспечение связи Oracle Express с Oracle для выполнения 
    загрузки многомерной базы агрегированных данных и для обеспечения взаимодействия многомерной и реляционных баз агрегированных данных в ходе решения аналитических задач.

Подсистема загрузки

 

Подсистема  загрузки обеспечивает выполнение операций по загрузке данных, подлежащих анализу, из ЦБД ГТД (Хранилища Данных) в технологическую базу данных и далее в реляционную и многомерную базы агрегированных данных (БАД) (Витрины Данных), рис. 2.

Задача загрузки технологической  базы данных

 

Загрузка  данных из ЦБД ГТД (Хранилища Данных) в целевые БД Витрин Данных осуществляется через промежуточную, технологическую реляционную БД (стрелка 1, рис.2). Выбор такого решения обусловлен следующим:

  • существующая сегодня реализация ЦБД ГТД допускает наличие ГТД, имеющих несуществующие или неопределенные ссылки на кодификаторы НСИ. Очевидно, что для задач анализа данных, где кодификатор выступает в роли одного из измерений многомерного куба, такое не допустимо. При загрузке в промежуточную базу данных эта проблема решается путем установки принудительной ссылки на специальное дополнительное значение классификатора. Например, в исходной ЦБД ГТД имеется запись ГТД, содержащая код страны отправления отсутствующих в кодификаторе стран мира и территорий, в этом случае в классификатор вводится дополнительное значение кода «неизвестная страна», а в данной записи ГТД делается ссылка на это значение. При загрузке данных из ЦБД в технологическую БД также производится дополнительная проверка;
  • формирование целевых баз данных Витрин Данных с выполнением функций агрегации информации ЦБД ГТД является весьма продолжительным (около 68 часов за два года) и ресурсоемким процессом. Поэтому с целью снижения нагрузки на ЦБД ГТД целесообразнее производить агрегацию данных и загрузку БД Витрин Данных из промежуточной технологической БД, более того, такую БД можно использовать в монопольном режиме опять же для ускорения выполнения операций агрегации данных, что практически невозможно при работе с ЦБД ГТД.


 

- процедура  формирования целевых баз данных  Витрин Данных работает тем эффективнее, чем меньше число полей в исходной БД. Исходная (технологическая) БД содержит около 20 полей (сущности ДЕКЛАРАЦИЯ и ТОВАР), в то время как ЦБД ГТД содержит в сумме более 520 полей;

— для увеличения производительности процедуры формирование целевых баз данных Витрин Данных при использование отдельной схемы исходной (технологической) БД можно создать столько индексов, сколько для этого нужно;

— для загрузки технологической БД право на доступ к ЦБД ГТД необходимо лишь на ограниченное время (4 часа) при помощи создания временного DATABASE LINK. С точки зрения информационной безопасности - чем меньше время доступа к информации, тем лучше.

Задачи загрузки базы агрегированных данных

 

Целевая база данных (Витрины Данных) программного комплекса «Аналитика», на которой непосредственно решаются задачи анализа данных, представлена реляционной и многомерной базами агрегированных данных.

При загрузке данных из технологической базы в  таблицы базы агрегированных данных (стрелка 2, рис.2) производится помесячное суммирование (агрегация) информации о статистической стоимости и количестве товара, обеспечивающая требуемые уровни агрегации информации для решения функциональных задач комплекса.

Гибридное решение, реализованное в программном  комплексе «Аналитика», при котором одна, наиболее часто используемая, часть агрегированных данных хранится в многомерной базе данных л среде МСУБД Oracle Express, а другая часть данных хранится в реляционной базе данных в среде РСУБД Oracle, откуда и выбирается в случае необходимости — обеспечивает быстрый доступ к агрегированным данным при оптимизации дисковой памяти.

Многомерная база агрегированных данных представляет собой набор объектов и данных, специальным образом организованных для просмотра информации в различных перспективах или срезах. Наиболее важными объектами многомерной базы данных .являются переменные, размерности, отношения (зависимости). При загрузке информации в объекты многомерной базы агрегированных данных из технологической базы (стрелка 3, рис.2) берется нормативно-справочная информация (кодификаторы), а из реляционной базы агрегированных данных - агрегированные данные о стоимости и количестве товара в соответствии с выбранным уровнем гибридного размещения агрегированных данных.

Функциональная подсистема

 

Функциональная подсистема программного комплекса «Аналитика» используется его конечным пользователем (аналитиком) дня непосредственного решения функциональных задач анализа данных, находящихся в целевых реляционной и многомерной базах агрегированных данных (Витринах Данных) ПК «Аналитика».

Решение конечным пользователем задач, входящих в  функциональную подсистему программного комплекса «Аналитика», заключается в анализе агрегированных данных посредством последовательности интерактивных динамических отчетов (таблиц и диаграмм), называемых брифингами.

Каждая из перечисленных ниже задач характеризуется  параметрами соответствующего операционного пространства - элементами данных, на множестве которых выполняется решение задачи анализа информации. Операционное пространство включает в себя:

  • Размерности (или Измерения) - атрибуты данных в модели, 
    комбинация значений которых однозначно определяет экземпляр набора значений данных (показателей) в базе агрегированных данных;
  • Показатели - значения агрегированных данных, подлежащие анализу. Для каждой допустимой комбинации значений размерностей в базе агрегированных данных может храниться только одно значение показателя.

Задача №1: «Общие итоги по всем товарам»

Характеристики  операционного пространства:

Размерности:

  • временной интервал выпуска ГТД - год, квартал, месяц;
  • товарная номенклатура ВЭД нотации года;
  • товарная номенклатура ВЭД нотации года;
  • страна-получатель товара (при направлении перемещения ЭКСПОРТ);
  • страна-отправитель товара (при направлении перемещения ИМПОРТ);
  • направление перемещения товара (экспорт-импорт);
  • таможенное управление, на территории которого производилось таможенное оформление.

Анализируемые показатели:

  • статистическая стоимость товара;
  • количество товара по основной единице измерения;
  • количество товара по дополнительной единице измерения. 
    Перечень размерностей, имеющих возможности по агрегации-дезагрегации:
  • таможенное управление (по всем управлениям, выборочно 
    по множеству управлений);
  • страны (по экономическим и географическим ареалам, по всем странам, выборочно по множеству стран);
  • коды ТНВЭД (с возможностью группировки по 2,4,6 и 9-ти знакам кода ТНВЭД, по множеству кодов).

Формы представления  анализируемых показателей:

  • нарастающий итог внешней торговли поквартально;
  • нарастающий итог внешней торговли помесячно;
  • абсолютные показатели помесячно;
  • абсолютный прирост внешней торговли к предыдущем 
    кварталу;
  • абсолютный прирост объемов внешней торговли к предыдущему месяцу;
  • относительный прирост объемов внешней торговли к предыдущему кварталу;
  • относительный прирост объемов внешней торговли к предыдущему месяцу;

-сальдо внешней торговли  поквартально.

 

Задача  №2: «Распределение экспорта-импорта  РФ по странам и товарам»

Характеристики  операционного пространства:

Размерности:

  • временной интервал выпуска ГТД — год, квартал, месяц;
  • товарная номенклатура ВЭД нотации года;
  • страна-получатель товара (при направлении перемещения ЭКСПОРТ);
  • страна-отправитель товара (при направлении перемещения ИМПОРТ);
  • направление перемещения товара (экспорт-импорт);
  • код основного таможенного режима;
  • код процедуры перемещения товаров.

 

Анализируемые показатели:

  • статистическая стоимость товара;
  • количество товара по основной единице измерения;
  • количество товара по дополнительной единице измерения.

 

Перечень  размерностей, имеющих возможности по агрегации-дезагрегации:

  • страны (по экономическим и географическим ареалам, по всем странам, выборочно по множеству стран);
  • коды ТНВЭД (с возможностью группировки по 2,4,6 и 9-ти 
    знакам кода ТНВЭД, по множеству кодов);
  • код основного таможенного режима (по всем режимам, по множеству режимов);
  • код процедуры перемещения товаров (по всем процедурам, 
    по множеству процедур).

Формы представления анализируемых показателей:

  • -нарастающий итог внешней торговли поквартально
  • абсолютные показатели по месяцам;
  • абсолютный прирост внешней торговли к предыдущему 
    кварталу;
  • абсолютный прирост объемов внешней торговли к предыдущему месяцу;
  • объемы внешней торговли нарастающим итогом помесячно;
  • относительный прирост к предыдущему кварталу объемов внешней торговли;
  • относительный прирост к предыдущему месяцу объемов внешней торговли.

 

Задачи  №3: «Категории у частников»

и №4: «Подакцизные товары»

Характеристики  операционного пространства:

Размерности:

  • временной интервал выпуска ГТД — год, квартал, месяц;
  • товарная номенклатура ВЭД нотации года;
  • вид товара (акцизный, неакцизный, любой);
  • страна-получатель товара (при направлении перемещения ЭКСПОРТ);
  • страна-отправитель товара (при направлении перемещения ИМПОРТ);
  • направление перемещения товара (экспорт-импорт);
  • категория получателя (при направлении перемещения ИМПОРТ);
  • категория отправителя (при направлении перемещения ЭКСПОРТ);
  • категория контракт содержателя;
  • категория декларанта.

 

Анализируемые показатели:

  • статистическая стоимость товара;
  • количество товара по основной единице измерения;
  • количество товара по дополнительной единице измерения.

Перечень  размерностей, имеющих возможности  по агрегации-дезагрегации:

  • страны (по экономическим и географическим ареалам, по 
    всем странам, выборочно по множеству стран);
  • коды ТНВЭД (с возможностью группировки по 2,4,6 и 9-ти, 
    знакам кода ТНВЭД, по множеству кодов);
  • категория контракт содержателя (по всем категориям, по множеству категорий);
  • категория отправителя/получателя (по всем категориям, по множеству категорий);
  • -категория декларанта (по всем категориям, по множеству 
    категорий).

 

Формы представления анализируемых показателей:

  • - нарастающий итог внешней торговли поквартально ;
  •  нарастающий итог внешней торговли помесячно
  • абсолютные показатели по месяцам;
  • абсолютный прирост внешней торговли к предыдущему кварталу
  • абсолютный прирост объемов внешней торговли к предыдущему месяцу
  • относительный прирост к предыдущему кварталу объемов внешней торговли;
  • относительный прирост к предыдущему месяцу объемов внешней торговли.

Структура и принципы организации информации

 

Информационные  массивы программного комплекса  «Аналитика» подразделяются на три основные группы (рис. 3):

— Хранилище  Данных — массив, содержащий исходные, детальные данные электронных копий ГТД, представленный центральной базой данных (ЦБД) ГТД и соответствующими таблицами нормативно-справочной информации (НСИ) ЕАИС ГТК России;

- Промежуточная технологическая база данных — массив, содержащий подмножество определенных атрибутов данных из ЦБД 
ПД, специально обработанных программными компонентами 
комплекса «Аналитика» для обеспечения многомерного динамического анализа данных;

  • — Витрины Данных - массив, содержащий агрегированные 
    данные в привязке к определенному подмножеству полей ГТД, 
    непосредственно на котором решаются функциональные задачи 
    комплекса «Аналитика». Целевые базы данных Витрины Данных 
    подразделяются на:
  • реляционные базы агрегированных данных (РБАД);
  • многомерные базы агрегированных данных (МБАД). 
    При разработке структуры информационного обеспечения программного комплекса «Аналитика» были соблюдены следующие основные принципы:

Рис. 3 Информационные массивы  программного комплекса “Аналитика”

 

- принцип минимизации снижения производительности ЦБД 
ГТД при решении аналитических задач. Реализация данного принципа в программном комплексе «Аналитика» достигается за счет физического разделения наборов данных ЦБД ГТД (целевой базы данных Хранилища Данных) и наборов данных, непосредственно используемых для решения аналитических задач (целевые базы 
данных Витрин Данных);

— принцип минимизации риска несанкционированного доступа к ЦБД ГТД при решении аналитических задач. Реализация данного принципа в программном комплексе «Аналитика» достигается за счет упомянутого выше физического разделения Хранилища и Витрин Данных, а также за счет введения промежуточной технологической базы данных программного комплекса «Аналитика», имеющей связь с ЦБД ГТД только на время собственной регламентной загрузки, а не на все время решения аналитических задач;

- принцип оптимального  представления информации. Реализация данного принципа в программном комплексе «Аналитика» достигается за счет использования различных моделей представления данных. Реляционная СУБД (Oracle) и нормализованная модель данных используется для реализации ЦБД ГТД — целевой БД Хранилища Данных. Реляционная СУБД (Oracle) и ненормализованная модель данных типа «звезда» используются для реализации технологической базы данных и целевых БД Витрин Данных. Многомерная СУБД (Oracle Express) и многомерная модель данных используются для реализации целевых БД Витрин Данных. В целях оптимизации времени реакции системы при решении аналитических задач и дискового пространства, необходимого для хранения агрегированных данных, используется гибридное решение, при котором часть агрегированных данных хранится в реляционном, а часть наиболее часто используемых данных в многомерном представлении;

  • принцип единой системы кодификации информации. Реализация данного принципа в программном комплексе «Аналитика» достигается за счет использования нормативно-справочной 
    информации ЕАИС ГТК России;
  • принцип многомерного взгляда на анализируемые данные. 
    Реализация данного принципа в программном комплексе «Аналитика» достигается механизмами многомерного представления данных на концептуальном уровне вне зависимости от их физического представления, а также инструментальными, объектно ориентированными средствами для манипулирования аналитическими данными.
  •  

Технология решения задач анализа  данных

 

Программный комплекс «Аналитика»поддерживает  многомерный взгляд конечного пользователя на анализируемые данные, являющийся стандартом де-факто для OLAP-систем. Для конечного пользователя анализируемые агрегированные данные представляются в виде интерактивных динамических отчетов (таблиц и диаграмм), объединяемых в последовательности (множества), которые называются брифингами.

Пример табличного представления многомерной модели анализируемых, агрегированных данных в программном комплексе «Аналитика» приведен на рис.4.

Рис 4. Многомерная модель ПК “Аналитика”

Приведенная на рис.4 табличная форма реализует  представление следующей многомерной модели анализируемых данных (операционного пространства):

Размерности:

  •  «направление перемещения товара» — зафиксированное значение: импорт»;
  • - «таможенное управление» - зафиксированное значение: «северо-западное   управление»;
  • «страна импортер» - зафиксированное значение: «все регионы», что означает — всего по всем странам мира;
  • «товар» — зафиксированные значения: «живые животные» и «мясо и пищевые субпродукты»;
  • «время» — зафиксированные значения:

 

Анализируемые показатели (переменные):

— таможенная стоимость.

 

Форма представления анализируемых показателей:

— сальдо внешней торговли помесячно. 
Реализованные в программном комплексе «Аналитика» табличные формы являются интерактивными и динамическими.

Под интерактивностью таблиц понимается возможность пользователя самостоятельно:

  • менять местами расположение размерностей в таблице, тем 
    самим изменяя анализируемые срезы агрегированных данных. В 
    приведенной на рис.4 форме можно, например, поменять местами размерности «время» и «товар»; зафиксировать конкретное значение размерности «товар» и поменять местами размерности «товар» и «таможенное управление», определив множество интересующих значений размерности «таможенное управление»;
  • производить агрегацию, дезагрегацию значений размерностей, если таковая предусмотрена. В приведенной на рис. 4 форме можно, например, выбрав конкретное значение товарной группы для размерности «товар», произвести его дезагрегацию до 4, 6 и 9 знаков кода товара по ТНВЭД.

Под динамичностью  таблиц понимается автоматический пересчет значений анализируемых показателей при изменении формы таблицы и/или при изменении значений в базе агрегированных данных.

Для наглядности  представления анализируемых данных в программном комплексе «Аналитика» реализован механизм построения связанных с таблицами (или несвязанных) диаграмм следующего вида:

  • гистограммы (линейчатые) (Ваг Graphs);
  • графики (Lines Graphs);
  • с областями (Area Graphs);
  • объемные (3D Graphs);
  • круговые (Pie Graphs);
  • точечные (Scatter Graphs);

- круговые столбчатые (Pie-Bar Graphs).

Связанные с  таблицами диаграммы изменяются автоматически при изменении данных в соответствующих таблицах. Несвязанные диаграммы, будучи однажды построенными на базе какой-либо таблицы, дальнейшем остаются неизменными.

После проведения регламентной загрузки данных в базы агрегированных данных программного комплекса «Аналитика» можно приступать к решению задач анализа агрегированных данных, которое реализовано в комплексе «Аналитика» средствами программного инструментария Oracle Express Analyzer. Технология решения аналитических задач состоит в проектировании и манипулировании брифингами. Каждый брифинг представляет собой множество страниц, на которых размещаются табличные или же графические представления анализируемых данных (показателей) в зависимости от установленных размерностей.

Обобщенный  технологический процесс решения  задачи анализа данных состоит из следующих основных операций:

  • регистрация пользователя — осуществляется вводом идентификатора пользователя и его пароля;
  • создание нового брифинга — заключается в определении 
    множества страниц брифинга, на которых размещаются таблицы 
    и графики;
  • создание страницы брифинга — заключается в создании конкретной табличной или графической формы представления данных;
  • - создание табличной или графической формы представления данных — заключается в:
  • определении (выбора из ранее определенного множества) 
    анализируемого факта (показателя),
  • манипулировании размерностями (определение их значений, агрегация/дезагрегация), от которых зависит анализируемый показатель;
  • придании табличной и графической формам требуемого 
    вида — выборе шрифтов, размещения названий (кодов) 
    значений размерностей и показателей и видов диаграмм;
  • распечатка страниц брифинга (таблиц и диаграмм);
  • сохранение созданного (отредактированного) брифинга;
  • открытие ранее созданного брифинга.
Назначение, задачи и особенности применения технологии оперативного анализа данных в АС АДППР “Аналитика 2000”