5.4.2. Программно-технический аспект информационно-аналитического обеспечения
Пусть мы имеем некоторые первичные данные о финансовой деятельности банка и его внешнего окружения. Известно, что эти данные, которые могут содержать различные искажения, должны быть преобразованы к виду финансовых аналитических показателей (АП) для дальнейшего использования при анализе деятельности банка и принятии управленческих финансовых решений.
При этом заранее неизвестен полный качественный и количественный состав:первичных данных о финансовой деятельности банка;
используемых способов преобразования и анализа данных.
Для приведенных условий необходимо создать модель системы аналитической обработки данных (САОД), которая:
выступает в качестве промежуточного звена между первичными финансовыми данными и средствами решения задач анализа и планирования;
выполняет по отношению к первичным данным преобразующую роль за счет устранения искажений и расчета аналитических показателей;
инвариантна по отношению к предметной области (финансовой деятельности), т.е. не накладывает качественных и количественных ограничений на характер источников, приемников и способов преобразования данных;
оперирует категориями, понятными финансовому аналитику, от которого не требуется специальных знаний о программной и технологической реализации данных и, тем более, написания какого-либо программного кода.
Аналитик, в свою очередь, при работе с системой должен оперировать моделями преобразования данных (МПД). Они служат для устранения искажений в первичных данных и для расчета значений аналитических показателей.
Каждая МПД образует систему аналитических показателей, к которой выдвигаются требования полноты и непротиворечивости. Зависимости (смысловые и математические) между АП считаются известными заранее и задаются поэтому в явном виде. Отмеченный нами выше краткосрочный характер семантических искажений первичных данных обуславливает необходимость удовлетворения требованию адаптивности имеющихся систем АП к различным условиям расчетов.
Это в первую очередь относится к возможности формирования любой модификации системы АП и задания разновидностей каждого вида аналитических показателей на различных временных интервалах.Информация для работы САОД поступает из различных банковских информационных систем в хранилище первичных финансовых данных - ODS.
Напомним, что в обычной интерпретации пор хранилищем данных [15, 63, 64] вне зависимости от способов его физической организации понимается любой логически интегрированный источник данных (для поддержки систем принятия решений). Данные в этом источнике обладают следующими основными признаками:
унифицированы - согласованы друг с другом по объемам, форматам, синтаксически и т.д.;
неизменны во времени;
организованы таким образом, что технически осуществимо выполнение в приемлемые сроки запросов пользователя с заранее неизвестной структурой*(40);
интегрированы - предварительно сгруппированы (агрегированы) по достаточно общим признакам.
Хранилище первичных данных ODS, рассматриваемое нами в качестве источника данных для САОД, должно отвечать первым трем признакам и не должно отвечать четвертому (интегрированность данных), согласно которому данные в хранилище должны быть агрегированы. Это ограничение обусловлено тем, что целью Системы аналитической обработки данных является реализация моделей преобразования данных, задающих в том числе и механизмы сведения первичной информации в некоторые агрегаты, структура которых часто априори неизвестна. Поэтому САОД должна оперировать именно детализированными данными.
На первом уровне системы из доступного множества первичных финансовых данных выгружаются необходимые выборки, и после классификации входящих в эти выборки единиц информации (например, счета, проводки, данные о клиентах) рассчитываются значения первичных аналитических показателей (ПАП).
На втором уровне производится расчет вторичных аналитических показателей (ВАП), источником для которых служат уже не первичные данные, а ранее рассчитанные значения иных показателей.
На третьем уровне производится выдача рассчитанных значений аналитических показателей во внешние программные системы.
Рассмотрим основные особенности аналитических показателей, поскольку именно они определяют логику работы всей системы.
Классификация аналитических показателей может быть проведена по различным признакам, например:
по виду исходных данных - первичные, вторичные;
по мерности - одномерные, многомерные;
по степени условности - условные, безусловные;
по адаптивности - простые, адаптивные.
Первичные аналитические показатели (ПАП).
Для расчета их значений используются только первичные финансовые данные, прошедшие процедуры классификации и последующей агрегации в ODS.Вторичные аналитические показатели (ВАП). При расчете их значений используются только первичные и частично иные аналитические показатели, прошедшие первичную классификацию, которая проводится с использованием соответствующего сценария первичной классификации.
Сценарии первичной классификации определяют:
правило для извлечения некоторого подмножества данных из хранилища первичных данных;
правила непротиворечивой и полной классификации извлеченных данных;
правила агрегации ранее классифицированных данных.
В общем случае каждому первичному аналитическому показателю соответствуют классифицирующее и агрегирующее правила, реализуемые технически в виде "запроса", адресованного хранилищу данных (пример 5.2).
Классификация является полной, если существующие правила классификации позволили классифицировать все извлеченные из хранилища данные; классификация непротиворечива, если ни одна из единиц информации (запись) не была классифицирована более одного раза (пример 5.2).
Пример 5.2
Запрос на извлечение данных из хранилища
Пусть имеем в хранилище данных таблицу лицевых счетов формата
-------T-------------------------T------------T-----------T-------------
¦ Дата ¦ Номер БС 2 порядка ¦ Имя л/с ¦ Валюта ¦Остаток, руб.¦
L------+-------------------------+------------+-----------+--------------
с заранее неизвестным составом записей*(41). Извлечем из нее все данные по корсчетам, для чего зададим для Сценария первичной классификации запрос (на языке SQL) на извлечение данных и помещение их в операционную таблицу с показателем ОТ:
INSERT INTO OT(D, NBS2, NLS, VAL, OST)//
SELECT D, NBS2, NLS, VAL, OST//
FROM LS//
WHERENBS2 IN (30109, 30111, 30112, 30113) AND
D = <01/04/2000>//Дата классификации
В операционной таблице предусмотрим пустой столбец KLS для хранения признаков классификации.
Пусть таблица ОТ после извлечения данных из хранилища примет вид:------T----------T---------T----------------------T-----------T---------
¦ KLS ¦ D ¦ NBS2 ¦ NLS ¦ VAL*(42) ¦ OST ¦
+-----+----------+---------+----------------------+-----------+---------+
¦ ¦01.04.2000¦ 30109 ¦АAA-банк ¦ RUR ¦ 100 000 ¦
+-----+----------+---------+----------------------+-----------+---------+
¦ ¦01.04.2000¦ 30109 ¦Губернский банк ¦ USD ¦ 200 000 ¦
+-----+----------+---------+----------------------+-----------+---------+
¦ ¦01.04.2000¦ 30111 ¦Бэнк оф Карибати ¦ RUR ¦ 40 000 ¦
+-----+----------+---------+----------------------+-----------+---------+
¦ ¦01.04.2000¦ 30113 ¦Гренландский банк ¦ BYR ¦ 70 000 ¦
L-----+----------+---------+----------------------+-----------+----------
Пусть в рассматриваемом Сценарии заданы два первичных аналитических показателя, которым соответствуют следующие правила классификации:
----------------------T-----------------T-------------------------------
¦ Первичный АП ¦Код классификации¦ Правило классификации ¦
+---------------------+-----------------+-------------------------------+
¦Корсчета резидентов ¦ RES ¦ NBS2 = 30109 ¦
+---------------------+-----------------+-------------------------------+
¦Корсчета нерезидентов¦ N_RES ¦NBS2 >= 30111 and NBS2 <= 30113¦
L---------------------+-----------------+--------------------------------
После классификации операционная таблица ОТ имеет вид:
--------T----------T---------T-----------------T-----------T------------
¦ KLS ¦ D ¦ NBS2 ¦ NLS ¦ VAL ¦ OST ¦
+-------+----------+---------+-----------------+-----------+------------+
¦ RES ¦01.04.2000¦ 30109 ¦ААА-банк ¦ RUR ¦ 100 000 ¦
+-------+----------+---------+-----------------+-----------+------------+
¦ N_RES ¦01.04.2000¦ 30109 ¦Губернский банк ¦ USD ¦ 200 000 ¦
+-------+----------+---------+-----------------+-----------+------------+
¦ N_RES ¦01.04.2000¦ 30111 ¦Бэнк оф Карибати ¦ RUR ¦ 40 000 ¦
+-------+----------+---------+-----------------+-----------+------------+
¦ N_RES ¦01.04.2000¦ 30113 ¦Гренландский банк¦ BYR ¦ 80 000 ¦
L-------+----------+---------+-----------------+-----------+-------------
Полнота классификации может быть легко выявлена из операционной таблицы ОТ: неполнота имеет место, когда хотя бы одна запись в ее столбце KLS содержит пустое значение. Непротиворечивость оценить несколько сложнее, так как необходимо в некоторой (дополнительной) таблице трассировки, содержащей уникальный идентификатор единицы информации и код классификации, записывать результат выполнения каждого классифицирующего запроса, а затем анализировать, не встречается там какая-либо запись более одного раза:
---------------------T--------------------------------------------------
¦ KLS ¦ NLS ¦
+--------------------+--------------------------------------------------+
¦ RES ¦ААА-банк ¦
+--------------------+--------------------------------------------------+
¦ N_RES ¦Губернский банк ¦
+--------------------+--------------------------------------------------+
¦ N_RES ¦Бэнк оф Карибати ¦
+--------------------+--------------------------------------------------+
¦ N_RES ¦Гренландский банк ¦
L--------------------+---------------------------------------------------
что реализуется с помощью следующего запроса:
SELECT NLS, COUNT(KLS)//
FROM TRASSIROVKA//
GROUP BY NLS
HAVING COUNT(KLS)> 1.//
Пусть заданы следующие правила агрегации значений ПАП:
----------------------------T-------------------------------------------
¦ Первичным АП ¦ Правило агрегации ¦
+---------------------------+-------------------------------------------+
¦ Корсчета резидентов ¦ Сумма всех записей с классом RES ¦
+---------------------------+-------------------------------------------+
¦ Корсчета нерезидентов ¦ Сумма всех записей с классом N_RES ¦
L---------------------------+--------------------------------------------
что в данном случае порождает весьма простые агрегирующие запросы вида:
SELECT SUM(OST)//
FROM ОТ
WHERE KLS = Замечание. Хотя при реальных расчетах агрегирующие правила могут иметь более сложную логику, принцип линейности расчета агрегатов (основное выражение (П2.1)) на уровне первичных АП сохраняется. В итоге получаем искомые значения агрегатов - первичных аналитических показателей - на интересующую нас дату: ----------------------------T------------------------------------------- ¦ Первичный АП ¦ Значение ¦ +---------------------------+-------------------------------------------+ ¦ Корсчета резидентов ¦ 100 000 ¦ +---------------------------+-------------------------------------------+ ¦ Корсчета нерезидентов ¦ 320 000 ¦ L---------------------------+-------------------------------------------- Следует отметить, что на правильном задании сценариев первичной классификации проблемы с формированием АП не заканчиваются. При задании правил классификации могут быть использованы существенные (уникальные) и (или) несущественные (неуникальные) признаки первичных финансовых данных. Номенклатуре как уникальных, так и неуникальных признаков свойственно изменяться (например, расширяться, т.е. добавляться) во времени, что порождает первую проблему-риск пропуска целевой информации (пример 5.3). Пример 5.3 Пропуск информации при классификации Пусть имеется Система классификации счетов 5-го раздела баланса: -----------------------------------T------------------------------------ ¦ Первичный АП ¦ Правило классификации ¦ +----------------------------------+------------------------------------+ ¦Вложения в долговые обязательства ¦ NBS1 >= 501 and NBS2 <= 519 ¦ +----------------------------------+------------------------------------+ ¦ Выпущенные банками ценные бумаги ¦ NBS1 >= 520 and NBS1 <= 523 ¦ L----------------------------------+------------------------------------- После введения Банком России в План счетов двух новых счетов 5 раздела N 524, 525 приведенная выше Система классификации стала неполной, и вся информация по новым счетам при формировании АП была бы пропущена. При использовании неуникальных признаков данных характерна ситуация, когда известна вся номенклатура значений каждого такого признака, но отсутствуют представления о номенклатуре его значений в будущем. Поэтому несложно указать такие правила классификации, которые непротиворечивы и полны при существующей номенклатуре, но в некоторый будущий момент времени с появлением нового значения признака система правил деактуализируется, и произойдет ложное срабатывание. В этом мы видим вторую проблему классификации. Ложное срабатывание (пример 5.4) чревато нарушением принципа непротиворечивости результатов классификации. Пример 5.4 Неоднозначность классификации новой информации Пусть имеем следующие правила классификации: --------T------------------T-------------------------------------------- ¦Правило¦Фрагмент запроса ¦ Комментарий ¦ ¦ ¦ правила ¦ ¦ +-------+------------------+--------------------------------------------+ ¦ П1 ¦N БC2 = 70109 and ¦Такое указание приводит к выделению из¦ ¦ ¦ Имя л/с like ¦множества л/с "прочих расходов" тех, которые¦ ¦ ¦ "%автотрансп%" ¦относятся к эксплуатации автотранспорта ¦ +-------+------------------+--------------------------------------------+ ¦ П2 ¦N БС2 = 70109 and ¦Такое указание приводит к выделению из¦ ¦ ¦ Имя л/с like ¦множества л/с "прочих расходов" тех, которые¦ ¦ ¦ "%аренда%" ¦относятся к аренде ¦ L-------+------------------+--------------------------------------------- и данная классификация в соответствии с заданными правилами непротиворечива: --------------T--------------------------------------------------------- ¦ Класс ¦ Имя л/с ¦ +-------------+---------------------------------------------------------+ ¦ П1 ¦ Эксплуатация автотранспорта ¦ +-------------+---------------------------------------------------------+ ¦ П1 ¦ Комиссионные при покупке автотранспорта ¦ +-------------+---------------------------------------------------------+ ¦ П2 ¦ Аренда помещений под офис ¦ L-------------+---------------------------------------------------------- Пусть также начиная с некоторого момента времени в хранилище поступает лицевой счет, имя которого удовлетворяет обоим классифицирующим правилам: ----------------------------------T------------------------------------- ¦ Номер БС 2 порядка ¦ Имя л/с ¦ +---------------------------------+-------------------------------------+ ¦ 70109 ¦ Аренда автотранспорта ¦ L---------------------------------+-------------------------------------- После классификации имеем факт отнесения первичной балансовой информации сразу к двум классам: -------------T---------------------------------------------------------- ¦ Класс ¦ Имя л/с ¦ +------------+----------------------------------------------------------+ ¦ П1 ¦ Эксплуатация автотранспорта ¦ +------------+----------------------------------------------------------+ ¦ П1 ¦ Комиссионные при покупке автотранспорта ¦ +------------+----------------------------------------------------------+ ¦ П1 ¦ Аренда автотранспорта ¦ +------------+----------------------------------------------------------+ ¦ П2 ¦ Аренда помещений под офис ¦ +------------+----------------------------------------------------------+ ¦ П2 ¦ Аренда автотранспорта ¦ L------------+----------------------------------------------------------- Как видно из рассмотренного примера, в силу невозможности представить всю номенклатуру уникальных и неуникальных признаков классифицируемых данных нельзя задать систему правил классификации, абсолютно безотказную во времени. Это порождает третью проблему - периодической проверки всей существующей Системы правил классификации. Решение указанной проблемы может на практике быть сопряжено с существенными временными затратами. Поэтому необходимо применить такие механизмы проверки Системы правил классификации, которые затрагивали бы только номенклатуру новых значений используемых признаков первичных данных, а для старой номенклатуры использовали бы результаты предшествующих классификаций. Важнейшим свойством аналитических показателей является их адаптивность. Под адаптивностью применительно к рассматриваемым аналитическим показателям понимается возможность задавать для одного и того же АП различные правила классификации, действующие в различные промежутки времени. Система правил классификации в зависимости от временных параметров расчета (пример 5.5) должна сама определять применимость того или иного варианта классифицирующего правила. Пример 5.5