<<
>>

11.2. «Интеллектуальная» криволинейная аппроксимация

Рассмотрим простейшую операцию, которая напоминает регрессию и, как выяснится позднее, иллюстрирует принципы одномерной СОК. При обычном регрессионном анализе аналитический вид функциональной зависимости считается заданным, и подбираются лишь значения входящих в нее параметров.
В связи с этим возникает известная проблема, обусловленная тем, что вид функциональной зависимости, которую следует использовать при анализе, не всегда легко определить. Расчетная кривая может очень хорошо аппроксимировать некоторую часть данных и в то же время значительно отклоняться от некоторых из них. Попытки использовать более «гибкие» кривые, задаваемые, например, полиномами, могут привести к переаппроксимации, не учитывающей тот факт, что случайные выбросы в данных не содержат никакой полезной информации (рис. 11.2Ь).

При использовании метода «интеллектуальной» аппроксимации вид функциональной зависимости не считается заданным a priori. Он автоматически определяется данными и некоторыми заранее заданными ограничениями. Однако в дальнейшем вместо аппроксимации данных наблюдений с помощью некоторой непре-

а — обычная среднеквадратическая регрессия, Ъ — ортогональная средне-квадратическая регрессия.

Рисунок 11.1.

а — обычная среднеквадратическая регрессия, Ъ — ортогональная средне-квадратическая регрессия.

а — аппроксимация случайных данных параболой; Ь — переаппроксимация тех же данных полиномом высокой степени

Рисунок 11.2.

а — аппроксимация случайных данных параболой; Ь — переаппроксимация тех же данных полиномом высокой степени

рывной кривой мы используем дискретное множество соединенных друг с другом точек, именуемых узлами. Эти узлы представляются множествами вещественных чисел. Как уже отмечалось выше, подобные упорядоченные множества чисел мы будем именовать векторами или модельными векторами.

Рассмотрим двумерное пространство наблюдений (т.е. отражающее только две величины: х, и х2). Пусть х = (х,, х,) — случайный вектор данных наблюдений, из которых мы составим некоторое множество совокупностей.

Введем также некоторое множество модельных векторов или узлов, которые будут представлены аналогично, в виде двумерных векторов:

ш, = (тп,тй), /=1,2, ...,N. (1)

Далее определим фиксированные коммуникационные связи между заданными парами узлов (рис. 11.3).

Задача состоит в том, чтобы аппроксимировать точки, изображающие данные, к узлам in регулярным образом, как если бы они были расположены на гибкой кривой.

(2)

|х|| = ЩТЦ777^

Применительно к данному методу слово «регрессия» означает, что для каждого наблюдения х определяется в первую очередь ближайший узел тс, называемый победителем. Говоря в целом, «расстояние» между двумя векторами вычисляется как норма их векторной разности, где норма или длина (здесь мы используем, главным образом, так называемую евклидову норму) л-мерного вектора х обозначается, как ||х|| и определяется соотношением:

«Гибкая кривая», состоящая из связанных друг с другом узлов.

Рисунок 11.3.

«Гибкая кривая», состоящая из связанных друг с другом узлов.

Пусть «ближайший узел» ш , который мы обозначим как тс, определяется условием:

(3)

|х — mj| = min{j|x - mj|}

Далее необходимо скорректировать положение т.

а также ее соседей по цепи в направлении х в соответствие с величиной х — m. Эта процедура повторяется за-ново для всех наблюдений переменной х.

Уверен, что некоторые читатели захотят попробовать выполнить подобную аппроксимацию самостоятельно. Поэтому считаю необходимым дать им кое-какие советы прямо сейчас. Начальные значения in = (m,, m 2) модельных векторов могут быть выбраны случайным образом, и, поскольку эти величины изменяются при последовательных итерациях, необходимо идентифицировать как данные наблюдений, так и модельные вектора с помощью индекса t = 1, 2... Если рассматривать данные как временной ряд, то t будет представлять собой дискретно-временной индекс наблюдения. Процедуру аппроксимации (рис. 11.4) можно описать математически как следующую последовательность шагов. Начнем последовательно перебирать значения х(7) и найдем поправки для ш , расстояние которых от тс не превосходит некоторой определенной величины, из следующего уравнения:

m,(M-l) = m,(?) + a(?)[x(?) - m, (?)],

(4)

in(?+l) = m((/).

Если «победителем» окажется, например, узел ш5 и расстояние, на которое передается влияние соседних узлов, будет равно 1, мы должны будем внести поправки в положения узлов Ш4,Ш.ИЮ(.

Величина a(t) должна всегда удовлетворять условию 0 а для остальных узлов — из уравнения:

Отдельный шаг подгонки, описанный в тексте.

Рисунок 11.4.

Отдельный шаг подгонки, описанный в тексте.

(Здесь р(х) обозначает плотность распределения х.)

В результате процесс будет протекать более гладко. Выбор закона, по которому а (?) уменьшается до нуля, не является очень принципиальным.

Можно, например, определить, что а (?) приближается к нулю по линейному закону за Г шагов, где значение Тпревосходит количество узлов по меньшей мере в 100, а еще лучше — в большее число раз.

С другой стороны, расстояние вдоль цепи, на которое передается влияние узла- победителя, вызывающее изменения в положении его соседей, изначально должно быть большим. Интуитивно понятно, что расстояние это должно равняться половине протяженности цепи. (Иными словами, если победителем оказывается узел, расположенный в середине цепи, то он будет влиять на всю цепь, но если подобный узел находится вблизи одного из концов цепи, влияние его будет ощущаться только на половине ее протяженности.) По мере того как а.(1) приближается к нулю, данное расстояние также должно линейно уменьшаться дискретными шагами, но его конечное значение должно быть равным единице, т.е. положение ближайших к победителю узлов всегда должно корректироваться.

Некоторые из исследователей, опробовавших данный алгоритм, отмечают неустойчивость процесса в самом начале. В связи с этим возникает вопрос: стоит ли беспокоится, если процесс сам собой стабилизируется со временем и даст прекрасный конечный результат? По-моему, исследователь должен быть вполне удовлетворен подобным положением.

Интуиция подсказывает, что последовательность подобных операций рано или поздно приведет к образованию цепи, имеющей гладкую форму. Однако обосновать этот феномен математически чрезвычайно сложно (рис. 11.5).

То, что мы пытаемся осуществить, является на самом деле кусочной регрессией, и аппроксимирующий данные участок цепи определяется в ходе разрешающего

Образование подобной зигзагообразной конфигурации в процессе сглаживания весьма маловероятно.

Рисунок 11,5.

Образование подобной зигзагообразной конфигурации в процессе сглаживания весьма маловероятно.

процесса, посредством которого мы всегда в первую очередь определяем модельный вектор с наименьшим отклонением от данных.

Пример «интеллектуальной аппроксимации» приводится на рис. 11.6.

Вместо фиксированных связей можно определить силу взаимного влияния htj для любой пары узлов в сети как функцию индексов, соответствующих этим узлам:

hl}=h(i,j). (5)

Данная функция именуется также функцией соседства. Во время подбора параметров аппроксимации узел-победитель может, таким образом, оказывать влияние на соседние узлы более плавно. В качестве функции соседства для осуществления «интеллектуальной аппроксимации» мы могли бы выбрать, например, гауссову функцию:

Аппроксимация данных (мелкие точки) цепью, содержащей 50узлов, иллю-стрирующая автоматическое определение формы регрессионной зависимостиh:j = ехр[—(і — j)2 / 2а2),	(6)о = a(t) — некоторая должным образом выбранная монотонно убывающая функция времени (например, стремящаяся к нулю линейная функция).

Рисунок 11.6.

Аппроксимация данных (мелкие точки) цепью, содержащей 50узлов, иллю-стрирующая автоматическое определение формы регрессионной зависимости

h:j = ехр[—(і — j)2 / 2а2), (6)

о = a(t) — некоторая должным образом выбранная монотонно убывающая функция времени (например, стремящаяся к нулю линейная функция).

Подгонка положений узлов ш , окружающих узел шс, будет, таким образом, осуществляться в соответствии с величиной ha. Однако, будучи функцией индексов, htj не является функцией векторного расстояния между х и m или между самими т . В этом случае положение всех модельных точек изменяется на каждом этапе, что требует большего объема вычислений, чем в случае простых коммуникационных связей, причем наиболее значительной коррекции будут подвергаться положения точек из окрестности ближайшего модельного вектора.

<< | >>
Источник: Дебок Г., Кохонен Т.. Анализ финансовых данных с помощью самоорганизующихся карт / Пер. с англ.-М.: Издательский Дом «АЛЬПИНА»,2001. — 317 с.. 2001

Еще по теме 11.2. «Интеллектуальная» криволинейная аппроксимация:

  1. Интеллектуальная собственность: проблемы реализации в условиях глобальной экономики (на примере деятельности «Microsoft» в Китае)
  2. 3. Зашита интеллектуальной собственности.
  3. 4.7. Интеллектуальный капитал и интеллектуальная собственность
  4. объекты интеллектуальной собственности
  5. Права интеллектуальной собственности.
  6. Кража интеллектуальной собственности
  7. Понятие и объекты интеллектуальной собственности
  8. Гражданско-правовая защита интеллектуальной собственности
  9. ГЛОССАРИЙ
  10. § 4.2. Интеллектуальный потенциал
  11. Интеллектуальный анализ данных
  12. 11. ИНТЕЛЛЕКТУАЛЬНЫЙ КАПИТАЛ БАНКА
  13. ИНТЕЛЛЕКТУАЛЬНЫЙ КАПИТАЛ БАНКА
  14. Методы измерения интеллектуального капитала
  15. 11.2. «Интеллектуальная» криволинейная аппроксимация
  16. Глоссарий