Адаптивный регулятор на нейросемантической сети icon

Адаптивный регулятор на нейросемантической сети



НазваниеАдаптивный регулятор на нейросемантической сети
Дата конвертации10.08.2012
Размер295.67 Kb.
ТипДокументы


АДАПТИВНЫЙ РЕГУЛЯТОР

НА НЕЙРОСЕМАНТИЧЕСКОЙ СЕТИ


Бодякин В.И., Владимирова С.С., Чистяков А.А.

Институт проблем управления им. В.А.Трапезникова РАН

E-mail body@ipu.rssi.ru


Аннотация

Рассматривается эволюционный подход построения интеллектуальных систем на базе нейросемантической сети. В качестве примера анализируется постепенно усложняющийся регулятор для управления априорно неизвестным объектом. Рассматриваются теоретические и практические результаты каждого этапа конструктивного (эволюционного) развития регулятора. В результате анализа функционирования регулятора вводятся и теоретически обосновываются фундаментальные понятия теории информации и саморазвивающихся (адаптивных) систем. Работа входит разделом в монографию "Общая теория информационных систем".


Введение. Для управления все усложняющимися социальными и производственными процессами необходимы крупномасштабные интеллектуальные самонастраивающиеся системы управления, основным элементом которых могут стать нейросетевые регуляторы. Для настройки нейросетевых регуляторов необходимо только задать классы состояний или режимов, определяемые например как: "нормальные" и "ненормальные" и, независимо от характера возмущений, такая система управления, посредством внешних воздействий должна найти алгоритм по поддержанию на управляемом объекте процессов в нормальных режимах [1].

Фактически, при минимуме информации ("нормальное/ненормальное") и при возможности исследования вариантов управляющих воздействий (этап обучения), регулятор должен быть способен вывести управляемый объект в область нормальных режимов его функционирования при любых начальных допустимых условиях и при случайных возмущениях внешней среды. В общем случае, нейросетевой подход, это "размен" сложной алгоритмической процедуры некоторой задачи на распределенную структуру простых преобразований, решающих эту же задачу. При наличии на сегодня высокопроизводительного и дешевого hardware и дорогостоящего и инерционного труда программистов (software), нейросетевой подход открывает перспективы по широкомасштабной автоматизации широкого класса процессов, охватывающего практически все аспекты нашего жизнеустройства.

В работе рассматривается особый класс классических нейросетевых систем – нейросемантические структуры (НСС). В отличие от традиционных нейронных сетей, в НСС каждому нейроподобному элементу соответствует некоторая семантическая единица исходного текстового потока1, что позволяет разработчику анализировать логику функционирования системы. Второй существенной характеристикой НСС является ее ассоциативность. Более подробно о НСС можно посмотреть в [3,4,5].


Построение теории нейросетевых адаптивных регуляторов весьма актуально как для технической сферы, так и для моделирования и понимания их работы в живых системах при поддержании ими гомеостаза в непрерывно изменяющихся средах.


^ Постановка задачи. Предположим, что состояние объекта зависит от вектора X (X = X1 , X2 , …, Xm ), где m  число управляемых параметров-компонент объекта, его моделируемая размерность. Состояния объекта дискретны по каждой компоненте и равны N (N – максимальное значение числа состояний по какой либо из компонент). Соответственно, для объекта их общее число не превышает - Nm , что является пространством состояний объекта  S. S можно представить как m мерный куб с ребром N.

Допустим, что в каждый такт объект переходит из одного состояния (n) в следующее (n+1) по некоторой функции перехода f, которая априорно неизвестна для адаптивного регулятора.


Xn+1 = f (Xn ) (1а)


Задавая случайным образом, некоторое начальное X0 (X0 S, n=0), в соответствии с (1а), будет происходить дальнейшая эволюция внутренних состояний объекта, отображаемая его траекторий состояний.

Задача адаптивного регулятора заключается в подаче вектора управляющих воздействиях F (F = F1, F2, …, Fm) на тех же параметрах-компонентах что и вектор X


Xn+1 = f (Xn ) + Fn , (1)


таким образом, чтобы результирующее состояние объекта (Xn+1) как можно большее число тактов (n=0,1,2,3,…, , где: >> Nm ) находилось в области "нормального" режима (Xn+1 S). Число n - тактов (X1 =X0, X2 , X3 ,, Xn) при которых объект не выходит из области "нормального" режима S определяет длину траектории управления.

Примем, что если длина траектории объекта управления превышает (N*N)m тактов, то считать такую траекторию положительной (нормальной), и что регулятор научился управлять объектом при начальном (X1 =X0). Если же объект управления вышел из области S (попал в область Q  область "ненормальных" режимов) при n < (N*N)m, то такую траекторию считать отрицательной и последний такт будем обозначать символом "".

Число отрицательных траекторий (область ^ Q) определяется в соответствии с уравнением (1), как результирующее Xn+1, выходящего за пределы "нормального" режима (Xn+1 S). В соответствии с конкретным уравнением (1) можно определить мощность множества отрицательных состояний управляемого объекта - MQ.

Общее число состояний объекта, отраженных в его траекториях обозначим ^ W, мощность его определяется как объединение мощностей "нормальных" и "ненормальных" режимов (W = Q  S, Q  S =0).

Если для всех X0 (X0 S), число которых не меньше Nm, последние траектории являются положительными, то будем считать что нейросемантический регулятор обучился управлять данным объектом.

Обучение регулятора можно построить как только на опыте отрицательных траекторий ("метод наказания"), так и только на опыте положительных траекторий ("метод поощрения"). При этом процесс обучения в этих двух случаях будет существенно отличаться. Одновременное использование "метода наказания" и "метода поощрения" дает качественно третий результат процесса обучения. В дальнейшем эти три случая будут рассмотрены на конкретном примере.

Напомним, что регулятор должен обучиться управлению состоянием любого объекта поддерживая его в области ^ S при произвольной детерминированной и априорно неизвестной функции переходов его состояний (f). Естественно, что желательно чтобы процесс обучения происходил за минимально возможное число пробных траекторий (число попыток, "число жизней"), при произвольных на начальных X0 .

Для построения теории адаптивного регулятора на нейросемантической сети и анализа ее формального описания необходимо уменьшить размерность задачи. Для этого примем m=1. Это случай одномерного управляемого объекта. Число дискретных состояний выберем N=7. При практической реализации адаптивного регулятора, не вызовет никаких затруднений. В нашей программной реализации первой версии предусмотрены максимальные значения: m=1000 и N=100.

В качестве тестового примера управляемого объекта будем рассматривать упрощенную физическую модель (см. рис. 1), аналогичную часто рассматриваемой задаче "обратного маятника", используемую в качестве теста для классических нейронных сетей [2].



Рис. 1



Безынерционный шарик (объект) находится на выпуклой поверхности ^ S. Под действием силы "тяжести" f (см. уравнение 1 и 2) он стремится скатиться с этой поверхности. Задача системы управления заключается в том, чтобы воздействиями Fn удержать его на выпуклой поверхности. Начальные значения положения шарика X0 (-3  X0  3). Состояния S (-3  Xn  3). Состояния Q (Xn < -3 и Xn > 3). В качестве примера, изменение состояние шарика под действием "гравитационных" сил опишем как:


Xn+1 = 2*Xn + Fn (2)


Состояния переходов данной физической модели выражается следующим графом:


Рис. 1а



Для последующего теоретического исследования механизмов самоорганизации системы управления на нейросемантической сети мы еще более упростим и физическую модель, см. рис. 2.


Рис. 2



Безынерционный объект находится на наклонной поверхности ^ S. Под действием силы "тяжести" f (см. уравнение 3а) он скатывается вправо за каждый такт (от n до n+1) на одну единицу.


Xn+1 = 1 + Xn (3а)


Задача системы управления F удержать его в области ^ S, при произвольных начальных условиях X0 и при малом случайном возмущении среды Z. Введение в уравнение малого случайного воздействия Z необходимо для приближения модели регулятора к реальным процессам, а также для избежания попадания управления регулятора в устойчивые периодические траектории (например для уравнения 2, при Xn =0 и Fn =0).

Начальные значения положения объекта X0 (1  X0  7). Состояния S (1  Xn  7). Состояния Q (Xn < 1 и Xn > 7). Действующие силы на состояние объекта опишем как: Xn+1 = 1 + Xn  "силы гравитации в вязкой среде"; Fn  управление регулятора (Fn = {-1, -2, -3, -5, -6, -7}); Zn  малое случайное возмущение внешней среды (Zn << Fn, Z  0, 1, 2).


Xn+1 = 1 + Xn + Fn + Zn (3)


Рекуррентное уравнение (3) в гносеологическом плане существенно проще (2), на что указывают и данные из зоологии. Например, задачу затаскивания-закатывания объекта в некоторое место выполняют уже насекомые, тогда как балансировать объектом способны только высшие животные (дрессированные дельфины, морские котики и др.). Поэтому теоретический анализ мы будем проводить с объектом, описываемым уравнением (3), а для практического тестирование качества функционирования нейросемантического регулятора будем использовать объект описываемый уравнением (3), а также любым другим, при условии наращивания необходимой для этого вычислительной мощностью регулятора.

В общем случае, функцию перехода (изменения) состояний управляемого объекта будем описывать в табличной или графовой форме. Так уравнение (3а), отображающее изменения внутреннего состояния объекта в табличной или графовой форме будет выглядеть следующим образом:


Xn

a1

a2

a3

a4

a5

a6

a7

Xn+1

a2

a3

a4

a5

a6

a7

aQ


а)


б)

Рис. 3


В нашем случае переход состояний объекта под действием силы тяжести f будет: a1  a2 , a2  a3 , a a4 , a4  a5 , a5  a6 , a6  a7 , a7  aQ (см. рис. 3). При этом, в соответствии с рис. 2 примем: a1 =1, a2 =2, a3 =3, a4 =4, a5 =5, a6 =6, a7=7 .

Область определения "нормальных" S состояний X = { a1, a2, a3, a4, a5, a6, a7 }, остальные состояния Q при которых X ≠ { a1, a2, a3, a4, a5, a6, a7 }.

Область значений управляющих воздействий F в нашем случае определим как область "нормальных" S состояний ^ X со знаком минус, F = { a1, a2, a3, a4, a5, a6, a7 }. На область значений F накладывается ограничение: для любого Xn (Xn S) должно существовать Fn такое, что f( Xn ) + Fn + Zn также принадлежит S.

Область значений "ненормальных" состояний объекта Q (X n+1 = 1+X n + Fn + Zn < 1 и X n+1 = 1+X n + Fn+ Zn > 7), совместно с областью "нормальных" состояний объекта S (1  X n+1 = 1+X n + Fn + Zn 7) представлены в таблице 1.

Мощность (M) числа состояний S равна MS = (N2 + N) / 2, Q соответственно равна MQ = ((N-1)2 +N-1) / 2, что при принятом N=7, MS = 28 и MQ = 21. MW = N2 = MS + MQ = 28 + 21= 49.

Отметим, что MS ~ MQ ( MS = MQ +N ). Эта оценка примерного равенства мощностей множеств S и Q будет нам удобна при оценке вероятностей случайного формирования траекторий.

Таблица 1.




На рисунке 4 представлен фрагмент графа состояний управляемого объекта в состоянии Xn = a3. Этот фрагмент полностью соответствует описанию таблицы 1 в 3-м столбце.



Рис. 4


Воздействие Fn =a1 (-1) на исходное значение состояния объекта Xn =a3, соответствующего величине 3, переводит объект в сам себя Xn+1 = a3 (1+32= 3); воздействие a2: Xn+1(a2) = 1 + Xn(a3) + Fn(a2) = 1 + 3 2=2; воздействие a3: Xn+1(a1) = 1 + Xn(a3) + Fn(a3) 1 + 3 3=1; воздействиями a4, a5, a6, a7: Xn+1(Q) = 1 + Xn(a3) + Fn(a4, a5, a6, a7) = 1 + 3  4,5,6,7 < 1, что соответствует состоянию объекта области Q. Аналогично и для всех остальных состояний объекта Xn (a1, a2, a4, a5, a6, a7) воздействия Fn (-a1, -a2, -a3, -a4, -a5, -a6, -a7) переводят состояние объекта в области Q или S.

Мы рассмотрели механизмы описания объекта и возможное взаимодействие с ним управляющего регулятора. Перейдем к описанию структуры адаптивного регулятора на нейросемантической сети.


^ Схема адаптивного регулятора №1 на нейросемантической сети. В качестве системы управления рассмотрим адаптивный регулятор на нейросемантической сети, см. рис. 5.



Рис. 5


Это двухслойная нейросеть (слои д и е, см. рис. 5) с функционально упрощенными нейроподобными N-элементами [ ]. Основное отличие которых от классических нейронов [ ] с алгебраической суммацией сигналов на входе заключается в векторной (пространственно-временной) обработке входных сигналов. Механизм функционирования N-элементов станет ясным из описания алгоритма настройки рассматриваемого адаптивного регулятора.


Пример механизма изменения состояний объекта (Xn) отображен на уровне а рисунка 5. На уровне б отображен протокол изменения состояний объекта и управляющих воздействий регулятора (Fn). Протокол привязан к дискретной временной оси (tn). Алфавит протокола состоит из N+2 знаков (1, 2, 3, 4, 5, 6, 7, , ). Грамматика формирования протокола – это последовательность попыток обучения, каждая из которых, это последовательность пар (Xn Fn) завершающаяся знаком  "". Если же длина последовательности пар превышает некоторую длину (например, равную N2 ~ 2*MS) , то она рассматривается как положительный результат обучения и при обучением "методом наказания" в памяти регулятора может не отображаться.

На уровне в отображены компоненты процесса: состояния объекта (Xn), воздействий регулятора (Fn), завершения i-й попытки (), а также механизм блока управляющего воздействия (блок max F0, см. рис. 5). Работа блока заключается в выборе элемента из F-группы элементов уровня г с максимальным значением некоторой величины U(n), которая количественно отражает величину меры "близости", вычисляемую на N-элементах.

На уровне г отображены две группы элементов алфавита, отображающие значения состояния объекта (Xn) и воздействия регулятора (Fn). Эти элементы выполняют функцию простейшей ассоциативной коммутации различных пар (Xn Fn) для N-элементов слоя д при реализации конкретных попыток обучения регулятора.

Уровень д – это первый слой N-элементов нейросемантической сети адаптивного регулятора. N-элементы этого слоя имеют два входа, для компоненты Xn состояния объекта (1-й вход) и для Fn воздействия регулятора (2-й вход). Это слой ассоциативных N-элементов, отображающих простейшие "условные рефлексы" регулятора. В нем находятся только различные пары (Xn Fn). Если в протоколе встречаются тождественные пары, например, "4-1… и 4-1", то они отображаются только одним N-элементом с информационным содержанием "4-1". Каждая же реализация пары, тождественная информационному содержанию N-элемента, только добавляет ссылку (связь) с N элементом вышележащего слоя (уровня е), отображающим конкретную попытку обучения. Общее число N-элементов д слоя не превышает Nm2 .

N-элементы уровня е имеют число входов, равное числу пар (Xn Fn) в каждой попытке обучения. Завершающая пара формируется либо при попадании Xn в множество состояний Q (сигнал - "", это дополнительный вход, показанный на рис. 5 и приведен лишь для большей иллюстративности материала) либо, если число пар превышает заданное N2 "положительная траектория". Новый N элемент уровня е формируется из резервного N элемента (самый правый в слое). Сигналом к формированию нового N элемента служит появление завершающей пары. Резервный N элемент имеет практически бесконечное число входов.

Свойство слоев N-элементов адаптивного регулятора таково, что в каждом из них содержится ровно одна семантическая единица своего иерархического уровня ("уловный рефлекс" конкретных Xn Fn - слой д, или конкретных траектория - слой е. Под семантической единицей будем понимать последовательность знаков в рамках алфавита объекта (1, 2, 3, 4, 5, 6, 7, , ). Свойство выделения семантических единиц чрезвычайно важное в адаптивных информационных системах, поэтому в регуляторе это свойство и подчеркивается в его названии - нейросемантический. Более подробно этот аспект рассматривается в [3].


^ Алгоритм функционирования адаптивного регулятора №1. Рассмотрим динамику функционирования адаптивного регулятора на основе нейросемантической сети.

1. Выбирается (случайным образом) X0.

2. Xn присваивается значение X0.

3. - значение Xn протоколируется и передается на уровень г;

- от элемента уровня г со значением равным Xn начинается формирование нового N элемента уровня д из резервных;

- активируются все N элементы уровня д уже связанные с активированным элементом Xn уровня г;

- активированные N элементы уровня д передают свою активность N элементам уровня е;

- в N элементах уровня е происходит идентификация вхождения всех активированных N элементов уровня д и их расположенности в последовательностях траекторий;

- чем ближе активированный вход (связанный с N элементом уровня д) к завершающей паре (последнему входу) N элемента уровня е, тем в более активное состояние этот N элемент уровня е переходит. Допустим, что активность (U(n)) состояния N элемента уровня е определяется в зависимости от номера активированного его входа, например, как: U(n)= -1.0/2n-1, где n  расстояние по номеру от последнего входа. Так если у N элемента уровня е активировался последний вход, то его активность U(n)= -1.0,  предпоследний вход U(n)= - 0.5 и т.д.

Сумма величин U(n) д от всех N элементов уровня д, в которые входит активированный Xn, определяет активность U(n)е N элемента уровня е. Эта величина U(n) е спускаясь по связям вниз, в конечном счете будет выходить на конкретные Fn .

Напомним, что мы рассматриваем обучение регулятора "методом наказания", соответственно в памяти регулятора хранятся только отрицательные траектории (U(n)е ≤ 0 );

- все N элементы уровней д и е функционируют независимо друг от друга.

4. Формирование сигнала управления (F) начинается с того, что все N элементы уровня е возвращают свою "отрицательную" активность (U(n)) обратно на N элементы уровня д. Причем, на N элемент уровня д, связанный с последним входом подается вычисленное на шаге 3 значение -U(n), с предпоследним входом  -U(n)/2 и т.д.

В случает одновременного прихода на N элемент уровня д активности от нескольких N элементов уровня е, результирующее значение U(n) на N элементе уровня д вычисляется как наибольшее по амплитуде (модулю).

5. N элементы уровня д транслируют (обратно) полученную ими суммарную активность U(n) д на связанные с ними элементы F-группы уровня г, соответствующие Fn в парах (Xn Fn) предыдущих попыток обучения.

Из одновременно приходящих U(n) на N элементы F-группы уровня г активности от нескольких N элементов уровня д, выбирается максимальное по модулю;

- блок max F0 уровня в выбирает максимальное значение U(n) (U(n) ≤ 0 ) на Fn элементе F-группы уровня г. Таким образом формируется пара Xn Fn, где Xn – состояние объекта, а Fn – управляющее воздействие адаптивного регулятора на данном такте (n);

- если сформировавшаяся пара (Xn Fn) уже отображена элементом на уровне в, то все предварительно сформированные связи-ссылки (от уровня г к д, и от уровня д к г) переводятся на этот уже существующий на уровне в элемент (см. рис. 5);

- если сформировавшаяся пара (Xn Fn) новая для уровня в, то этот элемент переходит в состояние сформированных, а число резервных элементов уровня д уменьшается на один.

6. Вычисленное значение Fn передается в протокол (уровень б) и на уровень а для вычисления нового Xn состояния объекта.

7. Если значение Xn принадлежит множеству состояний S, то вычисляем длину L данной траектории-попытки, измеряемой числом пар (Xn Fn) или же числом входов формируемого N элемента уровня е;

- если значение L превышает величину - N* (N* ≥ N2 + N1, где N1 ~ N2), то отмечается "удачная настройка адаптивного регулятора" и переходим к шагу 9;

8. Если же значение Xn принадлежит множеству состояний Q, то формируемый N элемент уровня е переводим в разряд сформированных;

- обнуляем состояние всех элементов и N элементов всех уровней;

- увеличиваем счетчик числа отрицательных траекторий на единицу.

- если число отрицательных траекторий-попыток превышает величину MQ, то отмечаем "неудачность конструкции нейросемантического адаптивного регулятора" и переходим к шагу 10, иначе переходим к шагу 1;

9. Увеличиваем счетчик числа положительных траекторий на единицу.

- если число положительных траекторий-попыток превышает некоторую величину - N** (N** ≥ N2 + N2, где N2 ~ N), то отмечается "настройка адаптивного регулятора" и переходим к шагу 10, иначе переходим к шагу 1.

10. Остановка алгоритма, печать протоколов и пр.


^ Результаты экспериментов с моделью №1 адаптивного регулятора подтвердили ожидаемые аналитические результаты. Так при мощности MS ~ MQ, вероятность (р) завершения траектории, т.е. попадания пары (Xn Fn) в область Q в начале процесса обучения регулятора в зависимости от числа шагов траектории (n) велика и имеет следующий числовой вид: n=2, p=0.50; n=4, p=0.88; … n=8, p=0.99; Соответственно этим и объясняются короткие начальные траектории в экспериментах (см. рис. 6).

На этапе завершения обучения (число попыток ~ MQ) длины траекторий должны несколько возрастать, но ненамного. Вероятность (р) того, что регулятор сможет построить траекторию длиной до N* пар (Xn Fn) при последней ненайденной паре (Xn Fn) из области Q равна р ~ 0.007. Таким образом, при числе попыток MW (MW = N2 = MS + MQ) вероятность нахождения всех пар (Xn Fn) области Q и запоминания их регулятором в форме N-элементов уровня д порядка р ~ (1 - 0.00005). Следовательно, за MW обучающих траекторий адаптивный регулятор на нейросемантической сети способен обучиться и устойчиво поддерживать (р>0.9999) объект в области S.

Необходимо отметить, что данная оценка времени обучения семантического регулятора применима только при обучении "методом наказания". Так при обучении "методом поощрения" регулятор быстрее выходит на траектории длиной в N* пар ("обучается" при определенных начальных условиях X0), но зато на MW-й попытке обучения вероятность довести длину траектории до N* пар (Xn Fn) существенно меньше чем при обучении "методом наказания". Это как бы два "психологических" типа регулятора: "мальчишечьий" и "девченочьий". Первый сначала попадает во все возможные неприятности, но зато потом уверенно чувствует себя в данной среде. Второй тип старается придерживаться найденный решений, но длительность процесса обучения возрастает. Эти два тапа стратегии обучения регулятора можно использовать в зависимости от характера задач.

В ходе экспериментов (обучение "методом наказания") с объектами приведенными на рис. 1 и 2, а так же с объектами со случайно заданными парами переходов состояния (Xn  Xn+1 ), во всех 300 экспериментах (по сто на каждом типе объектов) адаптивный регулятор настраивался на рабочий режим (успешно обучался) за MW попыток.

На графике 1 приведен пример типичного вида графика при обучении регулятора (на объекте приведенном на рис. 1). На оси ординат отложена усредненная длина траектории, и по оси абсцисс  число экспериментов (100).


График 1.


Обуче ние

Настроенный

регулятор


На рис. 6 приведены результаты фрагментов протоколов экспериментов по управлению объектом приведенного на рис. 2 и описываемого уравнением (3) и виды исходных данных задающих управляемый объект для программы адаптивного регулятора.


1. 1 -7 ./-5 -- 1 Обозначения (структура траектории):

2. 3 -5 ./-1 -- 1 n. - номер траектории;

3. 6 -6 1 -4 ./-2 -- 2 пары (Xn Fn)…;

4. 1 -6 ./-4 -- 1 ./(Xn+1) - завершение траектории;

5. 3 -4 ./0 -- 1 -- (k),++(k) - результат и число пар в траектории;

6. 6 -5 2 -7 ./-4 -- 2

7. 7 -7 1 -5 ./-3 -- 2

8. 7 -1 7 -6 2 -5 ./-2 -- 3

… - случайные возмущения Zn(0,1,2) на каждой пятой паре траектории

24. 2 -1 2 -1 2 -1 2 -1 2 -1 3 -1 3 -1 3 -1 3 -1 2 -1 2 -1 2 -1 2 -1 2 -1 1 -1 1 -1 1 -1 1 -1 1 -1 2 -1 2 -1 2 -1 2 -1 2 -1 2 -1 2 -1 2 -1 2 -1 2 -1 4 -2 3 -2 2 -2 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 2 -1 2 -1 2 -1 2 -1 2 -1 4 -1 4 -1 4 -1 4 -1 4 -1 3 -1 ./2 ++ 49



35. 4 -7 ./-2 -- 1

36. 6 -4 3 -3 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 2 -1 2 -1 2 -1 2 -1 2 -1 2 -2 1 -1 1 -1 1 -1 1 -1 2 -1 2 -1 2 -1 2 -1 2 -1 1 -1 1 -1 1 -1 1 -1 1 -1 2 -1 2 -1 2 -1 2 -1 2 -1 2 -1 2 -1 2 -1 2 -1 2 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 2 -1 ./1 ++ 49



100. …


Форма задания исходных данных для исследовательской адаптивного регулятора (см. рис.2).

N= 7 - число нормальных состояний объекта и пар переходов ;

(1 2)(2 3)(3 4)(4 5)(5 6)(6 7)(7 8) - пары (Xn Xn+1) отражают переходы состояния объекта

Xn -> Xn+1

- область нормальных состояний объекта – первый элемент

пары S (1 2 3 4 5 6 7);

F= -1 -2 -3 -4 -5 -6 -7 - возможные управляющие воздействия регулятора;


N= 13

(0 1)(1 2)(2 4)(-1 -2)(-2 -4)(3 6)(-3 -6)(4 8)(-4 -8)(-5 -10)(5 10)(-6 -12)(6 12)

F= -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6

данные для управления объекта, представленного на рис.1

N= 7

(5 6)(1 4)(4 7)(7 3)(2 5)(6 3)(3 8)

F= -1 -2 -3 -4 -5 -6 -7

данные для управления объекта (см. рис. 2) со случайной таблицей переходов

Рис. 6


Выводы.

Результаты экспериментов с моделью адаптивного регулятора представленного на рис. 2, показали, что состояние объекта (Xn Fn) только один раз попадает в область Q (запрещенная область). Причем во все состояния области Q, управляемый объект обязательно попадет, т.к. исходное состояние Xn = X0, где X0 задается случайно из области X0 (1  X0  7).

Количество Q состояний для случая (2) равно ~ N*N/2. Перебрав их в начальном состоянии функционирования регулятора, система переходит в устойчивое управляемое состояние. При любых начальных значениях X0 (Xn = X0), и случайной компоненте Z (3) такой, что ее добавление не выводит Xn в область Q, модель данного адаптивного регулятора может неограниченно долго поддерживать состояние управляемого объекта в области S.

Эксперименты по заданию функции по (1) и со стохастическими переходами представленными в табличной форме (при 3 < ^ N < 21) показали, что данный регулятор для любой из данных функций после обучения (прохождения всех состояний Q) стабильно поддерживает объект управления в области S.

К положительным характеристикам адаптивного регулятора можно отнести:

- возможность работы с любым объектом (см. рис. 1,2), функция перехода состояний которого априорно неизвестна и заданы только списки положительных S и отрицательных Q состояний объекта. Для некоторые типов задач это иногда единственная возможность их практического решения;

- период обучения (настройки) регулятора четко выделен и локализован на начальном этапе его взаимодействия с объектом;

- после этапа обучения регулятор уже не допускает ни одной ошибки в процессе управления состоянием объекта, только один раз попадая в область Q ("не наступает на грабли более одного раза");

- допустима работа с объектом, у которого функция перехода состояний может медленно "дрейфовать", регулятор будет подстраиваться в процессе эксплуатации;

Данный тип регулятора может иметь прикладную значимость для объектов управления с неизвестными функциями переходов их состояний когда известны только область Q. Под этот класс задач подпадает достаточно много объектов управления (космические объекты, объекты в агрессивных средах и пр.).


К нежелательным характеристикам данного типа регуляторов можно отнести  обязательный проход всех состояний объекта (Xn Fn) принадлежащих запрещенной области Q. Для практических задач, когда число значений параметра N может измеряться тысячами, а размерность задачи сотнями и тысячами параметров, декартово пространство отрицательных состояний объекта Q может измеряться величиной в 10100, что для современной вычислительной техники недопустимо. Поэтому, зная способности биологический нейронных сетей к обобщению, абстрагированию и другим интеллектуальным функциям, существенно уменьшающим пространство перебора Q, необходимо модифицировать модель адаптивного регулятора представленного на рис. 2, чтобы он смог преодолеть возникающее «проклятие размерности», сведя пространство перебора Q до величин не превышающих ~ 1010. Это чрезвычайно важная и актуальная проблема, которую необходимо решить для широкого практического внедрения рассматриваемого регулятора.


^ Модификация нейросемантического регулятора. Так глядя на задачи, представленные на рис. 1 и 2, человек может легко, на основе ранее полученных знаний обойти полный перебор и независимо от N, найти решение этих задач. Так для задачи представленной на рис. 2, при любом Xn решением является Fn = - Xn или Fn = -1, практически сводящееся к Fn = -1. Для задачи представленной рис. 1 решением является воздействие Fn= - Xn и одновременно |Fn|  |- Xn|. Видно, что найти второе решение существенно сложнее первого решения (Fn = -1 при любом Xn). Задача же управления объектом со случайно заданными парами переходов состояния (Xn  Xn+1 ), естественно, никакими приемами лучше чем перебор решена быть не может, но к счастью, на практике такие задачи либо маломерны, либо выясняется что для них находится причинно-следственное пространство.

Образование человеку дает абстрактные математические понятия (равные, большие, натуральный ряд, число), которые позволяют ему решить вышеприведенные задачи (рис. 1 и 2) минуя метод "проб и ошибок". Предварительно исследуя объект, человек относит его к одной из известных ему моделей и затем, в соответствии с этими моделями, начинает применять известное ему знание. При этом, как показывает практика, ужасающая размерность метода "проб и ошибок" отступает. В этом направлении и необходимо модифицировать нейросемантический регулятор.


^ Адаптивный нейросемантический регулятор №2. В слой г адаптивного регулятора (см. рис. 5 и 7) можно вставить группу нейронов-рецепторов, которые будут отражать некоторое своеобразное "начальное образование" регулятора. Каждый из этих нейронов-рецепторов будет переходить в активное состояние (U(n)=1.0) если текущие значения Xn Fn будут соответствовать: "модуль Fn больше модуля Xn", "модуль Fn меньше модуля Xn", "Fn одного знака с Xn", "Fn разных знаков с Xn", "модуль Fn равен модулю Xn", "-Fn  равна Xn", "-Fn равна Xn+1", а также величин и знаков их производных Xn - Xn-1 = X, Fn - Fn-1 = F и прочих возможных отношений.

Введение в слой г нейронов-рецепторов с вышеуказанными свойствами, будет эквивалентно некоторому "простейшему образованию в теории чисел" модели адаптивного нейросемантического регулятора. Назовем регулятор с группой нейронов-рецепторов адаптивным нейросемантическим регулятором №2, см. рис. 7.

Отметим, что введение в слой е нейронов-рецепторов не ориентировано ни на какую конкретную задачу. Предполагается, что одного-двух десятков задействованных нейронов-рецепторов будут достаточно для покрытия особенностей всех управляемых объектов, рассматриваемого типа. Излишние же введенные в слой г нейроны-рецепторы не будут ухудшать качество обучения регулятора №2 относительно регулятора №1. Нейроны-рецепторы отражающие особенности объекта (Xn+1 = f(Xn)), будут способствовать более эффективной настройке регулятора, нежели чем простой перебор. Если же свойства объекта не будут отражены в нейронах-рецепторах (например, для негладких функций f(Xn)), то качество обучения регулятора №2 будет не хуже чем у регулятора №1.



Рис. 7


Структурная схема адаптивного нейросемантического регулятора №2, в отличии от регулятора №1 изменяется мало. Добавляется лишь блок вычисления отношений Xn и Fn (слой в), который формирует связи между нейронами-рецепторами и элементами блоков X и F слоя г . Блок вычисления отношений Xn и Fn строится перебором всевозможным пар Xn , Fn. Для малых значений N это вполне приемлемо.

В процессе идентификации Xn (по алгоритму №1), сформированная отрицательная величина U(t) (обучение "методом наказания") с N-элементов слоя е передается по сформированным в процессе обучения связям на N-элементы слоя д. Далее, величина параметра U(t) по дополнительным связям N элементов уровня д, сформированных блоком вычисления отношений Xn и Fn, передается ниже на нейроны-рецепторы уровня г, которые рассылают ее в на все элементы F, соответствующие условиям на нейронах-рецепторах текущего отношения Xn и F. Например, если активируется нейрон-рецептор "модуль Fn больше модуля Xn", то на все Fn модуль которых больше модуля Xn посылается дополнительная отрицательная добавка U(n). Затем эта дополнительная величина U(t) полученная от блока нейронов-рецепторов складывается с величиной U(t), получаемой в результате работы алгоритма №1. Потом выбирается Fn с максимальным значением величины U(t). Далее, все как по алгоритму №1. Т.е., по алгоритму №2 активация N элементов с уровня е передается на Fn, как непосредственно по алгоритму №1, так и через блок вычисления отношений (двойная стрелка, см. рис. 7).


^ Результаты экспериментов с моделью адаптивного регулятора №2 показали что для устойчивого обучения регулятору №2 необходимо существенно меньшее число попыток (траекторий) чем для регулятора №1 (напомним, что для обучения регулятора №1 необходимое число траекторий ~ N*, и за это время он должен попасть во все пары Xn Fn, принадлежащие MQ). Причем, для регулятора №2 это число лишь незначительно растет с ростом N. Результаты экспериментов для модели (рис. 2) представлены на графике 2.

График 2.


Об.2 Об.1, N=7 Рег. №1

Объект 2 , N=7 Рег. №2

Объект 1, N=7 Рег. №2



Объект 2 , N=15 Рег. №1

Объект 2 , N=15 Рег. №12

Объект 2 , N=11 Рег. №1

Объект 2 , N=11 Рег. №2

Это примеры типичных графиков для адаптивного регулятора №2 в сравнении с регулятором №1. Из графиков видно, что эффективность регулятора №2 почти не зависит от N (N=7,11,15), тогда как у регулятора №1 она почти квадратичная от N. На первом графике также видно, что эффективность управления регулятором №2 объектом 2 выше чем объектом 1, тогда как для регулятора №1 эффективность управления обоими объектами равна и определяется MQ, что и было выше объяснено теоретически.


^ Выводы. Для модели адаптивного регулятора №2 видно существенное уменьшение, числа коротких ("ненормальных") траекторий обучения (M2Q) относительно MQ. Причем, чем больше N, тем относительно большая эффективность алгоритма №2, т.е. для выхода на устойчивый режим управления, в названных задачах, потребуется уже существенно меньшее число траекторий для обучения чем MQ.

M2Q / MQ ® 0, (4)

при N ® ¥


Этот результат показывает, что при наличии в блоке отношений нейронов-рецепторов (см. слой г рис. 7), которые частично или полностью (как одним нейроном-рецептором так и их совокупностью) отображают априорно неизвестную функцию f состояний перехода управляемого объекта ("общее образование"), процесс настройки регулятора по эффективности не уступает человеку (Были проведены эксперименты, когда для нескольких типов объектов в качестве управляющего регулятора выступали студенты).

Экспериментальные исследованиях адаптивного регулятора с переходом на "метод поощрения" (целевое состояние объекта), как и с одновременным рассмотреть двух областей состояний Q+ и Q-, показали еще большую эффективность обучения регулятора, но в силу повышенной сложности теоретического анализа этих режимов, в рамках этой статьи их результаты не анализировались.


Практическое применение модели адаптивного регулятора №2 возможно для широкого класса задач, если они имеют гладкие функции переходов состояния объекта. Это управление объектами в малоизвестных или сложных и агрессивных средах (планетоходы, роботы манипуляторы, адаптивные спутники и др.), а также обработка и кластеризация больших слабоструктурированных информационных потоков (работа с текстовой информацией, прогнозирование временных рядов и пр.).

Естественно, что при этом в блоке вычисления отношений Xn и Fn должны существовать некоторые нейроны-рецепторы, которые всегда реагируют когда объект попадает в область Q и не реагируют, если объект попадает в область S. Этот механизм аналогичен формированию абстрактных понятий, что сделает эффективность обучения адаптивного нейросемантического регулятора, практически независимым от N (числа значений параметра).

Образование таких нейронов-рецепторов может осуществляться в модели случайно, а может и под действием внутренних механизмов регулятора, в частности, в зависимости от величины текстовой энтропии [ ]. Но это задача следующего этапа исследования и развития теории адаптивного нейросемантического регулятора.


Дальнейшие развитие работ с адаптивным регулятором. Под информационными системами будем понимать системы, результатом деятельности которых является изменение их поведения (совокупности реакций). На примере регулятора №1 можно ввести понятие "целенаправленные системы", как информационных систем способных построить стратегию своего поведения таким образом, что в результате их деятельности доля "благоприятных" состояний увеличивается (в нашем случае до 100%).

Можно формально ввести понятие "интеллектуальных систем". Это "целенаправленные системы", которые достигают определенного качества функционирования (отношение результирующих "благоприятных" на "неблагоприятных" состояний) за существенно меньшее чем простой перебор число попыток. Регулятор №2 с блоком нейронов-рецепторов ("общее образование"), в соответствии с данным определением, можно отнести интеллектуальным системам.

Добавив ряд конструктивных функций в N-элемент, на НСС можно продемонстрировать формирование нейронов-рецепторов блока "общего образования". Такие интеллектуальные системы назовем "системами формирования знания". Объединив несколько НСС, можно продемонстрировать и проанализировать процесс "мышления" – "мышление как отложенное действие" регулятора.

Таким образом, на достаточно простой схеме нейросемантического регулятора можно проследить и проанализировать довольно большой диапазон качественно различных перспективных свойств информационных систем.

Данная работа входит в цикл работ "Общая теория информационных систем". Первая часть – самоформирование и эволюция простейших информационных систем имеет чисто теоретический характер по нейросемантическим системам. В данной работе рассмотрен практический аспект возможного приложения теории НСС, поэтому она публикуется первой. Третья часть – рассмотрение информационных систем с позиции производственных вычислительных систем. Четвертая часть – крупномасштабная ассоциативная память и пятая – системы "способные к рассуждению". Поэтому, в дальнейшем будет более подробно освещаться формальная линия – от неживой материи к мыслящей, показывающая этапность алгоритмических введений и их результатов.

Литература.


  1. Уосермен Ф. Нейрокомпьютерная техника. М.: Мир. 1992. – 240 с.

  2. Sutton R.S., Barto A.G. "Reinforcement Learning: An Introduction". MIT Press, 1998: http://www-anw.cs.umass.edu/~rich/book/the-book.html

  3. Бодякин В.И., Куда идешь, человек? (Основы эволюциологии. Информационный подход). - М. СИНТЕГ, 1998, 332с.

  4. Бодякин В.И. Информационные иерархически-сетевые структуры для представления знаний в информационных системах. //Проблемно-ориентированные программы. Модели, интерфейс, обучение: Сб. трудов. – М.: Институт проблем управления, 1990.

  5. Бодякин В.И., Чистяков А.А. Ассоциативные информационные структуры и модели памяти, - в сб. Проблемы информатики - материалы конференции "От истории природы к истории общества: "Прошлое в настоящем и будущем", М., 2003.


Эвристика – (Э.Фрегбаум, Дж.Фельдман) – основанное на опыте правило, прием – средство, упрощающее поиск решения сложных задач.


Эксперименты, когда в качестве управляющего регулятора был человек показали проведенные со студентами

В приложении 1 приведены результаты экспериментов.


1 семантическая единица текста - это последовательность знаков, описывающая некоторый образ (процесс, объект), целостность и смысловую нагрузку которого, в свою очередь, легко определяют эксперты понимающие данный текстовой материал.





Похожие:

Адаптивный регулятор на нейросемантической сети iconБодякин в. И., Чистяков а. А
Вводится понятие нейросемантической формы представления информации и обсуждаются её основные характеристики и свойства. Приводятся...
Адаптивный регулятор на нейросемантической сети iconДокументы
1. /Курс лекций Сети/Курс лекций Сети ЭВМ и ТК/Лекц 6.1 ....doc
2. /Курс...

Адаптивный регулятор на нейросемантической сети iconГлобальные сети: общие принципы организации
«Малые» сети имеют выходы (шлюзы) в сети более высокого ранга, в согласованную систему адресов и протоколов (правил) передачи данных,...
Адаптивный регулятор на нейросемантической сети iconВ административный Центр Международной Сети “Молодежное Правозащитное Движение” (мпд)
Мпд, участвовать в некоторых мероприятиях сети, предоставлять свою информацию и иным образом оказывать поддержку Сети мпд
Адаптивный регулятор на нейросемантической сети iconНазначение сети Интернет. Ресурсы сети
Запишите двоичный ip–адрес 11111110 10111111 01100010 00000111 в десятичном формате
Адаптивный регулятор на нейросемантической сети iconЧто такое компьютерная сеть?
На какие типы делят локальные сети по принципу организации взаимодействия элементов сети?
Адаптивный регулятор на нейросемантической сети iconДокументы
...
Адаптивный регулятор на нейросемантической сети iconСообщение о раскрытии в сети Интернет списка аффилированных лиц
Адрес страницы в сети "Интернет", используемой эмитентом для раскрытия информации
Адаптивный регулятор на нейросемантической сети iconДокументы
1. /Олифер_Системы и сети/Answers.doc
2. /Олифер_Системы...

Адаптивный регулятор на нейросемантической сети iconСообщение о раскрытии в сети Интернет годовой бухгалтерской (финансовой) отчетности акционерного общества
Адрес страницы в сети "Интернет", используемой эмитентом для раскрытия информации
Разместите кнопку на своём сайте:
Документы


База данных защищена авторским правом ©podelise.ru 2000-2014
При копировании материала обязательно указание активной ссылки открытой для индексации.
обратиться к администрации
Документы

Разработка сайта — Веб студия Адаманов