Смекни!
smekni.com

Нейрокомпьютерные системы (стр. 23 из 32)

(8.6)

где сi - i компонента выходного вектора слоя сравне­ния; j - номер выигравшего нейрона в слое распознава­ния; Ьij - вес связи, соединяющей нейрон i в слое срав­нения с нейроном j в слое распознавания; L - константа > 1 (обычно 2).

Компоненты вектора весов Т., связанного с новым запомненным вектором, изменяются таким образом, что они становятся равны соответствующим двоичным величинам вектора С:

tij=ci для всех i (8.7)

где tij является весом связи между выигравшим нейроном j в слое распознавания и нейроном i в слое сравнения.

ПРИМЕР ОБУЧЕНИЯ СЕТИ APT

В общих чертах сеть обучается посредством измене­ния весов таким образом, что предъявление сети входного вектора заставляет сеть активизировать нейроны в слое распознавания, связанные с сходным запомненным векто­ром. Кроме этого, обучение проводится в форме, не раз­рушающей запомненные ранее образы, предотвращая тем самым временную нестабильность. Эта задача управляется на уровне выбора критерия сходства. Новый входной образ (который сеть не видела раньше) не будет соответство­вать запомненным образам с точки зрения параметра сход­ства, тем самым формируя новый запоминаемый образ. Входной образ, в достаточной степени соответствующий одному из запомненных образов, не будет формировать нового экземпляра, он просто будет модифицировать тот, на который он похож. Таким образом при соответствующем выборе критерия сходства предотвращается запоминание ранее изученных образов и временная нестабильность.

На рис. 8.6 показан типичный сеанс обучения сети APT. Буквы показаны состоящими из маленьких квадратов, каждая буква размерностью 8х8. Каждый квадрат в левой части представляет компоненту вектора Х с единичным значением, не показанные квадраты являются компонентами с нулевыми значениями. Буквы справа представляют запом­ненные образы, каждый является набором величин компо­нент вектора Тj . Вначале на вход заново проинициированной системы подается буква С. Так как отсутствуют запомненные обра­зы, фаза поиска заканчивается неуспешно; новый нейрон выделяется в слое распознавания, и веса Тj устанавливаются равными соответствующим компонентам входного век­тора, при этом веса Вj представляют масштабированную версию входного вектора.

Далее предъявляется буква В. Она также вызывает неуспешное окончание фазы поиска и распределение нового нейрона. Аналогичный процесс повторяется для буквы Е. Затем слабо искаженная версия буквы Е подается на вход сети. Она достаточно точно соответствует запомненной букве Е, чтобы выдержать проверку на сходство, поэтому используется для обучения сети. Отсутствующий пиксель в нижней ножке буквы Е устанавливает в 0 соответствующую компоненту вектора С, заставляя обучающий алгоритм установить этот вес запомненного образа в нуль, тем самым воспроизводя искажения в запомненном образе. Дополнительный изолированный квадрат не изменяет запом­ненного образа, так как не соответствует единице в запомненном образе. Четвертым символом является буква Е с двумя разли­чными искажениями. Она не соответствует ранее запомнен­ному образу (S меньше чем р), поэтому для ее запомина­ния выделяется новый нейрон. Этот пример иллюстрирует важность выбора коррект­ного значения критерия сходства. Если значение критерия слишком велико, большинство образов не будут подтверж­дать сходство с ранее запомненными и сеть будет выде­лять новый нейрон для каждого из них. Это приводит к плохому обобщению в сети, в результате даже незначи­тельные изменения одного образа будут создавать отдель­ные новые категории. Количество категорий увеличивает­ся, все доступные нейроны распределяются, и способность системы к восприятию новых данных теряется. Наоборот, если критерий сходства слишком мал, сильно различающие­ся образы будут группироваться вместе, искажая запом­ненный образ до тех пор, пока в результате не получится очень малое сходство с одним из них. К сожалению, отсутствует теоретическое обоснование выбора критерия сходства, в каждом конкретном случае необходимо решить, какая степень сходства должна быть принята для отнесения образов к одной категории. Грани­цы между категориями часто неясны, и решение задачи для большого набора входных векторов может быть чрезмерно трудным. В работе [2] предложена процедура с использованием обратной связи для настройки коэффициента сходства, вносящая, однако, некоторые искажения в результате классификации как «наказание» за внешнее вмешательство с целью увеличения коэффициента сходства. Такие системы требуют правил определения, является ли производимая ими классификация корректной.

ХАРАКТЕРИСТИКИ APT

Системы APT имеют ряд важных характеристик, не являющихся очевидными. Формулы и алгоритмы могут ка­заться произвольными, в то время как в действительности они были тщательно отобраны с целью удовлетворения требований теорем относительно производительности сис­тем APT. В данном разделе описываются некоторые алго­ритмы APT, раскрывающие отдельные вопросы инициализации и обучения.

Инициализация весовых векторов Т

Из ранее рассмотренного примера обучения сети можно было видеть, что правило двух третей приводит к вычислению вектора С как функции И между входным век­тором Х и выигравшим соревнование запомненным вектором Тj. Следовательно, любая компонента вектора С будет равна единице в том случае, если соответствующие компо­ненты обоих векторов равны единице. После обучения эти компоненты вектора Тj остаются единичными; все остальные устанавливаются в нуль.

Это объясняет, почему веса tij. должны инициализи­роваться единичными значениями. Если бы они были проинициализированы нулевыми значениями, все компоненты вектора С были бы нулевыми независимо от значений ком­понент входного вектора, и обучающий алгоритм предохра­нял бы веса от изменения их нулевых значений. Обучение может рассматриваться как процесс «сокра­щения» компонент запомненных векторов, которые не соот­ветствуют входным векторам. Этот процесс необратим, если вес однажды установлен в нуль, обучающий алгоритм никогда не восстановит его единичное значение. Это свойство имеет важное отношение к процессу обучения. Предположим, что группа точно соответствующих векторов должна быть классифицирована к одной катего­рии, определяемой возбуждением одного нейрона в слое распознавания. Если эти вектора последовательно предъ­являются сети, при предъявлении первого будет распреде­ляться нейрон распознающего слоя, его веса будут обуче­ны с целью соответствия входному вектору. Обучение при предъявлении остальных векторов будет приводить к обну­лению весов в тех позициях, которые имеют нулевые зна­чения в любом из входных векторов. Таким образом, запо­мненный вектор представляет собой логическое пересече­ние всех обучающих векторов и может включать существен­ные характеристики данной категории весов. Новый век­тор, включающий только существенные характеристики, будет соответствовать этой категории. Таким образом, сеть корректно распознает образ, никогда не виденный ранее, т.е. реализуется возможность, напоминающая про­цесс восприятия человека.

Настройка весовых векторов Вj.

Выражение, описывающее процесс настройки весов (выражение (8.6) повторено здесь для справки) является центральным для описания процесса функционирования сетей APT.

Сумма в знаменателе представляет собой количество еди­ниц на выходе слоя сравнения. Эта величина может быть рассмотрена как «размер» этого вектора. В такой интер­претации «большие» векторы С производят более маленькие величины весов bij, чем «маленькие» вектора С. Это свойство самомасштабирования делает возможным разделе­ние двух векторов в случае, когда один вектор является поднабором другого; т.е. когда набор единичных компо­нент одного вектора составляет подмножество единичных компонент другого. Чтобы продемонстрировать проблему, возникающую при отсутствии масштабирования, используемого в выражении (8.6), предположим, что сеть обучена двум приведенным ниже входным векторам, при этом каждому распределен нейрон в слое распознавания.

Х1 = 1 0 0 0 0

X2= 1 1 1 0 0

Заметим, что Х1 является поднабором Х2. В отсутствие свойства масштабирования веса bij и tij получат значе­ния, идентичные значениям входных векторов. Если на­чальные значения выбраны равными 1,0, веса образов будут иметь следующие значения: