реферат бесплатно, курсовые работы
 

Исследование возможности применения искусственных нейронных сетей для автоматического управления процессом металлизации

Рекуррентные сети

Рекуррентными нейронными сетями называются такие сети, в которых выходы нейронных элементов последующих слоев имеют синаптические соединения с нейронами предшествующих слоев. Это приводит к возможности учета результатов преобразования нейронной сетью информации на предыдущем этапе для обработки входного вектора на следующем этапе функционирования сети. Рекуррентные сети могут использоваться для решения задач прогнозирования и управления. Существуют различные варианты архитектур рекуррентных нейронных сетей. В 1986 г. Джордан (Jordan) предложил рекуррентную сеть (рис. 5.6), в которой выходы нейронных элементов последнего слоя соединены посредством специальных входных нейронов с нейронами промежуточного слоя. Такие входные нейронные элементы называются контекстными нейронами (context units). Они распределяют выходные данные нейронной сети на нейронные элементы промежуточного слоя.

Число контекстных нейронов равняется числу выходных нейронных элементов рекуррентной сети. В качестве выходного слоя таких сетей используются нейронные элементы с линейной функцией активации. Тогда выходное значение j-го нейронного элемента последнего слоя определяется по формуле:

где vij - весовой коэффициент между i-м нейроном промежуточного и j-м нейроном выходного слоев; pi(t) - выходное значение i-го нейрона промежуточного слоя; Tj - пороговое значение j-го нейрона выходного слоя.

Взвешенная сумма i-ro нейронного элемента промежуточного слоя определяется следующим образом:

где wji - весовой коэффициент между j-м нейроном входного и i-м нейроном промежуточного слоев;

р - число нейронов выходного слоя; wki - весовой коэффициент между k-м контекстным нейроном и i-м нейроном промежуточного слоя;

Тj - пороговое значение i-го нейрона промежуточного слоя;

n - размерность входного вектора.

Тогда выходное значение i-го нейрона скрытого слоя:

pi(t)=F(Si(t)) (5.2.1.)

В качестве функции нелинейного преобразования F обычно используется гиперболический тангенс или сигмоидная функция.

Другой вариант рекуррентной нейронной сети предложил Элман (Elman) в 1990 году.

В такой сети выходы нейронных элементов промежуточного слоя соединяются с контекстными нейронами входного слоя.

Тогда взвешенная сумма i-го нейронного элемента промежуточного слоя:

где т - число нейронов промежуточного слоя; pk(t-1) - выходное значение k-го нейрона промежуточного слоя.

Выходное значение k-го нейрона промежуточного слоя определяется следующим образом:

pk(t-1)=F(Si(t-1))(5.2.3.)

Для построения рекуррентных нейронных сетей можно использовать также два приведенных выше подхода.

В этом случае существуют обратные связи к контекстным нейронам, как от нейронных элементов выходного, так и промежуточного слоев.

Число контекстных нейронов входного слоя равняется общему числу нейронов промежуточного и выходного слоев. Тогда:

где p - число нейронов выходного слоя.

Рециркуляционные нейронные сети

Рециркуляционные сети характеризуются как прямым У = f (X), так и обратным Х = f (У) преобразованием информации. Задача такого преобразования - достижение наилучшего автопрогноза или самовоспроизводимости вектора Х. Рециркуляционные нейронные сети применяются для сжатия (прямое преобразование) и восстановления исходной (обратное преобразование) информации. Такие сети являются самоорганизующимися в процессе работы, где обучение производится без учителя. Они были предложены в 1988 г. Теоретической основой рециркуляционных нейронных сетей служит анализ главных компонент (principal component analysis). Этот метод применяется в статистике для сжатия информации без существенных потерь её информативности. Он состоит в линейном ортогональном преобразовании входного вектора X размерности n в выходной вектор Y размерности p, где p < n. При этом компоненты вектора Y являются некоррелированными ,и общая дисперсия после преобразования остаётся неизменной.

Рециркуляционная нейронная сеть представляет собой совокупность двух слоев нейронных элементов, которые соединены между собой двунаправленными связями (рис. 5.8).

Каждый из слоев нейронных элементов может использоваться в качестве входного или выходного. Если слой нейронных элементов служит в качестве входного, то он выполняет распределительные функции.

В противном случае нейронные элементы слоя являются обрабатывающими. Весовые коэффициенты, соответствующие прямым и обратным связям, характеризуются матрицей весовых коэффициентов W и W'. Для наглядности рециркуляционную сеть можно представить в развернутом виде, как показано на рис. 5.9.

Такое представление сети является эквивалентным и характеризует полный цикл преобразования информации. При этом промежуточный слой нейронных элементов производит кодирование (сжатие) входных данных X, а последний слой - восстановление сжатой информации Y. Слой нейронной сети, соответствующий матрице связи W, назовем прямым, а соответствующий матрице связей W' - обратным.

Рециркуляционная сеть предназначена для сжатия данных и восстановления сжатой информации. Сжатие данных осуществляется при прямом преобразовании информации в соответствии с выражением

Y=F(WTX) (5.2.5.)

Восстановление или реконструкция данных происходит при обратном преобразовании информации:

X=F(W'Y) (5.2.6.)

В качестве функции активации нейронных элементов F может использоваться как линейная, так и нелинейная функции. При использовании линейной функции активации.Релаксационные нейронные сети

Релаксационные нейронные сети характеризуются прямым и обратным распространением информации между слоями сети. В основе функционирования таких сетей лежит итеративный принцип работы. Он заключается в том, что на каждой итерации происходит обработка данных, полученных на предыдущем шаге. Такая циркуляция происходит до тех пор, пока не установится состояние равновесия. При этом состояния нейронных элементов перестают изменяться и характеризуются стационарными значениями. Для анализа устойчивости релаксационных нейронных сетей используются функции Ляпунова. Такие сети применяются в качестве ассоциативной памяти и для решения комбинаторных задач оптимизации. К релаксационным относятся нейронные сети Хопфилда, Хемминга, двунаправленная ассоциативная память и машина Больцмана.

В 1982 г. американский биофизик Д. Хопфилд (Hopfield) представил математический анализ релаксационных сетей с обратными связями. В основе анализа лежит теория изинговых спинов, которая используется для изучения ферромагнетиков при низких температурах. Поэтому такие нейронные сети получили название сетей Хопфилда.

Нейронная сеть Хопфилда характеризуется обратными связями. В ней каждый нейрон имеет синаптические связи со всеми остальными нейронами сети.

Архитектуру такой сети представим в виде двух слоёв нейронных элементов (рис. 5.10).

При этом первый слой является распределительным, а второй слой нейронных элементов осуществляет нелинейное преобразование взвешенной суммы:

где yi(t+1) - выходное значение i-го нейронного элемента в момент времени t+1; F - оператор нелинейного преобразования; Ti - пороговое значение i-го нейрона.

В матричной форме модель Хопфилда можно представить как:

Y(t+1)=F (S(t)); S(t)=WTY(t)-T (5.2.8.)

При этом используемые векторы имеют вид:

S=[S1, S2,…,Sn]T; Y=[y1, y2,…,yn]T; T=[T1, T2,…,Tn]T;

(5.2.9.)

В качестве матрицы весовых коэффициентов Хопфилд использовал симметричную матрицу (wij=wji) с нулевой главной диагональю (wii=0). Последнее условие соответствует отсутствию обратной связи нейронного элемента на себя. В качестве функции активации нейронных элементов F может служит как пороговая, и непрерывная функции, например сигмоидная или гиперболический тангенс.

Сеть Хопфилда может использоваться в качестве ассоциативной памяти. В этом случая она способна распознавать зашумлённые или искажённые образы. Для обучения нейронной сети Хопфилда используется правило Хебба.

В 1987 г. Р. Липпманом (Lippman) была предложена нейронная сеть Хэмминга (Hamming Network). Она представляет собой релаксационную, многослойную нейронную сеть с обратными связями между отдельными слоями. Сеть Хэмминга применяется в качестве ассоциативной памяти. При распознавании образов она использует в качестве меры близости расстояние Хэмминга. Весовые коэффициенты и пороги сети Хэмминга определяются из условия задачи, поэтому такая сеть является нейронной сетью с фиксированными связями.

Сеть Хэмминга является многослойной, состоящей из различных классов нейронных сетей. Пусть имеется m образов, каждый из которых имеет размерность n:

Тогда нейронная сеть Хэмминга будет состоять из сети с прямыми связями, сети Хопфилда и слоя выходных нейронов (рис. 5.11).

Сеть с прямыми связями состоит из n входных распределительных и m выходных нейронных элементов. Она вычисляет меру подобия между входными и эталонными образами, хранящимися в ней. В качестве меры подобия используется число одинаковых разрядов между входным и эталонным образом.

Сеть Хопфилда используется для разрешения возникающих конфликтов, когда входной паттерн является подобным нескольким эталонным образам, хранящимся в сети. При этом на выходе сети остаётся активным только один нейрон-победитель.

Выходной слой нейронной сети состоит из m нейронов, каждый из которых имеет пороговую функцию активации. Он предназначен для преобразования выходной активности нейрона-победителя сети Хэмминга в единичное значение. При этом значения всех остальных нейронов выходного слоя устанавливаются в нулевое состояние. Таким образом, происходит идентификация входного паттерна, который кодируется номером нейрона выходного слоя, имеющим единичное значение. Если входной образ не совпадает с эталонным, то на выходе сети Хэмминга будет формироваться такой эталонный паттерн, который имеет минимальное расстояние Хэмминга по отношению к выходному образу.

В 1988 г. Б. Коско предложил дальнейшее развитие сети Хопфилда - двунаправленную ассоциативную память, представляющей собой релаксационную сеть с циркуляцией информации.

Двунаправленная ассоциативная память состоит из двух слоёв нейронных элементов. Нейроны каждого из слоёв могут быть как входными, так и выходными. Архитектура двунаправленной ассоциативной памяти аналогична рециркуляционной нейронной сети (рис. 5.8). Однако принципы функционирования таких сетей разные.

4.2.3.2 Саморганизующиеся нейронные сети

Самоорганизующиеся нейронные сети (self-organising networks) характеризуются обучением без учителя, в результате которого происходит адаптация сети к решаемой задаче. К таким сетям относятся нейронные сети Кохонена, адаптивного резонанса и рециркуляционные сети (см. п. 5.2.3.1). В каждой из этих сетей самоорганизация происходит в результате различных механизмов обучения. Наиболее известными среди самоорганизующихся нейронных сетей являются сети, которые разработал в 80-х годах финский ученый Т.Кохонен (Kohonen). Нейронные сети Кохонена осуществляют топологическое упорядочивание входного пространства паттернов. Они широко применяются в задачах распознавания образов, оптимизации и управления.

Самоорганизующиеся нейронные сети используются для решения различных задач: кластеризации, векторного квантования, сокращения размерности входного пространства, выделения характерных признаков и т.д. При кластеризации входные образы группируются в кластеры, причем каждому кластеру ставится в соответствие отдельный нейрон. Векторное квантование применяется для сжатия данных. Для обучения самоорганизующихся нейронных сетей используется конкурентный метод, который был предложен в 1976 г. С. Гроссбергом (S. Grossberg) и затем развит в работах финского ученого Т. Кохонена (Т. Kohonen).

Сети адаптивного резонанса

Нейронные сети адаптивного резонанса были предложены С. Гроссбергом (S.Grossberg) в 1976 г. Они основываются на теории адаптивного резонанса (Adaptive Resonance Theory). В соответствии с ней такие нейронные сети называются ART-сетями. Резонанс в них происходит при идентификации какого-либо события или образа. В процессе функционирования ART-сетей в них происходит циркуляция информации до тех пор, пока не наступит состояния резонанса. Нейронные сети адаптивного резонанса обучаются без учителя и характеризуются самоорганизацией в процессе работы. Они могут использоваться для распознавания образов, обработки речевых сигналов и в задачах управления.

Теория адаптивного резонанса базируется на следующих основных принципах:

1. Адаптация входного паттерна к паттернам, хранящимся в сети, осуществляется при помощи резонанса.

2. Резонанс происходит при идентификации входного образа, когда он максимально совпадает с образом, хранящимся в сети. В процессе функционирования сеть резонирует до тех пор, пока не выделит паттерн наименее отличающийся от входного, или не зарезервирует новый класс.

3. В процессе адаптации входного паттерна к образам, имеющимся в сети, происходит его контрастное усиление. Оно характеризуется тем, что только отличительные особенности входного паттерна отображаются на синаптические веса. Это напоминает процесс биологической эволюции, когда отдельные признаки усиливаются, а другие ослабляются.

4. Хранение информации осуществляется в кратковременной (short-term-memory) и долговременной (long-term memory) памяти. Кратковременная память хранит входной паттерн, который должен быть декодирован, а долговременная соответствует образам, которые хранятся в нейронной сети.

Отсюда следует, что теория адаптивного резонанса имеет биологические предпосылки. Так, долговременная и кратковременная память соответствует типам памяти, которые имеются у человека. Явление резонанса играет большую роль, как при самоорганизации индивида, так и биологической системы.

Постановка задачи при распознавании образов методом адаптивного резонанса состоит в следующем. Необходимо найти такие синаптические векторы W1,W2,...,Wm, которые разбивают входное пространство паттернов на различные кластеры. Каждый кластер имеет размер, который характеризуется угловым расстоянием (рис. 5.15) и соответствующей ему величиной = cos , называемой параметром бдительности.

Если имеет маленькое значение, то входные векторы будут отображаться на большие кластеры, в противном случае на маленькие (рис. 5.15). В соответствии с параметром бдительности нейронная сеть должна каждый раз решать, принадлежит ли входной вектор уже имеющемуся кластеру, или резервировать для него новый кластер с соответствующим весовым вектором. Это обеспечивает, с одной стороны, пластичность сети, так как каждый раз сеть может реагировать на незнакомый образ и, с другой стороны, стабильность, так как уже идентифицированные кластеры не размываются посредством новых входных векторов.

Существуют различные модели нейронных сетей, основанных на теории адаптивного резонанса. В общем случае архитектура таких сетей представлена на рис. 5.16. Она состоит из двух слоев, которые соединены между собой прямыми и обратными синаптическими связями. Весовой вектор W характеризует прямые синаптические связи, а вектор V - обратные синаптические связи (рис. 5.16).

Информация, хранящаяся в этих связях, характеризует долговременную память (LTM), активизация нейронов каждого из слоев - кратковременную память (STM). При помощи конкурентного слоя входной паттерн отображается в соответствующий кластер.

Сравнивающий слой анализирует степень совпадения входного и выделенного сетью образа. При достаточной степени совпадения наступает резонанс, что соответствует идентификации образа.

Для описания функционирования и обучения таких сетей С. Гроссберг использовал дифференциальные уравнения. Используя функцию Ляпунова, С.Гроссберг доказал сходимость нейронных сетей, в основе которых лежит теория адаптивного резонанса.

4.2.4 Гибридные нейронные сети

Гибридные нейронные сети представляют собой объединение различного рода нейронных сетей и концепций их обучения. Они предназначены для решения различного рода задач, таких как распознавание образов, прогнозирование, аппроксимация функций и т. д.

Нейронные сети встречного распространения

Нейронные сети встречного распространения (Counterpropagation networks) были предложены в 1987 г. Р. Хечт-Нильсоном (Hecht-Nielsen). Они являются дальнейшим расширением нейронных сетей Кохонена и предназначены для аппроксимации функций. В отличие от сети Кохонена, которая разбивает входное n- мерное пространство на разные области, сеть встречного распространения ставит в соответствие каждой области числовое значение аппроксимируемой функции. Она характеризуется сочетанием двух подходов к обучению: с учителем и без учителя. Существуют различные варианты нейронных сетей встречного распространения, которые используют разные методы аппроксимации функций.

Нейронные сети с радиально-базисной функцией

Нейронные сети с радиально-базисной функцией (Radial Basis Function Network) являются дальнейшим развитием сетей встречного распространения. Они были предложены в 1989 г. и предназначены для решения задач распознавания образов, прогнозирования, сжатия данных и аппроксимации функций. Нейроны входного слоя выполняют распределительные функции. Промежуточный слой состоит из нейронов Кохонена. Каждый элемент скрытого слоя использует в качестве активационной функции радиальную базисную функцию типа гауссовой, а в качестве выходного слоя используются нейронные элементы с линейной функцией активации.

4.3 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ

4.3.1 Структура сети

Способность к обучению является фундаментальным свойством мозга. В контексте ИНС процесс обучения может рассматриваться как настройка архитектуры сети и весов связей для эффективного выполнения специальной задачи. Обычно нейронная сеть должна настроить веса связей по имеющейся обучающей выборке. Функционирование сети улучшается по мере итеративной настройки весовых коэффициентов. Свойство сети обучаться на примерах делает их более привлекательными по сравнению с системами, которые следуют определенной системе правил функционирования, сформулированной экспертами.

Теория обучения рассматривает три фундаментальных свойства, связанных с обучением по примерам: емкость, сложность образцов и вычислительная сложность. Под емкостью понимается сколько образцов может запомнить сеть, и какие функции и границы принятия решений могут быть на ней сформированы. Сложность образцов определяет число обучающих примеров, необходимых для достижения способности сети к обобщению. Слишком малое число примеров может вызвать переобученность сети, когда она хорошо функционирует на примерах обучающей выборки, но плохо - на тестовых примерах, подчиненных тому же статистическому распределению.

Для конструирования процесса обучения, прежде всего, необходимо иметь модель внешней среды, в которой функционирует нейронная сеть - знать доступную для сети информацию. Эта модель определяет парадигму обучения. Во-вторых, необходимо понять, как (по какому алгоритму) модифицировать весовые параметры сети - какие правила обучения управляют процессом настройки. Алгоритм обучения означает процедуру, в которой используются правила обучения для настройки весов. Эффективность обучения многослойных нейронных сетей зависит от числа слоев, числа элементов в скрытых слоях нейронной сети и начальной инициализации весовых коэффициентов. Разная инициализация весовых коэффициентов нейронной сети может приводить к различным решениям задачи. Важную роль здесь играет размер случайно инициализируемых синаптических связей. Так, для сигмоидной функции активации нейронных элементов, если весовые коэффициенты будут иметь большие значения (положительные или отрицательные), то выходная активность нейронных элементов будет близка к единице или нулю. Это приведет к тому, что процесс обучения остановится в ближайшем, локальном минимуме от стартовой точки. Рекомендуется случайно выбирать значения весовых коэффициентов, которые имеют следующий порядок:

где -- число нейронных элементов в слое .

Другой способ - случайным образом инициализировать весовые коэффициенты в диапазоне [-0,05; 0,05] или [-0,1; 0,1]. При этом пороговые значения нейронных элементов устанавливаются в начальный момент времени в единичные значения.

Большую роль для эффективности обучения играет архитектура нейронной сети. Размерность входного и выходного слоев нейронной сети определяется из условия решаемой задачи или обучающей выборки. Как было доказано в [16], при помощи трехслойной нейронной сети можно аппроксимировать любую функцию со сколь угодно заданной точностью. При этом точность аппроксимации зависит от числа нейронов в скрытом слое. Чем больше число нейронных элементов в скрытом слое, тем больше точность. Однако при слишком большой размерности скрытого слоя может наступить явление, называемое перетренировкой сети, так как слишком большое число нейронов в скрытом слое ухудшает обобщающие способности нейронных сетей. Поэтому число нейронных элементов в скрытом слое должно быть меньше числа тренировочных образцов. С другой стороны, при слишком малой размерности скрытого слоя можно попасть в нежелательный локальный минимум или процесс обучения будет слишком длительным. Поэтому здесь необходим разумный компромисс.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9


ИНТЕРЕСНОЕ



© 2009 Все права защищены.