Исследование возможности применения искусственных нейронных сетей для автоматического управления процессом металлизации
Недостатки экспертных систем
Интерфейс - большинство ЭС не вполне пригодны для применения конечным пользователем. Если вы не имеете некоторого опыта работы с такими системами, то у вас могут возникнуть серьезные трудности. Многие системы оказываются доступными только тем экспертам, которые создавали их базы знаний.
Быстродействие - вопросно-ответный режим, обычно принятый в таких системах, замедляет получение решений. Например, без экспертной системы врач может (а часто и должен) принять решение значительно быстрее, чем с ее помощью.
Здравый смысл - в дополнение к широкому техническому знанию, человек-эксперт имеет здравый смысл. Еще не известно, как заложить здравый смысл в экспертные системы;
Творческий потенциал - человек-эксперт может реагировать творчески на необычные ситуации, экспертные системы не могут;
Обучение - человек-эксперт автоматически адаптируется к изменению среды, экспертные системы нужно явно модифицировать. Нейронные сети - метод, который использует адаптацию и обучение.
Сенсорный Опыт - человек-эксперт располагает широким диапазоном сенсорного опыта, экспертные системы в настоящее время основаны на вводе символов;
Формализация - Все еще остается проблемой приведение знаний, полученных от эксперта, к виду, обеспечивающему их эффективную машинную реализацию.
Экспертные системы не эффективны, если решения не существует или когда проблема лежит вне области их компетенции. Системы, основанные на знаниях, также оказываются неэффективными при необходимости проведения скрупулезного анализа, когда число "решений" зависит от тысяч различных возможностей и многих переменных, которые изменяются во времени.
Критерий использования ЭС для решения задач
Существует ряд прикладных задач, которые решаются с помощью систем, основанных на знаниях, более успешно, чем любыми другими средствами. При определении целесообразности применения таких систем нужно руководствоваться следующими критериями.
Данные и знания надежны и не меняются со временем.
Пространство возможных решений относительно невелико.
В процессе решения задачи должны использоваться формальные рассуждения.
Должен быть, по крайней мере, один эксперт, который способен явно сформулировать свои знания и объяснить свои методы применения этих знаний для решения задач.
В таблице 3.1. приведены сравнительные свойства прикладных задач, по наличию которых можно судить о целесообразности использования для их решения ЭС [18].
Таблица 3.1 Критерий актуальности ЭС
Применимы
|
Не применимы
|
|
Не могут быть построены строгие алгоритмы или процедуры, но существуют эвристические методы решения.
|
Имеются эффективные алгоритмические методы.
|
|
Есть эксперты, которые способны решить задачу.
|
Отсутствуют эксперты или их число недостаточно.
|
|
По своему характеру задачи относятся к области диагностики, интерпретации или прогнозирования.
|
Задачи носят вычислительный характер.
|
|
Доступные данные "зашумлены".
|
Известны точные факты и строгие процедуры.
|
|
Задачи решаются методом формальных рассуждений.
|
Задачи решаются прецедурными методами, с помощью аналогии или интуитивно.
|
|
Знания статичны (неизменны).
|
Знания динамичны (меняются со временем).
|
|
|
В целом, ЭС не рекомендуется применять для решения следующих типов задач:
математических, решаемых обычным путем формальных преобразований и процедурного анализа;
задач распознавания, поскольку в общем случае они решаются численными методами;
задач, знания о методах решения которых отсутствуют (невозможно построить базу знаний).
Подобно другим видам компьютерных программ ЭС не могут заменить человека в решении задач, а скорее напоминают орудия труда, которые дают ему возможность решать задачи быстрее и эффективнее. Эти системы не заменяют специалиста, а являются инструментом в его руках.
Нечёткая логика
Для многих промышленных процессов сложно обеспечить точное управление. Они обычно являются многомерными, нелинейными и изменяющимися во времени. Управление на основе нечеткой логики может успешно применяться для таких процессов [3,11]. Кроме того, нечеткие контроллеры могут работать с не полностью описанными системами с неизвестной динамикой, так как для них (в отличие от многих традиционных адаптивных контроллеров) не требуется априорная математическая модель объекта управления. Еще одно преимущество нечетких контроллеров состоит в том, что они могут быть легко реализованы на цифровых или аналоговых СБИС, в которых информация может кодироваться по параллельно распределенной схеме.
Применение нечеткой логики для управления процессами в промышленности имеет ряд преимуществ по сравнению с использованием традиционных контроллеров. По-видимому, одно из основных преимуществ состоит в том, что нечетко-логический контроллер может разрабатываться по лингвистическим правилам, что тесно связано с искусственным интеллектом. Одна из целей искусственного интеллекта состоит в том, чтобы заменить человека машиной при выполнении точных операций. Нечеткий контроллер состоит из набора условных лингвистических операторов, или правил (называемых нечеткими ассоциативными матричными правилами, или НАМ-правилами), задающими конкретные ситуации управления. Эти условные лингвистические операторы могут быть легко получены из соображений здравого смысла или из технических сведений о процессе, которым требуется управлять.
Алгоритмы нечеткого управления, использующиеся в следующих случаях:
когда традиционные автоматические системы не справляются с управлением, а оператору в ручном режиме удается обеспечить заданное качество управления;
когда необходимо быстро провести наладку автоматической системы, при этом, с одной стороны, отсутствуют математические модели объекта управления, с другой стороны, имеется богатый опыт в виде знаний и навыков оператора по управлению в ручном режиме.
Показана схема построения нечеткой системы управления (НСУ). В ней можно выделить четыре блока. Основой для построения НСУ является схема управления объектом с участием (1) эксперта. Именно эксперт на основе собственных знаний об управлении объектом формирует (2) описание процесса управления. В этом случае описание задается в виде набора лингвистических правил и условий работы каждого лингвистического правила. Затем экспертное описание процесса управления преобразуется (3) в блок управления на основе нечетких экспертных знаний - НСУ. Это дает возможность исключить эксперта из схемы управления и в дальнейшем управление осуществляется (4) только на основе знаний эксперта об управлении, хранящихся в базе знаний НСУ.
На практике формирование базы знаний НСУ производит не сам эксперт, а инженер по знаниям во взаимодействии с экспертом.
Основные этапы построения систем интеллектуального управления на основе нечёткой логики следующие:
Определение входов и выходов создаваемой системы;
Задание для каждой из входных и выходных переменных функции принадлежности;
Разработка базы правил для реализуемой нечёткой системы;
Выбор и реализация алгоритма нечёткого логического вывода;
Анализ результатов работы созданной системы (проверка адекватности разработанной модели).
Составляющей частью НСУ является контроллер нечеткой логики - наиболее важное приложение теории нечетких множеств. Его функционирование отличается от работы обычных контроллеров тем, что для описания системы используются знания экспертов вместо дифференциальных уравнений. Эти знания могут быть выражены естественным образом с помощью лингвистических переменных, которые описываются нечеткими множествами.
Система управления на основе нечеткой логики состоит из набора НАМ-правил, задающих конкретные ситуации управления [3]. Во многих приложениях достаточно найти соотношение между ошибкой и скоростью изменения ошибки в процессе, чтобы изменить управляющее воздействие на величину, обеспечивающую удовлетворительное управление системой.
В этом отношении могут быть сформулированы простые лингвистические правила, основанные на наблюдениях или на простом изучении хода процесса. Приведем пример лингвистического правила на естественном языке, которое эксперт может использовать для описания действия системы управления:
Если ошибка является положительной, и большой, а скорость изменения ошибки -- отрицательная, и малая, то изменение на входе процесса -- положительное и большое.
В правиле использованы три переменных: ошибка (Е), скорость изменения ошибки (С) и изменение управляющего воздействия (U). Они задаются фиксированными универсальными множествами, определяющими диапазоны измерений величин, возможные в данной системе управления. В некоторых приложениях [33,34] в качестве посылки НАМ-правила, с целью улучшения характеристик системы, может быть добавлена еще какая-либо переменная, например, величина предыдущего управляющего воздействия, однако это приводит к усложнению в разработке системы управления.
Нейронные сети
В последнее время для целей управления все шире начинают применяться нейронные сети. Они строятся на основе биологических структур мозга и, благодаря способности к самоорганизации и обучению, имеют большие преимущества перед обычными ПИД и самонастраивающимися регуляторами [2,3,5,11,12,13,14,21,22].
Они показали свою эффективность для решения задач распознавания образов. Нейронные сети способны обучаться на основе соотношений "вход-выход", поэтому они могут обеспечить более простые решения для сложных задач управления [2,3,6]. Кроме того, нейроны -- это нелинейные элементы; следовательно, нейронные сети в своей основе являются нелинейными системами, пригодными для решения задач управления, принципиально связанных с наличием нелинейных характеристик. Традиционные методы управления не обеспечивают решения подобных задач. Таким образом, в последнее время интеллектуальное управление стало достаточно подходящим для решения реальных задач [2,14,21,22].
Вот основные причины, по которым нейронные сети в последние годы нашли широкое применение как в нейроуправлении, так и во многих других задачах науки и техники [3]:
нейронные сети - наилучший из возможных способ аппроксимации и экстраполяции функций. Это справедливо при наличии в процессе обучения нейронных сетей достаточно большого объема обучающей информации, а также грамотного синтеза многослойной нейронной сети, решающей задачу;
наличие множественных нелинейных функций активации в многослойной нейронной сети обеспечивает эффективную реализацию достаточно гибких нелинейных преобразований. Это важно для решения задач с существенными нелинейностями, для которых традиционные подходы пока не дают практически реализуемых решений;
необходимым условием применения традиционных методов оптимального адаптивного управления является наличие большого объема априорной информации об объекте управления, например, данных математического моделирования. Благодаря способности нейронных сетей к обучению и самообучению для нейроконтроллеров такой объем информации не требуется. В связи с этим можно полагать, что нейроконтроллеры пригодны для управления в условиях существенных неопределенностей;
высокая параллельность нейронных сетей является предпосылкой эффективной реализации аппаратной и программно-аппаратной поддержки нейросетевых контроллеров в контуре управления;
многократно отмечаемое в литературе по нейронным сетям, но пока недостаточно исследованное свойство нейронных сетей монотонно (а не катастрофически) уменьшать качество работы при увеличении числа вышедших из строя элементов, а также отсутствие изменения качества работы при значительных изменениях параметров схем, реализующих элементы.
3.4 АНАЛИЗ
До 1998 г. система автоматики металлизации была оснащена зарубежной аппаратурой. В частности, для управления технологическим процессом, системой сигнализации и блокировок на базовом уровне использовали контроллеры SIMATIC S3, для системы измерений, индикации и контроля использовали мнемосхему процесса, систему самописцев, индикаторов и узкопрофильных приборов, на которые выводилась необходимая информация.
На данный момент внедряется стандарт открытых систем - поэтапная программа модернизации системы контроля и блокировок на шахтной печи на базе универсальных программируемых промышленных контроллеров фирмы "ЭМИКОН" серии ЭК-2000. Это делает предприятие независимым от одного поставщика АСУТП. Появляется возможность создать информационную связь с АСУП в режиме реального времени. В конечном счёте это означает существенное снижение как прямых, так и косвенных затрат на производство. Данная модернизация явилась следствием следующих факторов:
моральный и физический износ оборудования КИПиА и автоматизации;
дороговизна запасных частей и комплектующих (для самописцев);
невозможность подключения компьютера к контроллерам типа SIMATIC S3, а современные контроллеры независимо от их типа обеспечивают свободный выбор при внедрении или модернизации системы;
одним из важнейших факторов был временной, так как ни одна фирма не могла предложить замену (модернизацию) оборудования в сроки капитального ремонта.
Но вопрос по созданию автоматической системы управления процессом металлизации пока остаётся открытым. Это, в первую очередь, связано с рядом проблем:
практически невозможна формализация процесса, в связи с чем возникают серьёзные затруднения с построением математической модели. Причём, даже если удастся создать такую модель, вопрос о её практической пригодности и полезности вряд ли можно экономически выгодно разрешить. Созданная модель оказалась бы громоздкой, так как должна описывать не только физику технологического процесса, но и учитывать взаимосвязи и возмущения, а это не позволит ей работать в режиме реального времени.
модель и её параметры динамически меняются и из-за неформализованности процесса невозможно спрогнозировать его ход.
отсутствие во многих традиционных системах управления (в том числе и в системах с самонастройкой) способностей к обучению и дообучению (эти функции в полной мере присущи искусственному интеллекту).
Разрешить названные проблемы очень трудно, используя только стандартные методы автоматизации.
Из вышесказанного понятно, что использование для автоматизации традиционных подходов практически невозможно, так как отсутствуют данные математического моделирования, а процесс по своей природе нелинеен и подвержен влиянию шумов. В связи с этим, надо искать альтернативные методы автоматизации, которые должны обладать вышеуказанными свойствами. Описанные ранее методы ИИ обладают этими свойствами.
3.5 ВЫВОДЫ
Для решения подобных задач необходима либо постоянная работа группы квалифицированных экспертов, либо адаптивные системы автоматизации, каковыми являются нейронные сети. Если создание экспертных систем может выполняться как на базе самоадаптирующихся систем, так и с использованием классических алгоритмов, то задачи управления агрегатами находятся целиком в компетенции систем с самостоятельной адаптацией.
В данной дипломной работе предложен метод автоматизации процесса металлизации на базе адаптивного нейросетевого подхода.
4. НЕЙРОННЫЕ СЕТИ
4.1 ЭЛЕМЕНТЫ НЕЙРОННЫХ СЕТЕЙ
4.1.1 Понятие нейрона
Основной элемент нейронной сети - это формальный нейрон, осуществляющий операцию нелинейного преобразования суммы произведений входных сигналов на весовые коэффициенты:
где X=(x1, x2, …, xn)T - вектор входного сигнала; W=(w1, w2, …, wn) - весовой вектор; F - оператор нелинейного преобразования.
На рис. 4.1 представлена схема персептронного нейронного элемента, состоящая из сумматора и блока нелинейного преобразования F. Каждому i-му входу нейрона соответствует весовой коэффициент wi (синапс), характеризующий силу синаптической связи по аналогии с биологическим нейроном. Сумма произведений входных сигналов на весовые коэффициенты называется взвешенной суммой. Она представляет собой скалярное произведение вектора весов на входной вектор:
где |W|, |X| - соответственно длины векторов W и X; = W, X - угол между векторами W и X.
Длины весового и входного векторов определяются через их координаты:
Так как для нейронного элемента длина весового вектора после обучения |W|=const, то величина взвешенной суммы определяется проекцией входного вектора на весовой вектор:
где ХW - проекция вектора Х на вектор W.
Если входные векторы нормированы, т.е. |X|=const, то величина взвешенной суммы будет зависеть только от угла между векторами Х и W. Тогда при различных входных сигналах взвешенная сумма будет изменяться по косинусоидальному закону. Максимального значения она будет достигать при коллинеарности входного и весового векторов.
Если сила связи wi отрицательная, то такая связь называется тормозящей. В противном случае синаптическая связь является усиливающей.
Оператор нелинейного преобразования называется функцией активации нейронного элемента, вектор входного сигнала - паттерном входной активности нейронной сети, а вектор выходного сигнала - паттерном выходной активности.
4.1.2 Функции активации нейронов
В качестве оператора нелинейного преобразования могут использоваться различные функции, которые определяются в соответствии с решаемой задачей и типом нейронной сети. Пусть Т - порог нейронного элемента, который характеризует расположение функции активации по оси абсцисс. Представим взвешенную сумму как:
Рассмотрим наиболее распространенные функции активации нейронных элементов (Табл. 4.1).
Пороговая
В качестве пороговой функции активации может использоваться биполярная или бинарная функция. Пороговая бинарная функция активации может принимать значения 0 или 1. В случае использования пороговой биполярной функции активации -1 или 1.
Линейная функция
В этом случае выходное значение нейронного элемента равняется взвешенной сумме у = kS, где k -- коэффициент наклона прямой.
Изменение порога линейного элемента эквивалентно сдвигу функции активации по оси абсцисс.
Таблица 4.1. Перечень функций активации нейронов
Наименование функции
|
Функция
|
Область значений
|
|
Пороговая бинарная
|
|
0, 1
|
|
Пороговая биполярная
(сигнатурная)
|
|
-1, 1
|
|
Сигмоидная
(логистическая)
|
|
[0, 1]
|
|
Полулинейная
|
|
|
|
Линейная
|
f(S) = kS
|
|
|
Радиальная базисная
(Гауссова)
|
|
(0, 1)
|
|
Полулинейная
с насыщением
|
|
(0, 1)
|
|
Линейная ограниченная
(с насыщением)
|
|
(-1,1)
|
|
Гиперболический
Тангенс
|
|
(-1,1)
|
|
Модифицированная
Пороговая
|
|
-1, 1
|
|
Биполярная сигмоидная
|
|
[-1,1]
|
|
Треугольная
|
|
(0, 1)
|
|
|
Сигмоидная функция
Эта функция является непрерывной, возрастающей функцией в диапазоне значений [0, 1]. Коэффициент ''c'' характеризует ширину сигмоидной функции по оси абсцисс. Сигмоидная функция является монотонной и всюду дифференцируемой. Поэтому она получила широкое распространение в искусственных нейронных сетях.
Модифицированная пороговая функция
Такая функция используется в двунаправленной ассоциативной памяти.
Гиперболический тангенс
Функция гиперболического тангенса аналогична биполярной сигмоидной функции. Коэффициент ''c'', как и в случае с сигмоидной функцией, характеризует ширину функции "гиперболический тангенс" по оси абсцисс.
Радиально-базисная функция
Она характеризуется функцией Гаусса для нормального закона распределения. Среднеквадратичное отклонение характеризует ширину радиально-базисной функции.
Величина S в данном случае будет определяться в соответствии с евклидовым расстоянием между входным и весовым векторами:
Применение различных функций активации определяется классом решаемых нейронной сетью задач. Помимо перечисленных могут применяться и другие функции активации нейронных элементов, которые адекватно отражают решаемую задачу.
4.2 СТРУКТУРА НЕЙРОННЫХ СЕТЕЙ
4.2.1 Основные понятия
Нейронные сети образуются путем соединения нейронов по определенным правилам. Схема соединения нейронов называется структурой (в совокупности с методом обучения - парадигмой) нейронной сети. В общем случае для решения задачи можно использовать нейронную сеть любой структуры. Но на практике было определено, что для наилучшего решения определенных задач подходят только некоторые из структур. Поэтому одной из задач, решаемых в данной работе, является выбор структуры нейронной сети.
Все разнообразие структур нейронных сетей принято делить на прямоточные (сети с прямыми связями), сети с обратными связями (рекуррентные, самоорганизующиеся) и гибридные сети. В прямоточных сетях нейроны не связаны обратными связями, т.е. в таких сетях не образуется петель и информация передаётся в одном направлении. К таким сетям относятся сети персептронного типа (простой персептрон, многослойный персептрон). В многослойных сетях с обратным распространением информации, нейроны связаны не только прямыми, но и обратными связями, т.е. в структуре таких сетей образуются петли. К таким сетям относятся, например, рекуррентные, рециркуляционные и сети Кохонена. В прямоточных и рекуррентных сетях структура сети не изменяется при обучении и эксплуатации сети. В самоорганизующихся сетях при обучении могут изменяться не только веса синаптических связей, но и структура сети, количество нейронов в отдельном слое и даже количество слоев в сети. Гибридные сети представляют собой объединение различного рода структур и концепций обучения сетей.
4.2.2 Сети прямого распространения информации
Однослойные сети
Рассмотрим нейронные сети, состоящие из одного слоя нейронных элементов, который осуществляет обработку входной информации.
Такие сети принято изображать в виде двухслойной нейронной сети, где первый слой нейронных элементов является распределительным, а второй обрабатывающим. Распределительный слой передает входные сигналы на обрабатывающий слой нейронных элементов, который преобразует входную информацию в соответствии с синаптическими связями и функцией активации (рис. 5.3). При этом каждый нейрон распределительного слоя имеет синаптические связи со всеми нейронами обрабатывающего слоя.
Тогда выходное значение j-го нейронного элемента второго слоя можно представить как:
где Tj - порог j-го нейронного элемента выходного слоя; wij - сила синаптической связи между i-м нейроном распределительного слоя и j-м нейроном обрабатывающего слоя.
Совокупность весовых коэффициентов сети можно представить в виде матрицы размерностью п х т:
Тогда вектор-столбец взвешенной суммы в матричном виде определяется следующим образом:\
где T - вектор-столбец порогов нейронных элементов второго слоя.
Однослойный персептрон
Данную структуру предложил американский ученый Ф. Розенблатт в 1959 г. для нейронной сети, которую он назвал персептроном. Персептрон - это сеть, состоящая из S, А и R нейронных элементов (рис. 5.4). Нейроны слоя S называются сенсорными и предназначены для формирования входных сигналов в результате внешних воздействий. Нейроны слоя А называются ассоциативными и предназначены для непосредственной обработки входной информации. Нейроны слоя R называются эффекторными. Они служат для передачи сигналов возбуждения к соответствующему объекту. В сетях персептронного типа нейрон одного слоя связан со всеми нейронам другого слоя и не связан с нейронами своего собственного слоя. Простой персептрон состоит всего из двух слоев - входного и выходного. На входной слой подаются независимые и зависимые переменные. Нейроны входного слоя обрабатывают поступившую информацию и передают ее нейронам выходного слоя. Нейроны выходного слоя, в свою очередь, обрабатывают поступившую информацию и выдают ее на выход сети.
Многослойные сети
Многослойная нейронная сеть способна осуществлять любое отображение входных векторов в выходные. Архитектура такой сети состоит из множества слоев нейронных элементов.
Входной слой (input layer) нейронных элементов выполняет распределительные функции. Выходной слой (output layer) нейронов служит для обработки информации от предыдущих слоев и выдачи результатов. Слои нейронных элементов, расположенные между входным и выходным слоями, называются промежуточными или скрытыми (hidden layers). Как и выходной слой, скрытые слои являются обрабатывающими. Выход каждого нейронного элемента предыдущего слоя нейронной сети соединен синаптическими связями со всеми входами нейронных элементов следующего слоя. Таким образом, топология многослойной нейронной сети является однородной и регулярной (рис. 5.5).
В качестве функции активации нейронных элементов обычно используется гиперболический тангенс или сигмоидная функция.
Многослойный персептрон
В многослойном персептроне помимо входного и выходного слоев добавляются скрытые слои. Они представляют собой нейроны, которые не имеют непосредственных входов исходных данных, а связаны только с выходами входного слоя и с входом выходного слоя. Таким образом, скрытые слои дополнительно преобразуют информацию и добавляют нелинейности в модели (рис. 5.5).
Простой персептрон хорошо справляется с задачами классификации. Каждому выходу нейронной сети сопоставляется определенный класс входного набора данных. Обученная нейронная сеть анализирует полученную информацию и активизирует только один выход - тот, который соответствует классу входного набора. Простой персептрон не способен решать большинство других практических задач. Многослойный персептрон с сигмоидной функцией активации нейронов способен аппроксимировать любую функциональную зависимость и, таким образом, способен решать большой круг самых разнообразных задач. Но при этом заранее не известно ни нужное число слоев сети, ни нужное количество скрытых нейронов, ни необходимое для обучения сети время. В большинстве случаев эти задачи решаются при конструировании сети эмпирическим путем.
4.2.3 Сети обратного распространения информации
4.2.3.1 Многослойные сети
Рекуррентные (Recurrent networks), рециркуляционные (Recirculation networks) и релаксационные нейронные сети характеризуются как прямым (feed forward), так и обратным (feed back) распространением информации. При этом обратное распространение информации осуществляется по-разному для таких нейронных сетей. В рециркуляционных нейронных сетях распространение информации происходит по двунаправленным связям, которые имеют в различных направлениях разные весовые коэффициенты. При обратном распространении сигналов в таких сетях осуществляется их преобразование с целью восстановления входного образа. При прямом распространении сигналов происходит сжатие входных данных. В результате осуществляется рециркуляция информации. Обучение рециркуляционных нейронных сетей производится без учителя. Рекуррентные нейронные сети характеризуются обучением с учителем и обратными связями, по которым передаются результаты обработки сетью данных на предыдущем этапе. В результате этого входом рекуррентной нейронной сети в каждый фиксированный момент времени является вектор входных данных и результаты обработки информации сетью на предыдущем этапе. Обучение таких сетей базируется на алгоритме обратного распространения ошибки. Это дало повод, несмотря на различия между рекуррентными и рециркуляционными нейронными сетями, отнести их к одному классу.
Рекуррентные сети
Рекуррентными нейронными сетями называются такие сети, в которых выходы нейронных элементов последующих слоев имеют синаптические соединения с нейронами предшествующих слоев. Это приводит к возможности учета результатов преобразования нейронной сетью информации на предыдущем этапе для обработки входного вектора на следующем этапе функционирования сети. Рекуррентные сети могут использоваться для решения задач прогнозирования и управления. Существуют различные варианты архитектур рекуррентных нейронных сетей. В 1986 г. Джордан (Jordan) предложил рекуррентную сеть (рис. 5.6), в которой выходы нейронных элементов последнего слоя соединены посредством специальных входных нейронов с нейронами промежуточного слоя. Такие входные нейронные элементы называются контекстными нейронами (context units). Они распределяют выходные данные нейронной сети на нейронные элементы промежуточного слоя.
Число контекстных нейронов равняется числу выходных нейронных элементов рекуррентной сети. В качестве выходного слоя таких сетей используются нейронные элементы с линейной функцией активации. Тогда выходное значение j-го нейронного элемента последнего слоя определяется по формуле:
где vij - весовой коэффициент между i-м нейроном промежуточного и j-м нейроном выходного слоев; pi(t) - выходное значение i-го нейрона промежуточного слоя; Tj - пороговое значение j-го нейрона выходного слоя.
Взвешенная сумма i-ro нейронного элемента промежуточного слоя определяется следующим образом:
где wji - весовой коэффициент между j-м нейроном входного и i-м нейроном промежуточного слоев;
р - число нейронов выходного слоя; wki - весовой коэффициент между k-м контекстным нейроном и i-м нейроном промежуточного слоя;
Тj - пороговое значение i-го нейрона промежуточного слоя;
n - размерность входного вектора.
Тогда выходное значение i-го нейрона скрытого слоя:
pi(t)=F(Si(t)) (5.2.1.)
В качестве функции нелинейного преобразования F обычно используется гиперболический тангенс или сигмоидная функция.
Другой вариант рекуррентной нейронной сети предложил Элман (Elman) в 1990 году.
В такой сети выходы нейронных элементов промежуточного слоя соединяются с контекстными нейронами входного слоя.
Тогда взвешенная сумма i-го нейронного элемента промежуточного слоя:
где т - число нейронов промежуточного слоя; pk(t-1) - выходное значение k-го нейрона промежуточного слоя.
Выходное значение k-го нейрона промежуточного слоя определяется следующим образом:
pk(t-1)=F(Si(t-1))(5.2.3.)
Для построения рекуррентных нейронных сетей можно использовать также два приведенных выше подхода.
В этом случае существуют обратные связи к контекстным нейронам, как от нейронных элементов выходного, так и промежуточного слоев.
Число контекстных нейронов входного слоя равняется общему числу нейронов промежуточного и выходного слоев. Тогда:
где p - число нейронов выходного слоя.
Рециркуляционные нейронные сети
Рециркуляционные сети характеризуются как прямым У = f (X), так и обратным Х = f (У) преобразованием информации. Задача такого преобразования - достижение наилучшего автопрогноза или самовоспроизводимости вектора Х. Рециркуляционные нейронные сети применяются для сжатия (прямое преобразование) и восстановления исходной (обратное преобразование) информации. Такие сети являются самоорганизующимися в процессе работы, где обучение производится без учителя. Они были предложены в 1988 г. Теоретической основой рециркуляционных нейронных сетей служит анализ главных компонент (principal component analysis). Этот метод применяется в статистике для сжатия информации без существенных потерь её информативности. Он состоит в линейном ортогональном преобразовании входного вектора X размерности n в выходной вектор Y размерности p, где p < n. При этом компоненты вектора Y являются некоррелированными ,и общая дисперсия после преобразования остаётся неизменной.
Рециркуляционная нейронная сеть представляет собой совокупность двух слоев нейронных элементов, которые соединены между собой двунаправленными связями (рис. 5.8).
Каждый из слоев нейронных элементов может использоваться в качестве входного или выходного. Если слой нейронных элементов служит в качестве входного, то он выполняет распределительные функции.
В противном случае нейронные элементы слоя являются обрабатывающими. Весовые коэффициенты, соответствующие прямым и обратным связям, характеризуются матрицей весовых коэффициентов W и W'. Для наглядности рециркуляционную сеть можно представить в развернутом виде, как показано на рис. 5.9.
Такое представление сети является эквивалентным и характеризует полный цикл преобразования информации. При этом промежуточный слой нейронных элементов производит кодирование (сжатие) входных данных X, а последний слой - восстановление сжатой информации Y. Слой нейронной сети, соответствующий матрице связи W, назовем прямым, а соответствующий матрице связей W' - обратным.
Рециркуляционная сеть предназначена для сжатия данных и восстановления сжатой информации. Сжатие данных осуществляется при прямом преобразовании информации в соответствии с выражением
Y=F(WTX) (5.2.5.)
Восстановление или реконструкция данных происходит при обратном преобразовании информации:
X=F(W'Y) (5.2.6.)
В качестве функции активации нейронных элементов F может использоваться как линейная, так и нелинейная функции. При использовании линейной функции активации.Релаксационные нейронные сети
Релаксационные нейронные сети характеризуются прямым и обратным распространением информации между слоями сети. В основе функционирования таких сетей лежит итеративный принцип работы. Он заключается в том, что на каждой итерации происходит обработка данных, полученных на предыдущем шаге. Такая циркуляция происходит до тех пор, пока не установится состояние равновесия. При этом состояния нейронных элементов перестают изменяться и характеризуются стационарными значениями. Для анализа устойчивости релаксационных нейронных сетей используются функции Ляпунова. Такие сети применяются в качестве ассоциативной памяти и для решения комбинаторных задач оптимизации. К релаксационным относятся нейронные сети Хопфилда, Хемминга, двунаправленная ассоциативная память и машина Больцмана.
В 1982 г. американский биофизик Д. Хопфилд (Hopfield) представил математический анализ релаксационных сетей с обратными связями. В основе анализа лежит теория изинговых спинов, которая используется для изучения ферромагнетиков при низких температурах. Поэтому такие нейронные сети получили название сетей Хопфилда.
Нейронная сеть Хопфилда характеризуется обратными связями. В ней каждый нейрон имеет синаптические связи со всеми остальными нейронами сети.
Архитектуру такой сети представим в виде двух слоёв нейронных элементов (рис. 5.10).
При этом первый слой является распределительным, а второй слой нейронных элементов осуществляет нелинейное преобразование взвешенной суммы:
где yi(t+1) - выходное значение i-го нейронного элемента в момент времени t+1; F - оператор нелинейного преобразования; Ti - пороговое значение i-го нейрона.
В матричной форме модель Хопфилда можно представить как:
Y(t+1)=F (S(t)); S(t)=WTY(t)-T (5.2.8.)
При этом используемые векторы имеют вид:
S=[S1, S2,…,Sn]T; Y=[y1, y2,…,yn]T; T=[T1, T2,…,Tn]T;
(5.2.9.)
В качестве матрицы весовых коэффициентов Хопфилд использовал симметричную матрицу (wij=wji) с нулевой главной диагональю (wii=0). Последнее условие соответствует отсутствию обратной связи нейронного элемента на себя. В качестве функции активации нейронных элементов F может служит как пороговая, и непрерывная функции, например сигмоидная или гиперболический тангенс.
Сеть Хопфилда может использоваться в качестве ассоциативной памяти. В этом случая она способна распознавать зашумлённые или искажённые образы. Для обучения нейронной сети Хопфилда используется правило Хебба.
Страницы: 1, 2, 3, 4, 5
|