Выберите регион

Фраза дня: рекуррентные нейронные сети

Что такое рекуррентные нейронные сети?
Рекуррентная нейронная сеть - это тип искусственной нейронной сети, обычно используемый для распознавания речи и обработки естественного языка. Рекуррентные нейронные сети распознают последовательные характеристики данных и используют шаблоны для прогнозирования следующего вероятного сценария.

РНС используются в глубоком обучении и при разработке моделей, имитирующих активность нейронов в человеческом мозгу. Они особенно эффективны в тех случаях, когда контекст имеет решающее значение для прогнозирования результата, а также отличаются от других типов искусственных нейронных сетей, поскольку они используют петли обратной связи для обработки последовательности данных, которые информируют конечный результат. Эти петли обратной связи позволяют информации сохраняться. Этот эффект часто называют памятью.

Сценарии использования РНС, как правило, связаны с языковыми моделями, в которых знание следующей буквы в слове или следующего слова в предложении основывается на данных, которые идут перед ним. Убедительный эксперимент включает в себя РНС, обученный произведениям Шекспира, чтобы успешно создавать шекспировскую прозу. Написание РНС - это форма вычислительного творчества. Это моделирование человеческого творчества стало возможным благодаря пониманию ИИ грамматики и семантики, полученным из его обучающего набора.

Как обучаются рекуррентные нейронные сети
Искусственные нейронные сети создаются из взаимосвязанных компонентов обработки данных, которые в общих чертах устроены так, чтобы функционировать подобно человеческому мозгу. Они состоят из слоев искусственных нейронов - сетевых узлов, которые могут обрабатывать ввод и пересылать вывод другим узлам сети. Узлы соединены ребрами или весами, которые влияют на мощность сигнала и конечный выход сети.

В некоторых случаях искусственные нейронные сети обрабатывают информацию в одном направлении от ввода до вывода. Эти нейронные сети с прямой связью включают сверточные нейронные сети, которые лежат в основе систем распознавания изображений. С другой стороны, РНС могут быть многоуровневыми для обработки информации в двух направлениях.

Подобно нейронным сетям с прямой связью, РНС могут обрабатывать данные от начального ввода до конечного вывода. В отличие от нейронных сетей с прямой связью, РНС используют петли обратной связи, такие как обратное распространение во времени, на протяжении всего вычислительного процесса для передачи информации обратно в сеть. Это связывает входы и позволяет РНС обрабатывать последовательные и временные данные.

Нейронная сеть с усеченным обратным распространением во времени - это РНС, в которой количество временных шагов во входной последовательности ограничено усечением входной последовательности. Это полезно для рекуррентных нейронных сетей, которые используются в качестве моделей от последовательности к последовательности, где количество шагов во входной последовательности (или количество временных шагов во входной последовательности) больше, чем количество шагов в выходной последовательности. .

Двунаправленные рекуррентные нейронные сети
Двунаправленные рекуррентные нейронные сети (БРНС) - это еще один тип РНС, которые одновременно изучают прямое и обратное направления информационного потока. Это отличается от стандартных РНС, которые изучают информацию только в одном направлении. Процесс изучения обоих направлений одновременно известен как двунаправленный информационный поток.

В типичной искусственной нейронной сети прямые проекции используются для предсказания будущего, а обратные проекции используются для оценки прошлого. Однако они не используются вместе, как в БРНС.

Проблемы РНС и способы их решения
Наиболее частые проблемы с РНС - это проблемы исчезновения градиента и взрыва. Градиенты относятся к ошибкам, допущенным при обучении нейронной сети. Если градиенты начнут взрываться, нейронная сеть станет нестабильной и не сможет учиться на обучающих данных.

Единицы долговременной кратковременной памяти
Одним из недостатков стандартных РНС является проблема исчезающего градиента, при которой производительность нейронной сети страдает из-за того, что ее нельзя обучить должным образом. Это происходит с многоуровневыми нейронными сетями, которые используются для обработки сложных данных.

Стандартные РНС, использующие метод обучения на основе градиента, ухудшаются по мере того, как они становятся больше и сложнее. Эффективная настройка параметров на самых ранних уровнях становится слишком трудоемкой и дорогостоящей с точки зрения вычислений.

Одно из решений проблемы - это сети долгой краткосрочной памяти (СДКП), которые компьютерные ученые Зепп Хохрайтер и Юрген Шмидхубер изобрели в 1997 году. РНС, построенные с помощью модулей СДКП, распределяют данные по ячейкам краткосрочной и долгосрочной памяти. Это позволяет РНС определять, какие данные важны и должны быть запомнены и возвращены в сеть. Это также позволяет РНС выяснить, какие данные можно забыть.

Закрытые рекуррентные блоки
Стробированные повторяющиеся блоки (ЗРБ) представляют собой форму повторяющихся блоков нейронных сетей, которые можно использовать для моделирования последовательных данных. Хотя сети СДКП также можно использовать для моделирования последовательных данных, они слабее стандартных сетей с прямой связью. Используя вместе СДКП и ЗРБ, сети могут использовать сильные стороны обоих подразделений - способность изучать долгосрочные ассоциации для LSTM и способность учиться на краткосрочных шаблонах для ЗРБ.

Многослойные персептроны и сверточные нейронные сети
Два других типа классов искусственных нейронных сетей включают многослойные персептроны (MLP) и сверточные нейронные сети.

MLP состоят из нескольких нейронов, расположенных слоями, и часто используются для классификации и регрессии. Персептрон - это алгоритм, который может научиться выполнять задачу двоичной классификации. Один перцептрон не может изменять свою собственную структуру, поэтому они часто складываются вместе в слои, где один слой учится распознавать более мелкие и более специфические особенности набора данных.

Нейроны в разных слоях связаны друг с другом. Например, выход первого нейрона соединен со входом второго нейрона, который действует как фильтр. MLP используются для контроля обучения и для таких приложений, как оптическое распознавание символов, распознавание речи и машинный перевод.

Сверточные нейронные сети, также известные как CNN, представляют собой семейство нейронных сетей, используемых в компьютерном зрении. Термин «сверточный» относится к свертке - процессу объединения результата функции с процессом его вычисления / вычисления - входного изображения с фильтрами в сети. Идея состоит в том, чтобы извлечь из изображения свойства или особенности. Эти свойства затем можно использовать для таких приложений, как распознавание или обнаружение объектов.

CNN создаются в процессе обучения, что является ключевым отличием CNN от других типов нейронных сетей. CNN состоит из нескольких слоев нейронов, и каждый слой нейронов отвечает за одну конкретную задачу. Первый слой нейронов может отвечать за идентификацию общих характеристик изображения, таких как его содержимое (например, собака). Следующий слой нейронов может идентифицировать более специфические особенности (например, породу собаки).