Reinforcement Learning
Industrial Applications of Intelligent Agents
Phil Winder, Ph.D.
Beijing • Boston • Farnham • Sebastopol • Tokyo
O’REILLY
Фил Уиндер
Обучение
с подкреплением
для реальных задач
Инженерный подход
Санкт-Петербург
«БХВ-Петербург»
2023
УДК 004.43
ББК 32.973.26-018.1
У37
У37
Уиндер Ф.
Обучение с подкреплением для реальных задач: Пер. с англ. — СПб.:
БХВ-Петербург, 2023. — 400 с.: ил.
ISBN 978-5-9775-6885-2
Книга посвящена промышленно-ориентированному применению обучения
с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промыш
ленные и научные системы решению любых пошаговых задач методом проб и
ошибок— без подготовки узкоспециализированных учебных множеств данных
и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские
процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисле
ние, методы устранения энтропии и многое другое. Данная книга — первая на рус
ском языке, где теоретический базис RL и алгоритмы даны в прикладном, отрасле
вом ключе.
Для аналитиков данных
и специалистов по искусственному интеллекту
УДК 004.43
ББК 32.973.26-018.1
Группа подготовки издания:
Руководитель проекта
Зав редакцией
Перевод с английского
Редактор
Компьютерная верстка
Оформление обложки
Олег Сивченко
Людмила Гаулъ
Екатерины Черских
Анна Кузьмина
Ольги Сергиенко
Зои Канторович
Отзывы.................................................................................................................................................. 15
Об авторе.............................................................................................................................................. 19
Предисловие....................................................................................................................................... 21
Цель.......................................................................................................................................................... 21
Кому следует прочитать эту книгу?................................................................................................... 22
Руководящие принципы и стиль.........................................................................................................22
Предварительная подготовка............................................................................................................... 24
Объем и план...........................................................................................................................................24
Дополнительные материалы................................................................................................................ 25
Условные обозначения, используемые в этой книге...................................................................... 26
Аббревиатуры................................................................................................................................... 26
Математические обозначения........................................................................................................27
Глава 1. Для чего нужно обучение с подкреплением?.................................................... 29
Почему сейчас?.......................................................................................................................................30
Машинное обучение.............................................................................................................................. 31
Обучение с подкреплением................................................................................................................. 32
Когда следует использовать обучение с подкреплением?...................................................... 33
Варианты применения обучения с подкреплением.................................................................. 35
Таксономия подходов обучения с подкреплением..........................................................................37
Без модели или на основе модели................................................................................................ 37
Как агенты используют и обновляют свою стратегию............................................................. 38
Дискретные или непрерывные действия.................................................................................... 39
Методы оптимизации..................................................................................................................... 39
Оценка и улучшение политики..................................................................................................... 40
Фундаментальные концепции обучения с подкреплением........................................................... 41
Первый RL-алгоритм...................................................................................................................... 41
Оценка ценности.................................................................................................................. 42
Ошибка предсказания..........................................................................................................43
Правило обновления веса.................................................................................................. 43
RL — это то же самое, что ML?................................................................................................... 44
Награда и
Последние комментарии
16 часов 13 минут назад
17 часов 8 минут назад
17 часов 11 минут назад
1 день 4 часов назад
1 день 4 часов назад
1 день 16 часов назад