Грессер Лаура, Кенг Ван Лун
Г91 Глубокое обучение с подкреплением: теория и практика на языке Python. — СПб.:
Питер, 2022. — 416 с.: ил. — (Серия «Библиотека программиста»).
ISBN 978-5-4461-1699-7
16+
Глубокое обучение с подкреплением (глубокое RL) сочетает в себе два подхода к машинному
обучению. В ходе такого обучения виртуальные агенты учатся решать последовательные задачи
о принятии решений. За последнее десятилетие было много неординарных достижений в этой области — от однопользовательских и многопользовательских игр, таких как го и видеоигры Atari
и Dota 2, до робототехники.
Эта книга — введение в глубокое обучение с подкреплением, уникально комбинирующее теорию
и практику. Авторы начинают повествование с базовых сведений, затем подробно объясняют теорию
алгоритмов глубокого RL, демонстрируют их реализации на примере программной библиотеки SLM
Lab и напоследок описывают практические аспекты использования глубокого RL.
Руководство идеально подойдет как для студентов, изучающих компьютерные науки, так и для
разработчиков программного обеспечения, которые знакомы с основными принципами машинного
обучения и знают Python.
(В соответствии с Федеральным законом от 29 декабря 2010 г. № 436-ФЗ.)
ББК 32.813 + 32.973.23-018
УДК 004.89
Права на издание получены по соглашению с Pearson Education Inc. Все права защищены. Никакая часть данной
книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев
авторских прав.
Информация, содержащаяся в данной книге, получена из источников, рассматриваемых издательством как надежные. Тем не менее, имея в виду возможные человеческие или технические ошибки, издательство не может
гарантировать абсолютную точность и полноту приводимых сведений и не несет ответственности за возможные
ошибки, связанные с использованием книги. Издательство не несет ответственности за доступность материалов,
ссылки на которые вы можете найти в этой книге. На момент подготовки книги к изданию все ссылки на интернетресурсы были действующими.
Предисловие........................................................................................................................................... 16
Введение................................................................................................................................................... 18
Благодарности........................................................................................................................................ 22
Об авторах............................................................................................................................................... 23
От издательства..................................................................................................................................... 24
Глава 1. Введение в обучение с подкреплением........................................................................ 25
Часть I. Алгоритмы, основанные
на стратегиях и полезностях
Глава 2. REINFORCE......................................................................................................................... 52
Глава 3. SARSA..................................................................................................................................... 81
Глава 4. Глубокие Q-сети.................................................................................................................112
Глава 5. Улучшение DQN................................................................................................................136
Часть II. Комбинированные методы
Глава 6. Метод актора-критика с преимуществом (А2С)....................................................168
Глава 7. Оптимизация ближайшей стратегии..........................................................................198
Глава 8. Методы параллелизации.................................................................................................228
Глава 9. Сравнительный анализ алгоритмов............................................................................239
6 Краткое содержание
Часть III. Практика
Глава 10. Начало работы с глубоким RL....................................................................................242
Глава 11. SLM Lab..............................................................................................................................274
Глава 12. Архитектура сетей...........................................................................................................286
Глава 13. Аппаратное обеспечение...............................................................................................311
Часть IV. Проектирование сред
Глава 14. Состояния..........................................................................................................................328
Глава 15. Действия.............................................................................................................................358
Глава 16. Вознаграждения...............................................................................................................374
Глава 17. Функция переходов........................................................................................................383
Заключение...........................................................................................................................................389
Приложения
Приложение А. История глубокого обучения с подкреплением......................................394
Приложение Б. Примеры сред......................................................................................................397
Список используемых
Последние комментарии
5 часов 22 минут назад
9 часов 10 минут назад
9 часов 28 минут назад
9 часов 34 минут назад
9 часов 49 минут назад
11 часов 22 минут назад