Глубокое обучение с подкреплением. Теория и практика на языке Python [Лаура Грессер] (pdf) читать постранично

-  Глубокое обучение с подкреплением. Теория и практика на языке Python  (и.с. Библиотека программиста) 9.96 Мб, 416с. скачать: (pdf) - (pdf+fbd)  читать: (полностью) - (постранично) - Лаура Грессер - Ван Лун Кенг

Книга в формате pdf! Изображения и текст могут не отображаться!


 [Настройки текста]  [Cбросить фильтры]

Л АУРА Г РЕССЕР , В АН Л УН К ЕНГ

Глубокое
обучение
с подкреплением
Т ЕОРИЯ

И ПРАК ТИКА
НА ЯЗЫКЕ P Y THON

2022

ББК 32.813 + 32.973.23-018
УДК 004.89
Г91

Грессер Лаура, Кенг Ван Лун
Г91 Глубокое обучение с подкреплением: теория и практика на языке Python. — СПб.:
Питер, 2022. — 416 с.: ил. — (Серия «Библиотека программиста»).
ISBN 978-5-4461-1699-7

16+

Глубокое обучение с подкреплением (глубокое RL) сочетает в себе два подхода к машинному
обу­чению. В ходе такого обучения виртуальные агенты учатся решать последовательные задачи
о принятии решений. За последнее десятилетие было много неординарных достижений в этой области — от однопользовательских и многопользовательских игр, таких как го и видеоигры Atari
и Dota 2, до робототехники.
Эта книга — введение в глубокое обучение с подкреплением, уникально комбинирующее теорию
и практику. Авторы начинают повествование с базовых сведений, затем подробно объясняют теорию
алгоритмов глубокого RL, демонстрируют их реализации на примере программной библиотеки SLM
Lab и напоследок описывают практические аспекты использования глубокого RL.
Руководство идеально подойдет как для студентов, изучающих компьютерные науки, так и для
разработчиков программного обеспечения, которые знакомы с основными принципами машинного
обучения и знают Python.
(В соответствии с Федеральным законом от 29 декабря 2010 г. № 436-ФЗ.)

ББК 32.813 + 32.973.23-018
УДК 004.89

Права на издание получены по соглашению с Pearson Education Inc. Все права защищены. Никакая часть данной
книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев
авторских прав.
Информация, содержащаяся в данной книге, получена из источников, рассматриваемых издательством как надежные. Тем не менее, имея в виду возможные человеческие или технические ошибки, издательство не может
гарантировать абсолютную точность и полноту приводимых сведений и не несет ответственности за возможные
ошибки, связанные с использованием книги. Издательство не несет ответственности за доступность материалов,
ссылки на которые вы можете найти в этой книге. На момент подготовки книги к изданию все ссылки на интернетресурсы были действующими.

ISBN 978-0135172384 англ.
ISBN 978-5-4461-1699-7

© 2020 Pearson Education, Inc.
© Перевод на русский язык ООО Издательство «Питер», 2022
© Издание на русском языке, оформление ООО Издательство «Питер», 2022
© Серия «Библиотека программиста», 2022

Краткое содержание

Предисловие........................................................................................................................................... 16
Введение................................................................................................................................................... 18
Благодарности........................................................................................................................................ 22
Об авторах............................................................................................................................................... 23
От издательства..................................................................................................................................... 24
Глава 1. Введение в обучение с подкреплением........................................................................ 25

Часть I. Алгоритмы, основанные
на стратегиях и полезностях
Глава 2. REINFORCE......................................................................................................................... 52
Глава 3. SARSA..................................................................................................................................... 81
Глава 4. Глубокие Q-сети.................................................................................................................112
Глава 5. Улучшение DQN................................................................................................................136

Часть II. Комбинированные методы
Глава 6. Метод актора-критика с преимуществом (А2С)....................................................168
Глава 7. Оптимизация ближайшей стратегии..........................................................................198
Глава 8. Методы параллелизации.................................................................................................228
Глава 9. Сравнительный анализ алгоритмов............................................................................239

6   Краткое содержание

Часть III. Практика
Глава 10. Начало работы с глубоким RL....................................................................................242
Глава 11. SLM Lab..............................................................................................................................274
Глава 12. Архитектура сетей...........................................................................................................286
Глава 13. Аппаратное обеспечение...............................................................................................311

Часть IV. Проектирование сред
Глава 14. Состояния..........................................................................................................................328
Глава 15. Действия.............................................................................................................................358
Глава 16. Вознаграждения...............................................................................................................374
Глава 17. Функция переходов........................................................................................................383
Заключение...........................................................................................................................................389

Приложения
Приложение А. История глубокого обучения с подкреплением......................................394
Приложение Б. Примеры сред......................................................................................................397
Список используемых