Обучение с подкреплением для реальных задач [Фил Уиндер] (pdf) читать постранично

Re: "Посторонние" уже не те... (чтун)
16 часов 13 минут назад
Re: "Посторонние" уже не те... (чтун)
17 часов 8 минут назад
Re: "Посторонние" уже не те... (чтун)
17 часов 11 минут назад
Re: "Посторонние" уже не те... (ANSI)
1 день 4 часов назад
Re: "Посторонние" уже не те... (ANSI)
1 день 4 часов назад
Re: "Посторонние" уже не те... (чтун)
1 день 16 часов назад

Книга в формате pdf! Изображения и текст могут не отображаться!

[Настройки текста]

[Cбросить фильтры]

Reinforcement Learning
Industrial Applications of Intelligent Agents

Phil Winder, Ph.D.

Beijing • Boston • Farnham • Sebastopol • Tokyo

O’REILLY

Фил Уиндер

Обучение
с подкреплением
для реальных задач
Инженерный подход

Санкт-Петербург

«БХВ-Петербург»
2023

УДК 004.43
ББК 32.973.26-018.1
У37

У37

Уиндер Ф.
Обучение с подкреплением для реальных задач: Пер. с англ. — СПб.:
БХВ-Петербург, 2023. — 400 с.: ил.

ISBN 978-5-9775-6885-2
Книга посвящена промышленно-ориентированному применению обучения
с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промыш
ленные и научные системы решению любых пошаговых задач методом проб и
ошибок— без подготовки узкоспециализированных учебных множеств данных
и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские
процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисле
ние, методы устранения энтропии и многое другое. Данная книга — первая на рус
ском языке, где теоретический базис RL и алгоритмы даны в прикладном, отрасле
вом ключе.
Для аналитиков данных
и специалистов по искусственному интеллекту
УДК 004.43
ББК 32.973.26-018.1
Группа подготовки издания:
Руководитель проекта
Зав редакцией
Перевод с английского
Редактор
Компьютерная верстка
Оформление обложки

Олег Сивченко
Людмила Гаулъ
Екатерины Черских
Анна Кузьмина
Ольги Сергиенко
Зои Канторович

© 2022 BHV
Authorized Russian translation of the English edition of Reinforcement Learning ISBN 9781098114831
© 2021 Winder Research and Development Ltd
This translation is published and sold by permission of O’Reilly Media, Inc , which owns or controls all rights to publish
and sell the same

Авторизованный перевод с английского языка на русский издания Reinforcement Learning ISBN 9781098114831
© 2021 Winder Research and Development Ltd
Перевод опубликован и продается с разрешения компании-правообладателя O’Reilly Media, Inc

Подписано в печать 29.07 22
Формат 70x1001Лб Печать офсетная. Усл печ л 32,25
Тираж 1300 экз Заказ № 5077
"БХВ-Петербург", 191036, Санкт-Петербург, Гончарная ул , 20

Отпечатано с готового оригинал-макета
ООО "Принт-М", 142300, М О , г Чехов, ул Полиграфистов, д 1

ISBN 978-1-098-11483-1 (англ.)
ISBN 978-5-9775-6885-2 (рус.)

© Winder Research and Development Ltd , 2021
© Перевод на русский язык, оформление
ООО "БХВ-Петербург", ООО "БХВ", 2023

Оглавление

Отзывы.................................................................................................................................................. 15
Об авторе.............................................................................................................................................. 19

Предисловие....................................................................................................................................... 21
Цель.......................................................................................................................................................... 21
Кому следует прочитать эту книгу?................................................................................................... 22
Руководящие принципы и стиль.........................................................................................................22
Предварительная подготовка............................................................................................................... 24
Объем и план...........................................................................................................................................24
Дополнительные материалы................................................................................................................ 25
Условные обозначения, используемые в этой книге...................................................................... 26
Аббревиатуры................................................................................................................................... 26
Математические обозначения........................................................................................................27
Глава 1. Для чего нужно обучение с подкреплением?.................................................... 29
Почему сейчас?.......................................................................................................................................30
Машинное обучение.............................................................................................................................. 31
Обучение с подкреплением................................................................................................................. 32
Когда следует использовать обучение с подкреплением?...................................................... 33
Варианты применения обучения с подкреплением.................................................................. 35
Таксономия подходов обучения с подкреплением..........................................................................37
Без модели или на основе модели................................................................................................ 37
Как агенты используют и обновляют свою стратегию............................................................. 38
Дискретные или непрерывные действия.................................................................................... 39
Методы оптимизации..................................................................................................................... 39
Оценка и улучшение политики..................................................................................................... 40
Фундаментальные концепции обучения с подкреплением........................................................... 41
Первый RL-алгоритм...................................................................................................................... 41
Оценка ценности.................................................................................................................. 42
Ошибка предсказания..........................................................................................................43
Правило обновления веса.................................................................................................. 43
RL — это то же самое, что ML?................................................................................................... 44
Награда и

Главное меню

Вход в систему

Навигация

Поиск книг

Последние комментарии