Обучение с подкреплением

Саттон Р.С.

قیمت نهایی

۴۰٬۰۰۰ تومان۴۹٬۰۰۰ تومان۱۸٪ تخفیف

تخفیف زمان‌دار−۹٬۰۰۰ تومان

۹٬۰۰۰ تومان صرفه‌جویی نسبت به قیمت اصلی

بلافاصله پس از خرید، فایل کتاب روی دستگاه شما آمادهٔ دانلود است.

تحویل فوری

پرداخت امن

ضمانت فایل

پشتیبانی

نسخه اصلی و اورجینال

فایل دیجیتال کامل و بدون دستکاری — همان نسخه‌ای که پس از خرید دریافت می‌کنید.

مشخصات کتاب

نویسنده: Саттон Р.С.
ناشر: Бином. Лаборатория знаний
سال انتشار: ۲۰۱۴
فرمت: PDF
زبان: روسی
حجم فایل: ۹٫۹ مگابایت
شابک: 9785996325009، 5996325004

دربارهٔ کتاب

Предисловие Постановка задачи и подходы к ее решению Глава 1. Введение 1.1. Обучение с подкреплением 1.2. Примеры 1.3. Элементы обучения с подкреплением 1.4. Подробный пример: крестики-нолики 1.5. Итоги 1.6. История обучения с подкреплением 1.7. Библиографические и исторические справки Глава 2. Оценочная обратная связь 2.1. Задача об n-руком бандите 2.2. Методы вычисления значений ценности действий 2.3. Выбор действия с помощью операции softmax *2.4. Оценивание в сравнении с инструктированием 2.5. Пошаговая реализация обучения 2.6. Нестационарные задачи 2.7. Оптимистичные начальные оценки *2.8. Сравнение с подкреплением *2.9. Методы преследования *2.10. Ассоциативный поиск 2.11. Итоги 2.12. Библиографические и исторические справки Глава 3. Задача обучения с подкреплением 3.1. Взаимосвязь агент "— окружающая среда 3.2. Цели и вознаграждения 3.3. Выгода 3.4. Единые обозначения для непрерывных заданий и заданий, состоящих из эпизодов *3.5. Марковское свойство 3.6. Марковские процессы принятия решений 3.7. Функции ценности 3.8. Оптимальные функции ценности 3.9. Оптимальность и аппроксимация 3.10. Итоги 3.11. Библиографические и исторические справки Фундаментальные методы решения Глава 4. Динамическое программирование 4.1. Оценка стратегии 4.2. Улучшение стратегии 4.3. Итерация по стратегиям 4.4. Итерация по ценностям 4.5. Асинхронное динамическое программирование 4.6. Обобщенная итерация по стратегиям 4.7. Эффективность динамического программирования 4.8. Итоги 4.9. Библиографические и исторические справки Глава 5. Методы Монте-Карло 5.1. Оценка стратегии методами Монте-Карло 5.2. Оценка ценности действия методом Монте-Карло 5.3. Формирование управления методом Монте-Карло 5.4. Управление по методу Монте-Карло с интегрированной оценкой ценности стратегий 5.5. Оценивание одной стратегии при использовании другой 5.6. Управление по методу Монте-Карло с разделенной оценкой ценности стратегий 5.7. Пошаговая реализация 5.8. Итоги 5.9. Библиографические и исторические справки Глава 6. Обучение на основе временных различий 6.1. Предсказание на основе временных различий 6.2. Преимущества TD-методов предсказания 6.3. Оптимальность метода TD(0) 6.4. SARSA: управление по TD-методу с интегрированной оценкой ценности стратегий 6.5. Q-обучение: управление по TD-методу с разделенной оценкой ценности стратегий *6.6. Методы исполнитель—критик *6.7. R-обучение для неприведенных продолжающихся задач 6.8. Игры, послесостояния и другие особые случаи 6.9. Итоги 6.10. Библиографические и исторические справки Единый подход Глава 7. Следы приемлемости 7.1. n-шаговое TD-прогнозирование 7.2. Прямой подход к методам TD(lambda) 7.3. Обратный подход к методам TD(lambda) 7.4. Эквивалентность прямого и обратного представлений 7.5. SARSA(lambda) 7.6. Метод Q(lambda) *7.7. Следы приемлемости для методов типа исполнитель—критик 7.8. Замещающие следы 7.9. Проблемы реализации *7.10. Переменный параметр lambda 7.11. Итоги 7.12. Библиографические и исторические справки Глава 8. Обобщение и аппроксимация функций 8.1. Прогнозирование ценности при помощи аппроксимации функции 8.2. Методы наискорейшего спуска 8.3. Линейные методы 8.4. Управление с аппроксимацией функции 8.5. Самонастройка с разделенной оценкой ценности стратегий 8.6. Нужна ли самонастройка? 8.7. Итоги 8.8. Библиографические и исторические справки Глава 9. Планирование и обучение 9.1. Модели и планирование 9.2. Объединение планирования, исполнения и обучения 9.3. Когда модель неверна 9.4. Приоритетная прогонка 9.5. Сравнение полного и выборочного вариантов дублирования 9.6. Траекторная выборка 9.7. Эвристический поиск 9.8. Итоги 9.9. Библиографические и исторические справки Глава 10. Важнейшие аспекты обучения с подкреплением 10.1. Единый подход 10.2. Некоторые другие новые направления Глава 11. Конкретные примеры 11.1. Программа TD-Gammon 11.2. Программа игры в шашки Сэмюеля 11.3. Акробот 11.4. Управление лифтом 11.5. Динамическое распределение каналов 11.6. Задача планирования Список обозначений Список литературы Предметный указатель Оглавление

کتاب‌های مشابه

Обучение с подкреплением

۴۹٬۰۰۰ تومان

Обучение с подкреплением

۴۹٬۰۰۰ تومان

Обучение с подкреплением.

۴۹٬۰۰۰ تومان

Грокаем Глубокое обучение с подкреплением.

۴۹٬۰۰۰ تومان

Мультиагентное обучение с подкреплением: учебное пособие

۴۹٬۰۰۰ تومان

Глубокое обучение с подкреплением. AlphaGo и другие технологии: 16+

۴۹٬۰۰۰ تومان

Нейросетевые топологии с подкреплением

۴۹٬۰۰۰ تومان

Глубокое обучение с подкреплением: теория и практика на языке Python: 16+

۴۹٬۰۰۰ تومان

Глубокое обучение с подкреплением: теория и практика на языке Python: 16+

۴۹٬۰۰۰ تومان

Глубокое обучение с подкреплением на Python: OpenAI Gym и TensorFlow для профи: [16+]

۴۹٬۰۰۰ تومان

Python и машинное обучение: машинное и глубокое обучение с использованием Python, scikit-learn и TensorFlow 2: [охватывает TensorFlow 2, порождающие состязательные сети и обучение с подкреплением]

۴۹٬۰۰۰ تومان

Буковки. Обучение с увлечением

۴۹٬۰۰۰ تومان

قیمت نهایی

۴۰٬۰۰۰ تومان

چه کسانی این کتاب را می‌خوانند

Обучение с подкреплением

مشخصات کتاب

دربارهٔ کتاب

کتاب‌های مشابه