Reinforcement learning is a learning paradigm concerned with learning to control a system so as to maximize a numerical performance measure that expresses a long-term objective.What distinguishes reinforcement learning from supervised learning is that only partial feedback is given to the learner about the learner’s predictions. Further, the predictions may have long term effects through influencing the future state of the controlled system. Thus, time plays a special role. The goal in reinforcement learning is to develop efficient learning algorithms, as well as to understand the algorithms’ merits and limitations. Reinforcement learning is of great interest because of the large number of practical applications that it can be used to address, ranging from problems in artificial intelligence to operations research or control engineering. In this book, we focus on those algorithms of reinforcement learning that build on the powerful theory of dynamic programming.We give a fairly comprehensive catalog of learning problems, describe the core ideas, note a large number of state of the art algorithms, followed by the discussion of their theoretical properties and limitations.
ترجمه فارسی (ترجمه ماشینی)
یادگیری تقویتی یک الگوی یادگیری است که مربوط به یادگیری کنترل یک سیستم به منظور به حداکثر رساندن یک معیار عملکرد عددی است که یک هدف بلند مدت را بیان می کند. چیزی که یادگیری تقویتی را از یادگیری نظارت شده متمایز می کند این است که فقط بازخورد جزئی در مورد پیش بینی های یادگیرنده به یادگیرنده داده می شود. . علاوه بر این، پیشبینیها ممکن است از طریق تأثیرگذاری بر وضعیت آینده سیستم کنترلشده، اثرات بلندمدتی داشته باشند. بنابراین زمان نقش ویژه ای ایفا می کند. هدف در یادگیری تقویتی توسعه الگوریتم های یادگیری کارآمد و همچنین درک محاسن و محدودیت های الگوریتم ها است. یادگیری تقویتی به دلیل تعداد زیاد کاربردهای عملی که می توان از آن برای رسیدگی به آنها استفاده کرد، از مشکلات در هوش مصنوعی گرفته تا تحقیقات عملیات یا مهندسی کنترل، بسیار مورد توجه است. در این کتاب، ما بر روی آن دسته از الگوریتمهای یادگیری تقویتی تمرکز میکنیم که مبتنی بر تئوری قدرتمند برنامهنویسی پویا هستند. ما فهرست نسبتاً جامعی از مشکلات یادگیری ارائه میدهیم، ایدههای اصلی را توصیف میکنیم، تعداد زیادی از الگوریتمهای پیشرفته را یادداشت میکنیم و به دنبال آن بحث در مورد خواص و محدودیت های نظری آنها.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.