یادگیری تقویتی (Reinforcement Learning) — راهنمای ساده و کاربردی
محیط به حالت جدید s 1 انتقال پیدا میکند (فریم جدید) محیط پاداش r 1 را به عامل میدهد (عامل نمرده: ۱+) این حلقه یادگیری تقویتی دارای یک توالی از حالت، عمل و پاداش است. هدف عامل آن است که پاداش ...