DRL Course 2023, Лекция 6. Policy Algorithms
Курс Deep Reinforcement Learning 2023: Сезон курсов В шестой лекции: Рассматриваются MDP с бесконечным пространством действий Обсуждается Policy Gradient теоремы Выводятся алгоритмы Reinforce, A2C и PPO Автор курса: Антон Плаксин, исследователь в группе и доцент Уральского федерального университета. Наши Telegram: t. me, datafest Вконтакте: Канал с вакансиями в telegram: t. me, odsjobs Канал с апдейтами по курсам: t. me, odscourses Как попасть в чат сообщества ODS Mattermost:
|
|