DRL Course 2023, Policy Gradient. Off Policy Algorithms
Курс Deep Reinforcement Learning 2023: Сезон курсов В седьмой лекции: Продолжаем рассматривать MDP с бесконечным пространством состояний и действий Обсуждается Deterministic Policy Gradient теорему и выводим DDPG и TD3 Рассматриваем Soft Policy Iteration и выводим SAC Автор курса: Антон Плаксин, исследователь в группе и доцент Уральского федерального университета. Наши Telegram: t. me, datafest Вконтакте: Канал с вакансиями в telegram: t. me, odsjobs Канал с апдейтами по курсам: t. me, odscourses Как попасть в чат сообщества ODS Mattermost:
|
|