DRL Course, Policy Gradient

Views: 2

Курс Deep Reinforcement Learning: Сезон курсов: В шестой лекции: Рассматриваются MDP с бесконечным пространством действий; Обсуждается Policy Gradient теорема; Выводятся алгоритмы Reinforce, A2C и DDPG Наши Telegram: t. me, datafest Вконтакте: