机器之心报道 编辑:小舟 DeepMind的研究科学家和工程师亲自讲授了一套强化学习课程,目前已全部上线。 DeepMind作为全球顶级AI研究机构,自2010年创建以来已有多项世界瞩目的研究成果,例如击败世界顶级围棋玩家的AlphaGo和今年高效预测的蛋白质结构的AlphaFold。 近几年,DeepMind联合伦敦大学学院(UCL)推出了一些人工智能线上课程,今年他们联合推出的2021强化学习系列课程现已全部上线。该课程由DeepMind的研究科学家和工程师亲自讲授,旨在为学生提供对现代强化学习的全面介绍。 课程主页:https:deepmind。comlearningresourcesreinforcementlearningseries2021 课程介绍 本次课程共包括13节,涵盖了顺序决策问题中强化学习和规划的基础知识,并进一步讲解了现代深度强化学习算法。其中详细讲解了强化学习的多个主题,包括马尔科夫决策过程(MDP)、基于样本的学习算法(例如双Q学习、SARSA)、深度强化学习等,还探讨了一些更高级的主题,包括offpolicy学习、多步更新和资格迹(eligibilitytraces),以及实现RainbowDQN等深度强化学习算法需要的理论和现实条件。 下面我们来看一下各节课程的具体内容。 第1讲强化学习简介:DeepMind研究科学家HadovanHasselt首先简单介绍了本次强化学习课程的内容,然后讲解了强化学习与AI的关系。 第2讲探索与控制:HadovanHasselt讲解了为什么学习智能体必须同时做到平衡探索和利用所获的知识。 第3讲MDP和动态规划:DeepMind研究科学家DianaBorsa讲解了如何使用动态规划解决MDP以提取准确的预测和良好的控制策略。 第4讲动态规划算法的理论基础:DianaBorsa讲解了动态规划算法的扩展和收缩映射定理(contractionmapping)。 第5讲无模型预测:HadovanHasselt仔细讲解了无模型预测及其与蒙特卡罗和时间差分算法的关系。 第6讲无模型控制:HadovanHasselt讲解了用于策略改进的预测算法,以产生可以从采样经验中学习良好行为策略的算法。 第7讲函数近似:HadovanHasselt讲解了如何将深度学习与强化学习结合,以实现深度强化学习。 第8讲规划与模型:DeepMind研究工程师MatteoHessel讲解了如何学习和使用模型,包括Dyna、蒙特卡洛树搜索(MCTS)等算法。 第9讲策略梯度和ActorCritic方法:HadovanHasselt讲述了可以直接学习策略的策略算法,并进一步讲解了结合价值预测以提高学习效率的actorcritic算法。 第10讲近似动态规划:DianaBorsa讲解了近似动态规划算法,探讨了如何从理论的角度分析近似算法的性能。 第11讲多步和offpolicy:HadovanHasselt讲解了多步和offpolicy算法,包括多种减小方差的方法。 第12讲深度强化学习1:MatteoHessel讲解了深度强化学习的实际要求和具体算法,以及如何使用自动微分(Jax)来实现。 第13讲深度强化学习2:MatteoHessel讲解了通用价值函数(generalvaluefunctions)、基于GVF的辅助任务,并进一步讲解了如何处理算法中的扩展问题。 DeepMind研究者亲自授课 该系列课程的讲师是DeepMind的研究科学家和工程师HadovanHasselt、DianaBorsa和MatteoHessel。 HadovanHasselt HadovanHasselt是DeepMind的一名研究科学家,也是伦敦大学学院(UCL)的荣誉教授。HadovanHasselt博士毕业于世界顶尖公立研究型大学和百强名校乌得勒支大学,他的研究兴趣包括人工智能、机器学习、深度学习,并重点研究强化学习。 DianaBorsa DianaBorsa是DeepMind的研究科学家,也是UCL的荣誉讲师。她的研究兴趣主要是强化学习、机器学习、统计学习和通用人工智能(AGI),涵盖智能体学习、交互系统、多智能体系统、概率建模、表征学习等。 MatteoHessel MatteoHessel是DeepMind的一位研究工程师,也是UCL的荣誉讲师。他的研究重点是强化学习及其与深度学习的结合。Hessel曾在NeurIPS、ICML、ICLR、AAAI和RLDM上发表过十余篇论文,这些论文的引用次数超过4000次,并获得了2项注册专利。