上海交大开源训练框架，支持大规模基于种群多智能体强化学习训练

精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

上海交大开源训练框架，支持大规模基于种群多智能体强化学习训练

10月14日藏于心投稿

　　机器之心专栏
　　作者：上海交大和UCL多智能体强化学习研究团队基于种群的多智能体深度强化学习（PBMARL）方法在星际争霸、王者荣耀等游戏AI上已经得到成功验证，MALib则是首个专门面向PBMARL的开源大规模并行训练框架。MALib支持丰富的种群训练方式（例如，selfplay，PSRO，leaguetraining），并且实现和优化了常见多智能体深度强化学习算法，为研究人员降低并行化工作量的同时，大幅提升了训练效率。此外，MALib基于Ray的底层分布式框架，实现了全新的中心化任务分发模型，相较于常见的多智能体强化学习训练框架（RLlib，PyMARL，OpenSpiel），相同硬件条件下吞吐量和训练速度有着数倍的提升。现阶段，MALib已对接常见多智能体环境（星际争霸、谷歌足球、棋牌类、多人Atari等），后续将进一步提供对自动驾驶、智能电网等场景的支持。
　　项目主页：https：malib。io。
　　在深度学习领域，算力从来都是我们关心的一个重点，也是影响人工智能算法落地的一个关键因素。在很多应用场景里面，足够的算力支持可以显著加快算法从提出、训练到落地的效率，像是OpenAIFive的亿级参数量的使用，其每天的GPU计算用量在7705082050PFlopss。而在深度强化学习领域，随着应用场景从单智能体扩展到多智能体，算法的求解复杂度也呈现指数级增长，这也对算力要求提出了新的挑战，要求更多的计算资源能够被调用。特别是当所要处理的问题规模，涉及的智能体数量较多时，单机训练算法的可行度显著下降。
　　多智能体强化学习要解决群体智能相关的问题，其研究往往涉及群体内智能体之间的协作与对抗。目前已有众多现实任务应用涉及大规模智能体和复杂多样化交互，例如人群模拟、自动驾驶以及军事场景中的无人机集群控制：
　　人群模拟（http：gamma。cs。unc。eduCompAgentimgssitterson3。jpg）。
　　自动驾驶（https：github。comhuaweinoahSMARTSblobmasterdocsstaticsmartsenvision。gif）。
　　无人机集群（https：defensesystems。commediaGIGDefenseSystemsWeb2015JanFebCODEdrones。png）。
　　在算法方面，解决此类群体问题的一个重要的途径是基于群体的多智能体强化学习方法，也是MALib目前阶段的重点瞄准方向。基于群体的多智能体强化学习（PopulationbasedMARL，PBMARL）涉及多个策略集合交互问题，下图展示了通常意义上基于群体的多智能体强化学习算法的主要流程。PBMARL算法是结合了深度强化学习和动态种群选择方法（例如，博弈论，进化策略）以自动拓展策略集。PBMARL能够以此不断产生新的智能，因而在一些复杂任务上都取得了不错的效果，如实时决策游戏Dota2、StrarCraftII，以及纸牌任务LeducPoker。但在实际问题中，目前的多智能体强化学习算法与应用尚有差距，一个亟待解决的问题便是算法在大规模场景下的训练效率。由于种群算法内在耦合了多智能体算法，致使其训练过程对数据的需求量极大，因而也需要一个灵活、可扩展的训练框架来保证其有效性。
　　如何提高算法训练效率？对于依赖深度学习技术的很多领域，在面临任务规模变大，模型参数变多的情况下，都需要引入额外的技术来提高训练效率。分布式计算是一个最直接考虑的方法，通过多进程或者多机的方式，提高算法对计算资源的使用效率从而提升算法训练效率。而分布式技术在深度强化学习领域的应用，也催生了分布式深度强化学习这个领域的产生，其研究的重点包括计算框架的设计，以及大规模分布式强化学习算法的开发。
　　近年来，为了更好地进行大规模深度强化学习算法的训练，研究人员发展了更加专用的训练框架，通过在算法接口和系统设计上进行抽象，来支持更为复杂的实时数据采样、模型训练和推理需求。然而，分布式强化学习技术的发展似乎还未触及群体智能这一问题。实际上，现有分布式强化学习框架对于一般多智能体强化学习算法的分布式计算支持是完全不够的，像RLlib、SampleFactory、SEEDRL这样的典型分布式强化学习框架，在设计模式上都是将多智能体任务当作单智能体任务来处理，而忽略了多智能体算法之间的异构性。对于其他强调智能体交互的学习范式，如中心化训练（centralizedtraining）、基于网络的分布式算法以及带有通信功能的协作性算法都没有进行显式支持，缺乏对应的统一接口来简化算法实现和训练流程。因此，研究人员想要进行更多类型多智能体强化学习算法的分布式训练探索时，往往需要进行大量额外的编码工作。而对于多智能体强化学习算法框架方面的发展，现有的工作更多聚焦在算法实现，并不太注重算法在大规模场景下的扩展性，或者更多的是专为某些场景设计的算法库，像PyMARL、SMARTS这样的框架，其作用更偏向于服务专门领域内的benchmark，在算法类型上，大部分框架也做得并不全面。因此对于多智能体强化学习算法框架支持这一块，也一直是缺乏一套比较全面的框架来打通算法实现、训练和部署测试这一套流程。
　　我们认为以上两个发展现状的主要原因至少会有两点：（1）一个是因为多智能体算法本身在结构上具有的异构性较高，导致算法在接口实现的一致性和复用性上不是太高；（2）另一方面也是因为多智能体分布式算法依然处于早期探索阶段。此外，在分布式部署方面，现有分布式强化学习框架对independentlearning算法的支持更友好，也更自然和直接。就像通常分布式技术在机器学习领域的应用一样，要解决目前分布式技术在大规模多智能体强化学习领域的更深层次的应用，算法和框架都必不可少，两者相辅相成。
　　在算法方面，一个重要的途径是基于群体的多智能体强化学习方法，也是MALib目前阶段所重点瞄准的方向。基于群体的多智能体强化学习（PopulationbasedMARL，PBMARL）涉及到多个策略集合交互问题，下图展示了通常意义上基于群体的多智能体强化学习算法的主要流程。PBMARL算法特点是结合了深度强化学习和动态种群选择方法（例如，博弈论，进化策略）来进行自动策略集扩展。通过这种方式，PBMARL能够不断产生新的智能，并且在解决一些复杂任务上都取得了不错的效果，如实时决策游戏Dota2、StrarCraftII，以及纸牌任务LeducPoker。
　　然而，也正是由于种群算法内在耦合了多智能体算法，导致这一类算法在训练过程对数据的需求极大，因此也需要一个灵活的、可扩展的训练框架来保证其有效性。
　　论文链接：https：arxiv。orgabs2106。07551GitHub：https：github。comsjtumarlmalib
　　MALib框架图
　　为了应对这些需求，我们提出了MALib，从三个方面提出了针对大规模群体多智能体强化学习算法的解决方案：（1）中心化任务调度：自动递进式生成训练任务，作业进程的半主动执行能够提高训练任务的并行度；（2）ActorEvaluatorLearner模型：解耦数据流，以满足多节点灵活的数据存储和分发；（3）从训练层面对多智能体强化学习进行抽象：尝试提高多智能体算法在不同训练模式之间的复用率，比如DDPG或者DQN可以很方便地嫁接到中心化训练模式中。
　　中心化任务调度模型（c）与以往分布式强化学习框架调度模型的对比：（a）完全分布式；（b）层级式
　　具体而言，MALib的框架特点如下：支持大规模基于种群的多智能体强化训练。星际争霸2，Dota2，王者荣耀等游戏上超越人类顶尖水平的AI，都得益于大规模基于种群的多智能体强化学习训练，但现在没有一个开源通用的框架支持相关研究与应用。针对这一场景，MALib基于Ray的分布式执行框架，实现了一个灵活可自定义的多智能体强化学习并行训练框架，并且对基于种群的训练做了特别优化，不仅仅可以实现类似于星际争霸2中的League机制，也支持更灵活的PSRO（策略空间应对预言机）等算法。同时，除了电子竞技游戏之外，MALib也将提供体育（GoogleFootball），自动驾驶等场景的支持。MALib的采样吞吐量较现有多智能体强化学习框架大幅度提升。通过利用所提出的中心化任务分发模型，MALib的吞吐量在相同GPU计算节点情况下，最大采样效率相较于UCBerkeleyRISELab开发的著名通用框架RLlib可提升15倍，系统吞吐量较高度优化的SOTA框架SampleFactory提升近100；纯CPU环境MALib的吞吐量优势较进一步扩大至近450；同类算法训练速度较DeepMind开发的openspiel提升三倍以上。最全的多智能体强化学习算法的支持。在训练范式层面，MALib使用同步异步，中心化去中心化等模式，对不同类型的多智能体强化学习算法的训练进行抽象，并通过统一的AgentInterface，实现了包括独立学习者，中心化训练去中心化执行，自对弈，策论空间应对预言机（PSRO）等算法。同时，对原先不支持并行异步训练的算法，也可以使用MALib进行并行采样与训练的加速。
　　部分训练效果
　　我们和一些现有的分布式强化学习框架进行了对比，以MADDPG为例，下图展示的是在multiagentparticleenvironments上使用不同并行程度训练simplespread任务的学习曲线。
　　与RLlib对比训练MADDPG的效果。
　　对照框架是RLlib。随着worker的数量增多，RLlib的训练越来越不稳定，而MALib的效果一直表现稳定。包括更复杂的环境，比如StarCraftII的一些实验，我们对比PyMARL的实现，比较QMIX算法训练到胜率达到80所花费的时间，MALib有显著的效率提升（worker数量都是设置成32）。
　　与PyMARL在星际任务上的效率对比。
　　另一方面，我们比较关注的是训练过程的采样效率。我们也对比了与其他分布式强化学习框架的吞吐量对比，在多智体版本的Atari游戏上，MALib在吞吐量和扩展性上都表现了不错的性能。
　　在星际及多智能体Atari任务上不同框架的吞吐量对比。
　　目前，我们的项目已经开源在GitHub上（https：github。comsjtumarlmalib），更多的功能正在积极开发中，欢迎使用并向我们提出宝贵的改进意见！同时如果有兴趣参与项目开发，欢迎联系我们！联系方式：ying。wensjtu。edu。cn。
　　团队介绍
　　本项目由上海交通大学与伦敦大学学院（UCL）联合的多智能体强化学习研究团队开发。MALib项目主要由上海交通大学温颖助理教授指导下进行开发，核心开发成员包括上海交通大学三年级博士生周铭，ACM班大四本科生万梓煜，一年级博士生王翰竟，访问学者温睦宁，ACM班大三本科生吴润哲，并得到上海交通大学张伟楠副教授和伦敦大学学院的杨耀东博士、汪军教授的联合指导。
　　团队长期致力于从理论算法、系统与应用三个层面入手，针对开放、真实、动态的多智能场景下的智能决策进行研究。理论团队核心成员在人工智能和机器学习顶会发表多智能体强化学习相关论文共计五十余篇，并获得过CoRL2020最佳系统论文、AAMAS2021BlueSkyTrack最佳论文奖。系统方面，除了面向多智能体强化学习种群训练的系统MALib，本团队研发SMARTS、CityFlow、MAgent等大规模智能体强化学习仿真引擎，累计在Github上获得了超过2000加星。此外，团队在游戏、自动驾驶、搜索与推荐等场景下具有强化学习技术的真实应用落地的经验。

投诉评论转载

五行造句用五行造句大全【五行wxng】：通常指水、火、木、金、土五种物质。中国古代思想家把这五种物质作为组成万物的基本元素，以说明世界万物的起源和变化。以后又有五行相互促进和相互排斥的说法。“五行”……四季造句用四季造句大全31、冬至过后，天气渐渐变冷，花草树木收起了笑吟吟的脸儿，小动物缩成一团，躲进了自己的窝巢，人们穿上又厚又暖的棉袄，候鸟们都飞到温暖的南方去了，一年四季中，最冷的日子来临了。……那些照片里意想不到的抢镜瞬间当我们构图时，通常前景最引人注目。毕竟，这通常是主要行动所在。但有时背景会完全抢尽风头！不管是一只动物做了一些意想不到的事情，还是一个陌生人故意抢镜，拍照片的可能性是无穷无尽的……以色列突然空袭加沙，日韩也相互对峙，这个世界要乱了？图为以色列空袭哈马斯武装前段时间巴以冲突的结束让世界看到了和平的曙光，但是这一曙光没持续多久就破灭了，最近有消息称以色列突然再次发动空袭，空袭了加沙地带的大量哈马斯目标，……这里的每一件都能让你看上去显瘦有些姐妹经常会抱怨身材的一些小不足，本来以为只有夏天穿得少比较吃亏，谁知道秋冬穿得多了同样也吃亏，因为穿多了容易显胖啊！！其实吧，不管是什么季节，想要显瘦都不难，首先就是……上海交大开源训练框架，支持大规模基于种群多智能体强化学习训练机器之心专栏作者：上海交大和UCL多智能体强化学习研究团队基于种群的多智能体深度强化学习（PBMARL）方法在星际争霸、王者荣耀等游戏AI上已经得到成功验证，MALib则……教师如何快速成长读书笔记拿到这本书，最吸引我的是封面的一句话献给不甘平凡、不放弃成长的老师们。我知道这本书是写给希望成长的老师们的，写给不甘平凡的老师们的。翻开书的前言，就被罗老师的文章吸引。……一个特点鲜明的人要问我们班手最快的人是谁，我们都会异口同声地回答：必须是快手舒啦！快手舒长得较胖，但并不好吃，也不懒做，一张圆蛋脸，显得有几分可爱。快手舒写字快，操作电脑也快。平时……鲤鱼入侵，美味的亚洲鲤鱼在欧洲竟成了老鼠，人人喊打在大部分国人眼中，鲤鱼不但寓意美好且营养丰富肉质鲜美，以鲤鱼为主要原材料制成的美食也比比皆是。对于我们来说，鲤鱼可能是寻常可见的，但对于一些欧洲国家来说，鲤鱼简直就是一场噩梦。……相思狱唉，已经在这里关了六个月了女子将头抵在膝盖上，原本修长秀气的双手已被酷刑折磨的血肉模糊，舒寻哥哥现在已经被封为天下第一捕快了吧！目光透过高处那扇窗，有月色悄悄溜进来，宛如六个月……读取车牌门禁系统原理随着技术的进步，车牌识别越来越成熟，结论就是识别率越来越高，识别速度越来越来快。加之很多地方的门禁安防广告公司通过广告营销分成等方式，积极推广，所以越来越多的小区，换上了车牌识……成长的故事我出生在一个普通的农村家庭，有一个姐姐。我出生时，姐姐已经上中学了，她比我大了整整十六岁。姐姐一边完成学业，一边带我，非常辛苦，但她从不怨天尤人，每次出去玩儿都要带着我这个跟屁……

<<<<<<－>>>>>>

谢谢青岛的年轻人东部要变天！黑马球队7换1极限交易曝光，三巨头成夺冠标配？罗马未放弃补强！穆帅心仪的两大目标，蓝军边缘人多特中场有核酸证明返乡也要隔离？国家卫健委发声各地要注意了第20金！恭喜中国选手，恭喜卢云秀雷霆旧将19分7助搅得湖人不得安生，杨毅他的水平根本打不了C 这剂后悔药可以吃每日荐影一念无明我是有病，但你们很正常吗大家小文叶圣陶牵牛花撒娇亲吻15岁女儿大腿已过半百的李亚鹏，连分寸感都没了吗？传武的没落之武人最大的悲哀就是迷恋神话董卿连续主持春晚13年为何4年缺席？5段感情纠葛，这些年经历年个人廉政工作汇报如何防止路由器被蹭网防止路由器被蹭网方法介绍详解 2020年Q1智能音箱走热销量2820万台同比增长8。2 心解西游记7我告诉你，为什么悟空始终逃不出如来的手掌心乌克兰大樱桃你会经常对孩子吼叫吗？知道吼叫会对孩子造成怎样的后果吗？共享汽车一地鸡毛迷失方向奥洛菲是哪个国家的牌子敏感肌肤能用吗李莲英的舌头特别长是真吗日产宣布了2020款Frontier中型皮卡的定价上海廉租房在哪里申请如何关注孩子的话语权

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找