來源
可定位到视频位置 各位老师同学呃,大家下午好啊,嗯非常呃高兴啊,有机会来这里啊,给大家做一个汇报,也非常感谢啊,于洋老师呃的邀请啊,下面呢我就开始我的这个报告,这个报告呢是强化学习啊,从理论迈向实践,呃我们主要聚焦呢是呃CFL和这个offline l呃,我主要从以下四个方面呢来做一下汇报,嗯首先呢我们来看一下这个呃背景啊,就是强化学习呢我们都很熟悉啊,呃它是来源于呢心理学,还有这个自由控制啊,这样的一个交叉和融合呢,呃得一起源呃,大概在1954年的时候呢,就有了这样的概念,呃嗯嗯当时呢也在很多领域啊,呃空很好的一个效果,2012年这个深度学习这个呃火了以后啊,那么强化学习呢,呃迅速和深度学习呢进行了一个融合啊,然后产生了深度强化学习,使得强化学习呢在大规模的状态动作,这样的环境下呢有了很好的一个发展啊,比如说很经典的DQN啊,PPO呀,这个呃TT3等等啊,SAC等等,很多的这样的算法呢都是呃这样经典的啊,非常有效的方法,但这些方法呢大多呢都是在啊一些仿真环境,大家都很熟悉,其实我们做很多的验证实验都是在游戏啊,或者是一些呃仿真的啊这样的环境中去做的啊,所以总体来说呢这个引用了于老师的一句话啊,这个就是强化学习,大多是局限于这个游戏的环境啊,处于这种好看不好用的境地啊,这是呃研究呢啊其实理论上确实有很多突破啊,嗯不过因为有这样的问题,大家也都意识到了,所以说呢也还是啊,我们呃相相关的研究人员呢,也做了很多的探索啊,比如说在机器人啊,自动驾驶啊,呃这个金融医疗博弈啊等等这些角度呢,这些应用呢其实也都有层出不穷的啊,这样的研究者呢来呃做探索啊,呃那么多多少少呢,呃其实都是取得了一些进展的啊,而且有些呢还啊还是有比较大的影响的啊,比如说这个可控核聚变啊,这个研究啊,这个我记得于老师的报告里,也也这个用了这个例子啊,他其实呃可以实现呢对啊,这个19个这样的一个变量的精确的控制啊,能够呃这个精准的去调控啊,这个呃等离子体的这个形状啊,实现这个可控的核聚变的一个控制啊,那么呃像GDP啊,GDP这大家就很熟悉了,那个呃RLHF啊,对为GTP啊,能够对其人类的价值观啊,能够真正的走向安全可用啊,做了巨大的贡献,此外呢还有蛋白质的结构啊,设计这个倒不是阿尔法fold啊,但是呃因为刚刚呃大家肯定很熟悉这个呃,诺贝尔化学奖也颁给了这个IPHONE啊,呃但这个呢其实也是蛋白质设计过程中的,一个重要的工作,也用到了我们RL的技术啊,还有这个无人机啊,它这个竞速啊,竞速赛上呢,我们用呃这个L算法控制的这样的一个算法呢,也超过了世界的啊最好的人类冠军啊,那么总的来看呢,我们确实啊在这样的一个呃应用研究上面呢,取得了一些初步的成果,但总体来看呢,我们强化学习,从理论迈向实践的这个研究过程中呢,还面临了很多的这样的挑战啊,那么我们啊简单的啊,或者是初步的归纳成这样几点,一个是呃高性能啊,那这个高性能呢,主要体现在就是我们已经在理论方面呢,能够刷到很高的performance啊,但是如果我们真的要做实际应用的时候,这样的这个performance,这样的一个性能能不能够继续的延续,延续下来啊,还能保持下来呃,这是一个挑战,另外呢离线策略啊的学习,这个主要呢呃因为离线的强化学习呢,也是我们呃强化学习啊,落地的一个重要研究领域,那么它里边啊这个离线策略的学习呢,也是呃非常呃关键的一个领域啊,就是我们能不能基于离线的数据,就能够学到一个呃非常或者很很有效的,这样的一个策略啊,那么为后面的呃这个实用呢打一个好的基础,现在这个offline to online的研究呢,也也非常的火热是吧,那么我们如果离线数据能够用好,那么也是一个非常重要的一个挑战啊,还有样本效率,这是我们强化学习一直面临的一个问题啊,就是我们如何能够用少的交互次数啊,实现呃更更高的性能啊,另外还有安全约束啊,这个就是实际应用嘛,大家知道有很多这个高风险的领域啊,是零容忍的,对安全是不允许出现安全问题,那么如果我们能够啊做好的这个安全约束啊,能够设计好的安全因素,那么将为我们这个强化学习算法呢走向实用呢,呃这个起到非常大的作用啊,另外一个是sim to real啊,这SEMETERREO呢其实呃是呃我们呃涉及到啊,就是一个仿真环境呢到真实环境的一个跨域呃,一个这样的一个迁移的一个问题啊,那么这个也是呃真正的啊我们不可能啊,基本上没有实际应用的环境,能够直接让我们去训练强化与算法啊,那我们都是在仿真环境下去做的,那么最终啊如果要落地要用,那么可能这个呢是我们必须要去面对的问题呃,作为我们今天的这个报告呢,我们呃主要呢聚焦在两个啊,一个就是离线啊策略学习,一个是这个安全约束这两个角度呢,我们来呃一起啊给大家,我来给大家汇报一下我们相关的方向的一些呃,研究的一些进展吧,啊,呃首先呢我来介绍一下,我们在这个CFRL方面的一些探索,呃,那么CFRO呢呃我们就知道啊,就刚才也提到了,他去是我们强化学习啊,一个从理论研究迈向现实的这样的一个呃,过程中的一个巨大的一个挑战,那么如何去应对这些挑战呢,已经有很多的啊强化学习算法呢得以提出,那么这里呢比如说啊这个最早啊1970年呢,就哥伦比亚大学的团队呢做了相关的工作,呃,2015年呢这个呃UC3M啊,是呃马德里的一个大学啊,他这个研究团队呢,对这个安全强化学习的进展呢,进行了一个全面的一个分析和总结啊,也也对未来呢进行了展望,随后呢我们大家呃,呃safe方面的这个经典的算法,比如说CPU啊,那么都在大约啊17年左右,还有很多算法呢相应的提出,后面呢还有团队UCUIUC的,还有我们北大等等团队的老师呢,对这个多智能体的安全学习呢啊,安全强化学习呢进行了呃研究,也取得了很多突破性的进展,总体来说呢就是安全强化学习,目前呢已经形成了一套经典的,这样的一个研究体系啊,但是呃也具有独立的问题啊,独立的研究内容和研究方法啊,以及呢基准测试环境呃,那么我们可以把这个一个安全的强化学习,方法呢,描述成这样的一个带约束的,一个呃这样的一个呃这个优化问题,那么这里边呢我们重点,因为我们啊这个可能打不上啊,就是这个里边呢,我们重重点来看一下它的约束部分,这个约束部分呢我们有几个关键的因素啊,一个是约束值D啊,一个是这个成本函数啊,一个是状态的这个刻画啊,还有一个是这个啊决策风险,就是约束的这样的一个期望的一个表示啊,这几个点我们是从这个角度来看这个问题啊,就把他的重点呢,把我们的研究的呃,这个呃聚焦点呢放在了这个约束啊,它里边的这些因素的分析上,那么至于约束值,那么它一般来说呢啊,就是这样的一个额正数值啊,就或者呃也可以取零,但是取零呢就是呃非常严格的啊这个约束,所以说呢一般来说我们会取呃取值,这个也是一个经验啊,然后成本函数呢一般来说是一个呃这样的,一个呃经验和工程的问题,从呃一般来说啊,现在我们在呃RF这个SAF,这个IO的这个benchmark里边的,也都是一个呃固定的啊,就是常用的一些策略,所以呢这个我们呢这两个呢我们都没有呃,呃过多的投入精力去去分析啊,主要聚焦在下面,一个是状态的部分可观测啊,就是说我们认为呢当然这也是在实际应用中呢,也是一个呃一个呃具体的啊一个问题吧,就是我们拿到的观测和我们实际的啊,这个呃智能体的状态,它肯定还是存在一些的差异的啊,那么如何根据这个我们拿到的观测,能够很好的估计出啊一个相对准确的啊,一个智能体的状态,将给我们做这个安全约束呢,呃带来很很大的一个呃帮助啊,如果我们就是预测的准,那我们因为我们要做约束,连我们都拿不到一个安全的一个准确的状态,用它再去做安全约束,那么可想而知,这个安全的也会遇到的很呃一些问题啊,另外一个点呢就是这个决策风险啊,这个决策风险呢,我们是从这样的一个角度来看的啊,就是如果我们不考虑风险啊,那么一般来说我们这个模式里面呢会啊,这个约束里面呢会用这个E是吧,这样的一个通用的一个方法,但是有些行为啊,他虽然从概率,从这个期望上来看啊,他的这个风险呢呃是是呃不不大的啊,但是我们并不允许啊,这些嗯很危险的这些呃动作啊,很明显的这些状态呢能够出现啊,那么怎么办呢,那我们就要考虑这个风险啊,要考虑这个不要用这个平均的啊,这样的一个呃期望来做,而是呢用其他的啊一些统计呃,这这个概率的一些方法,然后刻画这个呃风险啊,让我们能够真正的避免一些高风险的行为啊,这个是一个研究角度,今天呢我们重点呢是聚焦在这个状态和,这个部分,可就是和这个观测之间的这个差异,这个角度呃,那么我们介绍的第一个工作呢,是叫基于呃集缘信念状态的强化学习,这个工作呢我们主要的动机呢是这样,就是现在面对这个复杂的噪声啊,那么现有强化学习方法呢,呃它是在学你学习这个信念状态的过程中,呃,大多呢只是获得信念状态的一个概率描述,比如说卡尔曼滤波的方法啊,那么没有办法提供一个包含隐藏状态的,有界区域啊,以使这个智能体能做出正确的决策,这是目前呢也是个问题啊,也是我们研究的一个动机啊,我们觉得这样呢它会受限啊,有很多情况下呢状态呢呃的这个噪声啊,就环境的噪声呢并不是一个高斯噪声啊,所以呢这种方法呢它会啊会有一些问题在处理,相关的呃这些呃呃环境的时候啊,那么我们主要的创意一点呢,就是呃引入这个呃集源滤波啊,引入绝缘滤波,通过集源滤波的方法呢,设计了一个呃求取啊这这个信念状态的方法啊,使得呢我们能够根据观测啊,获得一个呃,基于极源滤波这个角度的一个状态估计啊,呃那么具体的这个结构啊,这里边这个模型的核心部分呢是这样的啊,一个就是呃这个图呢是上面啊,这个左上角这个图,那么它里边有两个主要的部分,一个是集缘预测啊,呃一个是这个测量更新呃,机缘预测呢它主要是呃预测一个状态啊,那么它会根据呢我们在这个绝缘滤波里呢,我们这个状态是怎么表示的呢,我们是有一个状态的一个中心点,以及状态的一个幅值啊,这个幅值呢我们就是它的大小的一个,震荡的区域啊,这个我们是用一个形状矩阵来进行刻画,这样的话就会把状态的估计呢做成一个这样的,一个有一个中心点啊,带有一个呃范围的啊,这样的一种估计形式来刻画这个状态,那么对于集元预测来说,它的输输入是上一时刻的啊,这个中心点和上一时刻的形状矩阵,也就是啊这个它主要这个不好,就是这个和这个啊这两个输入输入以后呢,它就可以得到一个对状态的一个预测啊,大家看可以得到这个ST的尖啊,Hat,还有这个P的,这个就是这个矩阵呃,这两个预测,这两个预测呢是,的一个预测,这个预测是一个呃时持续的啊迭代的一个过程,那么它会如果没有一个真实的观测的,一个一个调整,那么它会逐渐的偏离我们预测的,就是我们真实的状态,所以在在这个测量更新的时候呢,我们还会引入啊,这个当时这个时刻的这样的一个一个观测,那么这个观测啊和我们的这个状态预测之间呢,它是有一个交集的啊,这个交集呢就是我们啊认为的这个信念状态呢,应该所在的区域啊,我们通过这样的方法在测量更新的时候呢,求到我们所预测的这样的一个呃,一个新建区域啊,那么这个就是我们提供给这个我们的安全,强化学习的约束所使用的那样的一个状态啊,就是就是这个交集的一个区域,那么具体这个结构呢我就不详细说了啊,就是呃从从我们的这个实际的这个结构来看啊,整体的结构来看的话,我们主要做的部分呢就是这一块,就是绝缘滤波的这样的一个模型,这个就是刚才我们说的绝缘预测啊,加测量更新的那一部分,把它嵌入到一个常规的啊,接呃这个呃强化学习的流程中啊,就可以实现我们这个呃安全啊,就是相对安全的这样的一个强化学习嗯,那么具体呢我们也做了一些实验方面的验证,关于这个工作啊,那么我们首先呢是在一个非安全的啊,就是没有考虑安全的环境啊,没有安全的环境呢,这个环境它就是没有成本函数啊,只有这个回报啊,这个return,那么我们根据这样的一个结果,我们把我们的算法啊,就是个SBRL啊,呃进行测试以后呢,也获得了一个呃,呃这个比较好的这样的一个结果,那大家也肯定说你是做的安全,你现在在一个没有安全的环境上,为什么还是有效果呢,其实大家想这个约束问题,它本身我们的这个目标函数里面,它也是有状态的,不仅仅是约束里面有状态,所以说我们状态的估计的准确,即使在呃就是没有安全约束,不考虑安情况,这个新建状态估计的准确,也会带来好的效果啊,同时呢我们也还在一个安全的环境中呢,进行了一个呃实验啊,那么以一个PPO啊,呃就是这个呢是在安全的环境中,但是我们用的呢是这个PPO,就是不带安全约束的方法,我们把我们的信念状态估计的这个策略啊,这个方法呢给它结合起来,最后得到的结果,大家看我们这个这都是一些不同的环境啊,那么我们得到的这个SBL,就是我们现在这个蓝色的线啊,我们得到的这些性能呢,相对来说呢基本上都是比较好的,呃,另外呢我们就在一个还是在这样的一个safe gm,这个环境下,然后我们把它与这个PPO的这个安全版本啊,就ISA这个这个算法结合,就是把我们的纪念状态估计的方法,跟这样的方法结合呢,最后我们看啊这个结果是这样的呃,第一个啊第一个这个是是有reward啊,是这个奖励,第二个是这个成本啊,成本函数就是对于reward来说,我们肯定是越高越好是吧,对于这个成本函数啊,这个cost来说,我们这个算法的损失啊越越小越好,说明我们在这个环境中犯的错误越少啊,最后也是一个损失率啊,呃所以总体来看呢,我们这样的一个信念状态的方法,和我们的强安全强化学习呃,这个结合以后啊,我们这种方法能显著的提升了,这个安全强化学习的呃相关的性能呃,这是第一个啊,第二个关于安全强化学习方面的工作呢,我们做的是一个多智能体下面的一个呃工作,这个呢叫做局部依赖的安全策略呃,优化方法啊,那么具体的一个问题啊,当时也想到一个问题,就是安全约束呢,呃引起一个全局耦合和状态动作啊,空间大小的这个指数增加啊,因为我们是有很多的智能体是吧,它这些约束呢都要进行一个组合啊,那么这样会限制呢集中式啊,这个学习方法呢,在即时通信和计算资源受限的这样的系统的,大规模系统中的应用,那么我们就想啊,那我们是不是可以啊减少啊,这个他们呃在计算啊,在考虑这个全局状态的时候啊,所考虑的这个智能体的个数啊,嗯那么那么我们就呃做了这样的一个事情,就是引入呢关于动力学,还有策略相关性的假设啊,量化了阶段优势函数的这个信息损失,并提出了一种啊,这种叫局部依赖的安全多智能体强化学习啊,提出这样一种方法,那么,侧面那么基于空空间衰减啊,这个就是保证的局部方法呢可以收敛啊,然后置信域我们可以呃,给出呢性能提提升的一个下界,以及安全啊约束的一个界啊,然后还有异步更新啊,我们不是所有的智能体都同步更新,是异步更新啊,这样呢可以缓解啊,局部范围内的这样的一个策略的冲突,呃具体来做的时候啊,我们是呃底下的啊这样的一个步骤啊,以下一个步骤,那么首先呢我们是引入了啊,引入了这个动力学和策略,空间指数衰减这样的一个假设啊,基于这个假设呢,我们又量化啊,截断的优势函数来进行这个信息损失,那么这个地方啊我们就有一个问题啊,就每一个呃步骤里边呢我们都是列的,也是关键步骤啊,也有一些关键问题,这里边呢就有一个问题,就是如何去呃量化优势函数的信息损失啊,我们也给出了一些理论方面的一些呃分析啊,那么呃结论,结论就是基于动力学和这个策略空间的,相关假设呢,我们可以啊可以量化优势函数的这个信息损失,那后面一步呢就是结合这个优势呃,优势阶段的介,还有置信域方法的介分析呢,局部依赖下的呃性能下界,还有安全的约束边界啊,呃那么这里边啊,也是因为我们要加这样的约束啊,那么也如何避免呢,策略更新的时候呢不会过于保守啊,我们也进行了相关的理论分析啊,也得出了一个这样的一个呃相关的一个分析,结果,就是结合阶段优势函数和置信域方法呢,获得了k hop的依赖的性能下界,以及安全约束的一个上界啊,呃最后一个重要的一个步骤呢是给出了局部啊,这个含局部依赖,策略的性能的保证的这一个定理啊,这个呢呃也是呃要证明啊,我们的方法可以持续的提高性能啊,并在每次迭代的过程中呢,还能够满足这个安全约束啊,这个呢也给出了呃呃相应的一些证明啊,呃那么这个工作呢我们也也进行了啊,相应的实验分析啊,我们我们的方法呢和现有的最最方法呢,呃最大的一个区别和贡献,就是我们希望我们能够用更少的的通信啊,就是局部的依赖能够实现啊,与这个已有的啊全部啊使用这个所有智能体啊,进行这个呃分析的这样的一个结果啊,我们能够达到相当的结果啊,就能表示呢我们这样的研究呢是有效的,呃那么我们所以呢呃做的这个实验对比呢,其实一个啊,就是说跟这个呃非安全的学学习方法,像这个IPPO啊,呃HAPPO啊等等,还有后面的我们呃使用啊,全部这呃这个呃智能体的这个方法,MAPPL进行对比,那么这里边也有一些呃对比的结果啊,那么我在我们这个里面这个前面啊,就是这个这个比较字比较小啊,这个前面这块呢用的是呃,那边图六的一个智能体啊,就是有六对腿的一个蚂蚁啊,六对腿的一个蚂蚁,它每一对腿呢可以是一个智能体啊,也可以分,像我们前面这个2×3就是两个啊,两个蚂蚁,每个蚂蚁呢有三条腿,三对腿啊,就是两个智能体,然后3×2呢就是三个,把它分成三个智能体,每个智能体呢有两对腿啊,最后这个是66×1,不知道这个也是比较小啊,大家可能看不清啊,就但是呢就是他对这个这样一个环境呢,我们可以自己设置啊,成不同的呃情况的智能体啊,然后我们对我们的方法呃进行一个一个验证啊,一个验证,呃我们看我们的我们的方法呢,是这个呃绿色的啊,是绿色的这个方法,那绿色的方法呢,我们看我们基本上在这个呃损失的这个函数啊,就是这个损失函数的情况下呢,我们和它使用全部的智能体的,这个方法呢是非常的接近的啊,就即使我们呃只用了一半的智能体啊,去呃进行状态的这样的一个估计,但是我们得到了非常类似的一个效果啊,而且从这个性能啊,这个呃最终的达到的这个reward的角度来看呢,我们也很接近啊,和和这个红色的啊,就是我们这个绿色的和这个红色,这个方法呢是非常接近的啊,呃后面呢也是类似的啊,后面是另外一个环境,是在这个呃这个环境上面去做的啊,这个环境上去做的一些验证,因为时间关系呢我就不详细说了啊,这个工作呢呃也是呃刚刚被这个NEUPS录用啊,好这个下面呢我就汇报一下呢关于offline呃,强化学习的一些呃相关的一些思考哈,呃那么offline强化学习呢,大家都知道我们主要面临的一个问题呢,是这个分布偏移的问题啊,这是一个我们呃offline最大的挑战,那么针对这样的呃一个研究领域呢,在呃20年啊,new yorc的一篇文章呢,已经呃对offline呢进行了一个系统的一个呃,相当于一个呃review啊,它把它分成四类啊,一类是基于这个策略约束的啊,基于还基于模型的啊,基于这个值函数正则的,还不确定度量的这样四类,那么总体来说呢,这些方法呢都是啊一些偏于保守,他就是希望啊我们这个未见的数据啊,都采取呢就是最保守的行为啊,最保守的一个决这个策略啊,这样是呃我们这个一个基本的思路啊,但是这个呢会一定程度上啊会影响啊,这个对未健数据的啊,他的这个预测啊都呃这个那么怎么办呢,我们大家呢也会有一些啊探索啊,这个也也有很多了啊,这里边有MCQ啊,PRDC啊等等,都是一定程度上的放松了,对这个保守性约束的啊,这样的呃要求啊,然后提升了泛化性能,但是不管怎么样啊,这些方法呢,它大多都是从模型算法的设计这个角度呢,对现有的啊这个offline呢进行了一个改进,而我们的思路呢主要是想啊,就是因为真正对数据啊,就是我们离线强化学习呢,实际上不跟环境做直接的交互是吧,我们是基于我们拿到的数据,然后去基于数据去分析,去挖掘,去得到我们这个数据啊,所能给我们带来的啊这个策略,所以呢我们呃看呃这方面啊,研究呢还不是很多啊,所以说我们呢就沿着这样的一条路啊来嗯,呃进行了我们的一个一个研究的一个呃探索吧,啊呃那我们主要是基于这样的,就是我们会把这个这是离线强化学习啊,这个呃一个基本的一个策略,就是我们想把这个学习策略啊,这个和这个行为策略呢啊尽尽量接近啊,行为策略就是我们采集数据的策略,我们想学习到一个啊,尽量啊这个是我们采集数据的时候的策略啊,那么这样呢能够呃尽可能的啊,充分的利用我们的已有数据呃,但是这样的方法呢,一般啊都是都是会有一些限制啊,就是我们换一个角度,我们从把这个数据的角度来看,我们把它分成一个圆域啊,就是我们已有的数据,然后还有一个目标域啊,目标域是我们所有的数据,就是我们虽然手里只能拿到源于的数据,但是我们希望呢我们通过圆域的数据,能够得到的策略呢能够对目标域啊,所有的未见的状态也能够做出啊,这个未见的数据啊,也能做出正确的一个预测啊,这是我们希望来做的一件事情,那么基于这样的思想呢,我们做了这么三个方面的探索呃,一个是拓展这个泛化的边界啊,就是我们现在呢已有的数据呢,是有一个这样的一个区域是吧,但是这个我们怎么去利用这个数据去拓展泛化,专精边界呢,我们把它啊认为呢我们把已有的数据呢,呃认为呢是进行切分啊,就是把它切分切分以后呢用来构造啊,子学习任务,就是构造子学任务,然后呢基于这样的数据,我们去构造一个原学习的呃这样的一个学习器,通过这样呢我们学到啊这样的一个模型以后呢,这个模型呢可以很好的泛化到未见数据啊,这个当然这个泛化能力也是不是可以变现,泛化到所有的啊,我们知道它的呃也要限制在一定范围内啊,就是接近我们已有数据的周边的这些数据啊,做一些预测,做些泛化呢就会一定程度,而且是呃呃有有很好的效果的,去提升这个离线强化学习的效果,呃基于延续这个思路的,我们还想想了一个思想啊,就是我们把这个已有的数据呢,给他分析的再详细一点啊,就是这个行为策略去采集数据的时候,它是一个行为策略采集的吗,有时候很难说啊,从我们离线角度来看,可能是多个啊,行为策略,也可能是多个不同的时间段采集回来的数据啊,那么这些数据呢,它的分布呢实际上是是一个复合的分布,那么如果能够啊有有一种手段,我们发现这些不同的分布,把这些不同的分布呢,分别又当做啊这个呃相应的源域和目标域啊,来进行这个呃,呃这样的一个离线强强化学习的这个,模型的训练,那我们也可以呢,获得了很好的这个数据的泛化能力啊,这也是我们的一个角度,另外还有一个呢是这个用在这个model base的好,就是model base的,现在我们主要是这个基于相似状态的构,构建一个泛化边界,就是现有的这个我们基于数据呢,是可以构建一个model是吧,构建一个model,那么构建一个model以后呢,基于这个model呢,我们去可以做做这个呃数据的采集是吧探索,然后可以啊进行这个呃,相应的这个学这个应该模型,离线这个策略的学习啊,但是呢我们分析呢发现有的model呢,它实际上并不不去啊,关心或者是很难去限制这个轨迹,学习的这个这个范围啊,很容易呢,就是我们这个红色部分呢,是我们已有数据训练出来这个model啊这个范围,那么我们在这个model上去学呢,这个轨迹呢很容易啊偏离这个数据,而且离得很远,这样采集的数据呢啊,就是其实这个model采集的很多的数据,都是有问题的,都是错的啊,那么这样呢,如果还用它去训练我们的这个模型啊,策略呢就会有很大的问题,所以我们也也大概构建了这么一个边界啊,就是这个另外一个左右下角这个图啊,就是在这个model边上呢,我们啊假想有这么一个边界啊,我们把它约束在这个边界,让我们去采集数据啊,基于model去采集数据的这个轨迹呢,能够约束在model附近的这个范围啊,这样呢也能够让我们啊能够学就是获取更多的,而且是准确的样本啊,为我们的这个模型学习呢,呃这个好的模型学习呢奠定基础啊,这也是一个思路啊,呃因为呃后面两个工作呢还呃还在投稿啊,我今天就主要给大家汇报一下第一个工作,是不是,哎好了好这个呃这个是呃一个稍等咳,那么这个工作的他主要的动机呢是这样啊,就是我们现有的方法啊,就是刚才其实已经提到了啊,就是都是以这个硬边界啊,就是我们有什么数据,我们就用这些数据呢去呃去呃做这个预测是吧,超未见数据呢我们都采取最保守的方法啊,要让他约束到已有的这个范围内啊,保不保证了它不要呃出错啊,这样的话呢就出现这个在边界附近的样本啊,就是有在边界内部的样本,一个一个待遇啊,就是一个结果,然后只要超越边界一点,那么我们都要采取最保守的策略去约束它啊,这样的话呢,导致呃很多这个预测的效果呢会受到限制,那么我们所做的呢就是啊,提出了一种呢能够从经验数据中,自适应的提取知识啊,来影视的泛化呢临近的未知状态的这个状态,对坐对啊这样的一个方法,那么本质上啊,就相当于是软化了这样的一个硬边界,其实呢是我们用到了更多的数据啊,可以啊提升啊这个我们策略学习的效果啊,那么具体的实现呢,我们实际上是呃用了这个对数据啊,就对数据的进一步的细分,我们把数据呢划分成呃train和,这个就是训练和验证子集啊,我们把数据呢划分划分完了以后呢,那我们当然一个因为是要用元学习的方法,我们把数据呢做很多次划分,这个划分中呢有一个对抗的过程啊,就是我们划分完呢,要让这个呃训练子集和验证子集呢,它们的差异最大啊,以这样的一种形式呢获得多组啊,不同的啊这样的训练数据,最后呢用原学习的方法呢来实现啊,我们这个呃这个模型啊,那么具体来看呢就是这个问题的定义啊,就是第一个是他一这样一个,带约束的这么一个问题啊,带约束的一个呃问呃强呃这个优化问题,那么目标上面呢是我们对,就是要对所有的训练和验证子集的划分下的,这个DV啊,就DV是验证集,我们都要能够泛化到啊,我们要让它的这个呃损失最小啊,同时呢底下我们有一个约束啊,就是这样的一个约束,要现在这个训练的子集啊,有这个训练,我们刚才把它划分成训练子集和,这个验证子集是吧,然后然后先在训练子集上呢,要学一个好的参数啊,然后用在这个这呃约束里面,这个DT啊,那么从我们这个划分的角度来看呢,我们可能是希望啊有更多的越多的划分,然后因为这个划分的种类呢是无限的啊,那么这样的话呢去枚举呢是呃不大可能的,所以我们想到一个方法,就是用一个上界啊,呃就是分布差异最大,我们每次这个会会用一一个呃策略啊,一种方法啊,就是对抗的方法呢,我们把分布差异最大的这样的数据啊,给它造出来啊,每一轮循环的时候呢,我们会把它造出来,然后是使它呢能够作为约束啊,就是把我们只要把分布最差异,最大的数据都给它啊进行了约束,那么我们就可以等同于我们把所有的这个呃,这样的这个数据啊,这些划分呢都做了约束啊,这大概就是这样的一个呃思想啊,那么这个我们相应的呢也有一个理论的一个呃,一个分析吧,啊,就是我们现在这有一个这样的目标域的,一个泛化的一个误差啊,这个误差我们是能保证这个误差啊,基于我们的方法呢,是能保证这个误差呢尽可能小的啊,这里面有一个就是验证子集的经验误差,这个就在咱们的目标函数里面啊,这个就可以保证啊,这个约束优化问题呢保证它会最小啊,同时呢后面还有这样的一项啊,这个其实跟我们刚才说的啊这个差异啊,训练集和呃验证其的差异最大啊,这件事情是有关系的啊,就是它呢能够保证啊,就是我们这个约束优化问题里面呢,啊下面这一项啊,就这一个这个约束啊,这一项呢能够保证啊,我们刚才的呃,后面这一项呢能够取到嗯比较大的值啊,这样的话最后的结果呢,就是我们前面这个验证子集的经验误差呢,可以约束到很可以呃很小,然后后面这个差异呢可以很大,就保证我们现在啊这个目标域的这样的一个,泛化误差件呢可能尽可能小啊,所以说通过我们这个呃建立的这个优化问题啊,前优化目标呢是可以得到一个,具有比较像紧致的啊,这样的一个泛化界的这样的一个结果的啊,那么相相呃基于这样的一个啊模型啊,我们也做了相应的算法,也进行了验证啊,那么这个验证里面呢,我们首先是因为我们是这个方法呢,它是一个对数据相当于在做预处理啊,我们把数据进行处理,对数据进行挖掘,数据里面的信息挖掘的这么一种方法,我们是从强化学习的流程来看,我们是可以嵌入到现在的主流的啊,这个强化学习方法啊,这个呃呃这个offline的强化序方法中,我们跟CQL啊,还有呃TD3MCQ啊进行了这个结合,结合以后呢,我们会发现啊,就是把我们现在这个数据处理的方法,进行结合以后呢,我们得到的这个结果啊,得到的这个呃回报啊,都是呃比较好的啊,另外呢我们也把我们的这些方法呢,和其他的一些啊有呃,offline sota的方法呢进行了一些对比啊,也可以看到呢也具有相对呃较好的一些性能啊,另外呢这里我们还对它的这个呃值,估计的一些错误啊,还有参数嗯,还有这个收敛性,以及呢这个时间消耗进行了分析,因为我们说是我们是独立于强化学习过程啊,然后又进行了一个数据的深度的挖掘和分析,所以相当于我们是要增加成本的啊,时间成本的,所以我们也可以看到在这个这个图中啊,比如说CQL它本身的时间呢是47.9,而我们这个时间呢加上我们这个ADS呢,是105.1啊,就是这个可能达到要翻倍啊,这样的一个时间消耗,但是呃总体来说呢,毕竟啊我们是呃明显的提升了啊整体的性能,所以这些时间消耗呢也是有有价值的啊,那么呃最后呢我就简单啊总结一下啊,那么我们今天主要是从这个强化学习,从理论呃到实际应用中的这个挑战啊入手呢,来聚焦safe和offline的强化学习的这个研究,我们主要做的工作呢在safe方面呢,我们是从状态部分可观测啊,还有风险敏感角度呢设计安全约束,探索呢安全的强化学习方法,呃今天其实我们呃整体的这套呃研究呢,还在做啊,但主要今天嗯给大家汇报的是这个部分可观啊,就是状态和观测之间如何啊,才这个能够呃就更好的基于观测去获取,更精准的状态,这样的一个角度呢来做的一些工作,在offline这边呢,我们是从啊与自适应的角度呢来看,怎么去利用数据啊,就是数据就那么多啊,我们怎么去深度的呃,挖掘这个数据里蕴含的这些信息啊,蕴含的这些呃呃这些规律啊,然后基于它呢我们呃获取啊,基于现有数据的一个呃,对未建数据的一个很好的一个泛化能力啊,这个呢是我们在offline强化学习这个角度啊,是这个方向上的做的一个一些探索呃,呃最后呢简单也给大家汇报一下,我们呃山大啊,目前的这个强化学习的团队,大概有有六名老师啊,呃七名博士生,还有20余名这个呃硕士生啊,我们主要聚焦的是这个离线安全,多智能体强化学习,还有在线学习智能控制等啊,嗯这个我们今天汇报的工作呢,主要是我的这个博士生王达,还有张立军两位同学呢来完成的啊,当然还有其他呃,比如说梁老师啊,呃呃这个李林老师啊等等几位啊,我们一起来合作完成的这样的工作啊,好呃那我就汇报这些,谢谢大家,看下面这个我们可以天时间比较充裕啊,这个我们场地也比较小啊,就是比较有利于,请问请问老师在做这个save,我觉得一般情况下是on policy的算法,这个我觉得这个一般来说应该是off policy哦,因为我们要做的呃,呃一旦到了这个应用层面吧是吧,我们可能首先要做offline呃,来来去做一些训练,然当然我们后面也可以去做offline呃,to online的这个工作来再进行一些微调是吧,但总体来说,我觉得还是要以这个of policy这样的方法,但是如果要说我们这个可能也要分阶段了,这样如果到了后面,我们比如说要做到了后期要做这个on online,这个阶段去做微调,如果能够找到很好的online的这个呃,就是on on policy这些策略是吧,这些方法也是一个,可能会让我们的样本效率更高的一种呃,一种解决方案应该是啊嗯our policy的话哦,好的,APOLICY这个算法,它确实传统的比较经典的OPPOS算法,像TD3在这个数据利用率上,可能确实像比PPO这样的on pos算法,要稍微低一些,但是如果样本的那个数量上来的话,它能够实现比on policy更强的安全性能保证,对对是的,那么还有一个问题就是老师刚才也提到了,offline to online的一个过程,就是我们这个offline的数据收集,是通过什么什么方式收集的呢,现在offline收集我们就是通过比如说行为策略,也可以是一个是真实环境的交互是吧,也有可能是生成的数据,还有可能是在仿真环境中模拟的数据都有,它的种类比较多,嗯像这样的任务一般用来迁移的话,一般是用哪些那个benchmark,作为实往实际中牵引的对象呢,像机械臂这样的呃迁移呃,对就是online微调这一块,online微调这块其实呃机械臂机器人控制,还有自动驾驶,这些都是一些比较重要的一些领域吧,因为offline我们其实它的价值在于,就是对于一些高风险的领域,我们没有办法做大量的环境交互真实的领域,如果是说我们可以比如做跟环境直接去做,带大量的无风险的交互的话,那这个问题就就不存在了,所以很多其实采样的时候也不可能,就是比如说是自动驾驶,你去采样的时候,也很难说是我采集很多的这个呃有风险的,比如说撞撞了的呀是吧,或者是出现一些风险的数据,但是我可以比如说用这个呃模仿学习啊,或者让专家去做一些安全的这些采集,这个是可以采集到的,那实际上这个还就是迁移到online的迁移,实际上还涉及到一个seem to real的一个问题,对对对,这还是两个问题,就是sim to real,还有另外就是我们现在大概考虑的一些事情,还在sim的这个范畴内,如果再到real还有很多问题,还有这个呃跨域啊,还有当然还有这个本身,这个迁移里面迁移哪个部分是吧,是迁移具体的哪哪种角度去迁移,都还有很多问题,现在有些有些我看有些论文已经做做一些验证,就是他会迁移到一个比如机器狗呀是吧,为什么来看它能够走多远呀,或者是能稳定走几步,但实际这种迁移感觉,其实可能更多的是这个实验效果,展示这个角度的呃,一种呃一种结果,真正的这个实际价值上,他对迁移上的贡献,我觉得还不是特别的多吧,感觉哦好的,谢谢了,还有还有最后一个问题,就是offline它的数据获取的话,所用的这个决策的策略,它是已经存在的一个稳定策略吗,还是说像人自己操控的那种,它不是一个稳定的呃,甚至不是一个策略,它可能是很多策略不同的条条件,有的是人类专家的,有的就是实际交互的,有的甚至是我,我可以用一些生成式的方法生成的,都是可以的哦,好的谢谢老师好,谢谢啊,呃魏老师您好,我是想请问三个问题,一个是呃像在PPT刚开始有一个那个安全约束嘛,安全强化器里面那个安全约束呃,像您那边是怎么去处理这个约束的,就是是用那个拉格朗日呃,放到里面去做吗,还是说有什么别的方法呃,是就就是就是这样去做吧,就常规的方法啊,具具体去实现的时候,然后其实呃我们呃我做过一些CFIL的工作,然后上面有一个问题,就是说呃用拉格朗日的时候,它会有一个拉格朗日算子land的嗯,呃实际上呃像我们在训练的时候,它为它就是因为land的值是变的嘛,呃实际上他强化学习,对这个lander的这个变化是非常敏感的,就是呃可能烂的稍微增大一点或者减小一点,他的cost本来已经降到,比如说满足那个安全约束了,然后又会突然就一下子就增大了,呃像这个问题就是您有没有什么见解,哎呀这个有没有没有太好的太具体了,确实啊具体嗯就是没有太好的,这个呃特别有效的方法吧,我觉得这个也是要调的,嗯嗯呃,另外呃第二个问题就是像那个cos那边,实际上也有一个折扣因子,折扣因子的影响,然后呃我是做那个无人机,就是强化学习跟无人机坐一起,然后我们实际上对呃安全问题特别在意,因为那个无人机它它飞的时候,如果碰到什么东西都非常危险,呃,所以像那个我对我们那边,就对折扣因子就非常介意,因为实际上折扣因子会把未来的那个cost,相当于他的权重会变小嘛,对呃对,所以说像在这个折扣因子的处理上,像不知道您那边有没有什么好的想法,我觉得这一点你可能比我们做的还要更呃,就是更接近于这个实际一点是吧,因为你面向一个直接的无人机的,这个控制的问题是啊,所以这块我们还是在这个仿真的,就是这个已有的这个benchmark的,thief benchmark这个环境中去做的,所以这个问题可能也没有,还暂时不能给,没有给你一个好的一个解决的方案啊,行还还有最后一个问题就是呃我想请问一下,实际上在那个reward的设置阶段呃,存在一个问题,就是我们可能我在做无人机的时候,我们有一个问题就是呃,比如说我要最大化reward跟最小化cost之间,实际上它有一个那个balance的问题,就是就跟开那个比如说开赛车一样呃,如果你想开的更快,可能就需要采取一些更危险的动作,所以呃像我们在训练的时候,通常出现一种情况,就是说cost下降的话,reward也会下降,呃因为他们两个之间要做一个那个平衡嘛,嗯对,所以说呃我就在考虑这个reward跟cos之间,怎么去做这样一个平衡,像您呃对这个问题怎么看,就这个像我们一般来说,我觉得reward可能是我们比较追求的一个东西,但是在安全领域呢,我们可能就是在保持这个怎么说呢,就是希望他的这个reward,保持在一个比较好的状态的情况下,能够把这个coast能够也同样的就是能降下去吧,就像我觉得是类似于有主有次吧,啊嗯大概是这这样的一个想法啊,就是因为如果我们两个都很在意,然后两个也不是以谁为这个呃,就是重心或者是以谁为主来做这件事情的时候,可能就很难很难来这个得到一个我们理想的,一个甚至一个收敛的结果都很难有好啊行,谢谢谢谢魏老师哈哈,天天时间已经到了50分钟了,这个就再次感谢啊薇薇教授带来的一个报告,然后我们下面同学还有这个提问的,我们可以私下交流,好好谢谢 点击折叠1136行 快捷键提示 单击字幕跳转,双击字幕跳转+切换暂停。 alt+单击字幕复制单条字幕。 上下方向键来移动当前字幕(可先点击字幕使焦点在字幕列表内)。 请先设置API密钥以使用总结及翻译功能 设置 → BibiGPT logoBibiGPT 这是网页版的字幕列表,支持任意视频提取字幕总结(包括没有字幕的视频) ✨ BibiGPT ✨ youtube caption logoYouTube Caption 这是YouTube版的字幕列表 Chrome商店 Edge商店 Crx搜搜(国内可访问)
Podcast Editor
Podcast.json
預覽
音頻
