• 论文题目:Mastering Atari, Go, chess and shogi by planning with a learned model

所解决的问题?

  规划planning一直都是人工智能研究领域中,人们追逐的一个比较难的研究点,基于树的规划算法,像AlphaGo这类算法已经取得了巨大的成功,然而基于树模型的规划算法需要一算法工程师需要掌握什么个完美的环境模型,这个条件在算法工程师学什么专业真实的世界中是很难被满足的。

背景

  基于模型的强化学习方法先学一个环境模型,然后基于所学app安装下载的这个环境模型去规划能够解决无法在真实环境交互过多的问题。以往的经典的规划算法往往都会依赖被控对象的模型,这样对于实际地落地就存在很大的阻碍。现在做的比较好的基于模型的人工智能电影强化学习算法,都算法与数据结构不会聚焦在重建整个的软件工程环境,也就是说一般不会重构整个的观测序列。像abstract mdplatent space这类方法都能够比较高效地做值函数的估计。

所采用的方法?

  MuZero是基于AlphaZero的改进版本。MuZero人工智能明星赵丽颖无套AlphaZero到单个智能体领域以及非终止奖励的控制对APP象上。

  算算法与数据结构法主要的思想是预测未来,主要是预测软件应用那些可以直软件工程专业接用来规划软件商店未来的数据,比如预测未来的值函数。之后就可以基于预测数据进行规人工智能专业划。

  • MuZero算法

  具体做法是:模型接收一个观测数据(比如游戏的一帧像素),然后将其编码到隐藏状态空间。在隐藏状态空间可以通过给定动作和自回归的方式进行学习算法工程师需要掌握什么和训练。在每一步,模型需算法工程师需要掌握什么要产生(或者说去预测)一个策略,一个值函数(预测的累计奖appstore励),和一个即时奖励的预测(当前步的奖励预测)。模型端到端直接训练好,并且作者这里并不采用dreamerplanet学习环境模型的方法,认为模型没有必要具有从隐状态复原到原像素这种能力。隐状态只要能够去正确地估计策略软件技术、值函数和即时奖励即可

![](img-blog.csdnimg.cn/20210117160… =700x)approach

如上图所示图a:1. 给定一个隐藏状态sk−1s^{k-1}和一个候选动作aka^{k},动态模型gg需要产生一个即时奖励rkr^{k}和一个新的隐藏状态sks^{k}。2. 策略pkp^{k}和值函数vkv^{k}由预测函数ff通过输入sks^{k}计算得到vk软件工程专业=f(sk)v^{k}=算法稳定币f_{theta}lapp安装下载eft(s^{k}right)。动作at+1a_{t+1}从搜索策略tpi_{t}中采样得到。初始的状态s0s_{0}是由过去的观算法设计与分析测输入到表示函数hh中得到的,比如输入空的棋盘。图b:动作at+1a_{t+1}由搜索策略tpi_{t}产生。环境接appreciate收到动作之后产生一个新的观测ot+1o_{t+1}和即时奖励ut+1u_{t软件工程专业+1}图c:MuZero训练整个模型,基于a和b两步,我们已近能够采样到一些数据了。拿到这些数据就可以训练模型了:策略模型pk≈t+kp^{k} approx pi_{t+k}算法初步;值函数vk≈zt+kv^{k} approx z_{t+k};和奖励模型rk=≈ut+kr^{k} = approx u_{t+k}

  给定一个时间步ttapp安装下载,对于每一步k=0,⋯ ,Kk=0,cdots,K步,一个带有theta参数的模算法工程师学什么专业m人工智能a1鞠婧祎换脸u_{tappearheta},基于给定的过人工智能al女神古力娜扎去的观测数据条件o1,⋯ ,oto_{1}, cdots,o_{t}和未来的动作at+1,approve⋯ ,at+ka_{t+1}, cdots, a_{t+k}(其中K软件工程专业>0K>0)来预测未来的:

  策略

ptk≈(at+k+1∣o1,…,ot,at+1算法工程师,…,at+k)p_{t}^{k} approx pileft(a_{t+k+1} mid o_人工智能专业{1}, ldots, o_{t}, a_{t+1}, ldots, a_{t+k}right)

  值函数

vtk≈E[ut+k+1+ut+k+2+…∣o1,…,ot,at+1,…,at+k]v_{t}^{k} approx mathbb{E}left[u_{t+k+1}+gamma u_{t+k+2}+ldots mid o_{1}人工智能ai女神赵丽颖, ldots, o_{t}, a_{t+1}, ldots, a_{t+k}right]

  即时奖励

rtk≈ut+kr_{t}^{k} approx u_{t+k}

  其人工智能概念股u软件u是真实地观测奖励,pi是策略,g软件技术amma是折扣因子。

  说白了就是拿到过去的观测数据,编码到当前的隐藏状态,然后再给定未来的动作,就可以在隐藏状态空间中进行规划了

  1. 想要实现上述功能,与基于模型的算算法初步法一样,两部走;学环境模型和策略规划。

  application环境模型需人工智能a1鞠婧祎换脸要提供的是:1. 状态转移;2. 每个节点允许搜索的动作(减少搜索空间);3. 终止节点。用神经网络来做就好了,环境模型其实是由两部分组成,表示模型和动态模型gg_{theta}

rk,sk=g(sk−1,ak)r^{mathrm{k}}, s^{k}=g_{theta}left(s^{k-1}, a^{人工智能a1鞠婧祎换脸k}right)

  表示函数hh_人工智能al女神古力娜扎{theta}对过去的观测进行编码s0=h(o1,…,ot)s^{0}=h_{theta}left(o_{1}, ldots, o_{t}right),得到当前根节点s0s^{0}。给定这样一个模型之后,对于一个未来假设软件工程专业的轨迹a1,…,aka^{1}, ldots, a^{k},和给定的过去的观测o1,…,oto_{1}, ldots, o_{t}

  1. 策略用的是与AlphaGo Zero人工智能明星赵丽颖无套样的MCTS策略app安装下载,需要搜索一个策略t=P[at+1∣o1,…软件应用,ot]pi_{软件库t}=mathrm{P}left[a_{tappleid+1} miapplicationd o_{1}算法导论吃透后的水平, ldots, o_{t}right]和一个appstore值函数vt=E[ut+1+ut+appearance2+…∣o1,…,ot]算法工程师需要掌握什么v_{t} = mathbb{E} left[u_{t+1}+gamma u_{t+2}+ldots mid o_{1}, ldots, o_{t}right]appleloss由策略、值和奖励这三部分的loss组成:

lt()=∑k=0Klp(t+k,ptk)+∑k=0Klv(zt+k,vtk)+∑k=1Klr(ut+k,rtk)+c∥∥2l_{t}(theta)=sum_{算法稳定币k=0}^{K} l^{mathrm{p}}left(pi_{t+k}, p_{t}^{k}right)+sum_{k=0}^{K} l^{mathrm{v}}软件管家left(z_{t+k}, v_{t}^{k}right)+sum_{k=1}^{K} l^{mathrm{r}}left(u_{t+k}, r_{t}^{k}right)+c|theta|^{2}

取得的效果?

  • 实验结果总之就是很厉害啦!

【Nature论文浅析】基于模型的AlphaGo Zero

所出版信息?作者信息?

【Nature论文浅析】基于模型的AlphaGo Zero

  Julian Schrittwieser谷歌大脑软件工程师!Alpha人工智能专业GoAlphaZero 的项目组成appreciate员。