Acme框架真香！用过一次后伦敦博士撰文大赞DeepMind强化学习框架(2)

时间：2021-08-08 08:11 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

Acme框架真香！用过一次后伦敦博士撰文大赞DeepMind强化学习框架

SARSA 智能体

SARSA 是一个基于策略的算法，其更新依赖于形状（state）、举动（action）、奖励（reward）、下一个形状（next state）和下一个举动（next action）而得名。

首先，在智能体的 __init__ 办法中，我们初始化 Q、形状举措值矩阵和行为策略，这是一个 epsilon 贪心策略。还要留意，这个代理必须一直存储它的上一个 timestep、 action 和下一个 timestep，由于它们在更新步骤中是必需的。

Acme框架真香！用过一次后伦敦博士撰文大赞DeepMind强化学习框架

在observe函数中，通常没有什么必须做的事。

在这种状况下，我们只是存储察看到的时间步和所采取的操作，但是，这并不总是必要的。例如，有时能够希望将时间步骤(和整个轨迹)存储在数据集或重播缓冲区中。

Acme 还为此提供了数据集和额外的组件。理想上，还有一个由 DeepMind 开发的Reverb库用来做这件事。

下面的 transform_state 办法只是一个辅佐函数，用于将形状转换为正确的格式，以便正确地对 Q 矩阵停止索引。

最后，训练 SARSA 的环境为500,000步。

Acme框架真香！用过一次后伦敦博士撰文大赞DeepMind强化学习框架

Q learning 智能体

下面的 Q learning 智能体与 SARSA 智能体十分相似。它们的不同之处仅在于如何更新 Q 矩阵。这是由于 Q 学习是一种非策略算法。

Acme框架真香！用过一次后伦敦博士撰文大赞DeepMind强化学习框架

博客作者以为， Acme 是一个十分好的强化学习框架，由于你不需求从头开发你的算法。所以，与其本人揣摩如何编写可读和可重复的 RL 代码，你可以依托 DeepMind 的聪明的研讨人员和开发人员，他们曾经为你做到了。

在他们的仓库中，Deep Q-Networks (DQN)、Deep Deterministic Policy Gradient(DDPG)、Monte Carlo Tree Search (MCTS)、Behavior Cloning(BC)、 IMPALA 等常用算法的完成。

【编辑引荐】

猛男把400+条猫咪叫声做成数据集，可辨认猫的3种不同形状

黑产凶猛，新批发如何保护业务和数据安全？

建伟团队又创世界纪录！完成500公里量级现场光纤量子通讯

OpenHarmony2.0点亮Hi3861开发板

AI技术让修建更智能的五种方式

(责任编辑：admin)

猜你也喜欢看这些 ······: [WEB开发] Acme框架真香！用过一次后伦敦; [WEB开发] 更优雅的 Kubernetes 集群事情度; [WEB开发] 分享几个任务中适用的代码优化技; [WEB开发] 五个代价昂扬的Kubernetes成本圈; [WEB开发] 关于DevSecOps的5个优秀实际; [WEB开发] 2021年前端编程开展趋向; [WEB开发] 面试侃集合 | DelayQueue篇; [WEB开发] 一文了解散布式事务的处置方案; [WEB开发] 亿级流量架构的网关设计思绪与常; [WEB开发] 别再用ls、cat命令了，这有一套; [WEB开发] Ansible剧本的6个排查技巧; [WEB开发] React要更新，就像渣男会变心

其他类型的网站教程 ······: [FLASH教程] Гидра новосибир; [dede教程] LuManager效劳器管理软件安装DED; [dede教程] Linux+Apache+PHP+MySQL效劳器环; [FLASH教程] szybkie po&0;yczki; [网页设计] Имеется ли возмо; [discuz教程] Транспортная фа; [建站经验] Как поступить в; [网页设计] Общебытовые акс; [dede教程] Many Thanks Very; [HTML教程] Many Thanks Extremely; [JS教程] Thanks Very; [SEO教程] Many Thanks Really

关键词标签查找 ······: 站长之家网站优化网站源码网页特效下载矢量图片素材网站运营 dedecms 矢量素材字体全国地图热点地方门户网站地图生成器蚂蚁分类系统齐博3.5 红旗安乐业房产源码安卓网站源码齐博分类1.51 汽车源码栏目嵌套顶部公告特效导航竖列菜单 128x128png图标 dede插件