您好,欢迎来到12图资源库!分享精神,快乐你我!我们只是素材的搬运工!!
  • 首 页
  • 当前位置:首页 > 开发 > WEB开发 >
    Acme框架真香!用过一次后 伦敦博士撰文大赞DeepMind强化学习框架(2)
    时间:2021-08-08 08:11 来源:网络整理 作者:网络 浏览:收藏 挑错 推荐 打印

    Acme框架真香!用过一次后 伦敦博士撰文大赞DeepMind强化学习框架

    SARSA 智能体

    SARSA 是一个基于策略的算法,其更新依赖于形状(state)、举动(action)、奖励(reward)、下一个形状(next state)和下一个举动(next action)而得名。

    首先,在智能体的 __init__ 办法中,我们初始化 Q、形状举措值矩阵和行为策略,这是一个 epsilon 贪心策略。还要留意,这个代理必须一直存储它的上一个 timestep、 action 和下一个 timestep,由于它们在更新步骤中是必需的。

    Acme框架真香!用过一次后 伦敦博士撰文大赞DeepMind强化学习框架

    Acme框架真香!用过一次后 伦敦博士撰文大赞DeepMind强化学习框架

    在observe函数中,通常没有什么必须做的事。

    在这种状况下,我们只是存储察看到的时间步和所采取的操作,但是,这并不总是必要的。例如,有时能够希望将时间步骤(和整个轨迹)存储在数据集或重播缓冲区中。

    Acme 还为此提供了数据集和额外的组件。理想上,还有一个由 DeepMind 开发的Reverb库用来做这件事。

    下面的 transform_state 办法只是一个辅佐函数,用于将形状转换为正确的格式,以便正确地对 Q 矩阵停止索引。

    最后,训练 SARSA 的环境为500,000步。

    Acme框架真香!用过一次后 伦敦博士撰文大赞DeepMind强化学习框架

    Q learning 智能体

    下面的 Q learning 智能体与 SARSA 智能体十分相似。它们的不同之处仅在于如何更新 Q 矩阵。这是由于 Q 学习是一种非策略算法。

    Acme框架真香!用过一次后 伦敦博士撰文大赞DeepMind强化学习框架

    Acme框架真香!用过一次后 伦敦博士撰文大赞DeepMind强化学习框架

    博客作者以为, Acme 是一个十分好的强化学习框架,由于你不需求从头开发你的算法。所以,与其本人揣摩如何编写可读和可重复的 RL 代码,你可以依托 DeepMind 的聪明的研讨人员和开发人员,他们曾经为你做到了。

    在他们的仓库中,Deep Q-Networks (DQN)、Deep Deterministic Policy Gradient(DDPG)、Monte Carlo Tree Search (MCTS)、Behavior Cloning(BC)、 IMPALA 等常用算法的完成。

    【编辑引荐】

    猛男把400+条猫咪叫声做成数据集,可辨认猫的3种不同形状

    黑产凶猛,新批发如何保护业务和数据安全?

    建伟团队又创世界纪录!完成500公里量级现场光纤量子通讯

    OpenHarmony2.0点亮Hi3861开发板

    AI技术让修建更智能的五种方式

    (责任编辑:admin)