本文来自AI新媒体量子位（QbitAI）

640?wx_fmt=png&wxfrom=5&wx_lazy=1

今天，马斯克和YC总裁Altman等硅谷名流共同创办的人工智能非营利组织OpenAI发布了一个开源的机器人模拟器Roboschool。

△ 三个应用了不同控制策略的机器人在Roboschool中赛跑

Roboschool是增强学习研究平台OpenAI Gym上的机器人模拟器，提供了一组新环境，让用户可以在模拟器中控制机器人，想在一个环境中训练同时训练多个agent也很容易。

在OpenAI Gym刚刚发布的时候，不少用户抱怨机器人模拟器MuJoCo需要付费证书。现在，Roboschool打破了这个限制，每个人都可以免费使用。

与Gazebo、V-REP等其他模拟器一样，Roboschool也基于开源的物理库Bullet Physics Engine。

环境

Roboschool包含12个环境，有的和MuJoCo差不多，也有全新的，比如说高难度版的人形机器人行走任务、多玩家乒乓球环境等。环境的数量还会继续增加，OpenAI表示也希望社区参与进来，贡献更多环境。

MuJoCo环境现有的任务转移到Roboschool中之后，画风更写实。

比如行走的慢镜头，原来是这样的：

0?wx_fmt=gif&wxfrom=5&wx_lazy=1

现在是这样：

0?wx_fmt=gif&wxfrom=5&wx_lazy=1

再比如说，新的环境中为蚂蚁增加了重量，让原来这样的蚂蚁：

0?wx_fmt=gif&wxfrom=5&wx_lazy=1

能保持至少两条腿着地：

0?wx_fmt=gif&wxfrom=5&wx_lazy=1

健壮的交互式控制

原来的OpenAI Gym中，好几个环境的目标都是学习一个行走控制器。但是，这些环境给出的目标过于基本，仅仅是“向前移动”，于是在实践中，行走策略将学会沿一条曲线轨道移动，状态空间的大部分都不会被触及。另外，最终的策略也会非常脆弱：轻轻推一下，机器人就可能崩溃摔倒。

Roboschool为3D人形机器人新增了两个带有交互式控制的环境，运动问题变得更富有挑战性。

一个是HumanoidFlagrun（人形机器人+旗标+跑），机器人在其中的任务是跑向旗标，而旗标的位置是随机变动的。

另一个叫HumanoidFlagrunHarder（人形机器人+旗标+跑+更难）比上一个增加了让机器人摔倒再爬起来的任务，在每一次训练的开始，机器人可能是站着的，也可能是躺在地上的。另外，在训练过程中，一直有白色方块攻击机器人，想让它脱离轨道，就像下面视频中这样：

虽然这个机器人行走的速度不快，看起来也不自然，但是在任何情况下都能恢复行走，也知道如何寻找方向。

Roboschool中的RoboschoolPong，允许用户在同一环境中同时训练或运行多个agent，以后还会有更多环境。

多角色训练是指，你可以训练同一个agent自攻自守，也可以用同一个算法训练两个不同的agent，甚至可以训练两种不同的算法，让他们相互竞争。

△ 在RoboschoolPong中同时训练两个agent