谷歌用强化学习打造23个机器人帮助垃圾分类

发布时间：2023-04-26 14:09:12 所属栏目：动态来源：

导读：强化学习（RL）可以让机器人通过反复试错进行交互，进而学会复杂行为，并随着时间的推移变得越来越好。之前谷歌的一些工作探索了 RL 如何使机器人掌握复杂的技能，例如抓取、多任务学习，甚至是打乒乓球。虽然机器人

强化学习（RL）可以让机器人通过反复试错进行交互，进而学会复杂行为，并随着时间的推移变得越来越好。之前谷歌的一些工作探索了 RL 如何使机器人掌握复杂的技能，例如抓取、多任务学习，甚至是打乒乓球。虽然机器人强化学习已经取得了长足进步，但我们仍然没有在日常环境中看到有强化学习加持的机器人。因为现实世界是复杂多样的，并且随着时间的推移不断变化，这为机器人系统带来巨大挑战。然而，强化学习应该是应对这些挑战的优秀工具：通过不断练习、不断进步和在工作中学习，机器人应该能够适应不断变化的世界。

如果人们没有正确分类垃圾，成批的可回收物品可能会受到污染，堆肥可能会被不当丢弃到垃圾填埋场。在谷歌的实验中，机器人在办公楼周围漫游，寻找“垃圾站”（可回收垃圾箱、堆肥垃圾箱和其它垃圾箱）。机器人的任务是到达每个垃圾站进行垃圾分类，在不同垃圾箱之间运输物品，以便将所有可回收物品（罐头、瓶子）放入可回收垃圾箱，将所有可堆肥物品（纸板容器、纸杯）放入堆肥垃圾箱，其他所有东西都放在其它垃圾箱里。

其实这项任务并不像看起来那么容易。仅仅是捡起人们扔进垃圾箱的不同物品的任务，就已经是一个巨大的挑战。这样的机器人还必须为每个进入的物体识别选用合适的垃圾箱，并尽可能快速及时有效精细地对它们进行准确无误的分类。

这里使用的强化学习框架基于 QT-Opt，实验室环境下的不同垃圾的抓取以及一系列其他技能也是使用该框架。在仿真环境中从简单的脚本策略开始引导，应用强化学习，并使用基于 CycleGAN 的迁移方法，利用 RetinaGAN 使仿真图像看起来更加逼真。

最终，研究人员从 “robot classrooms” 收集了 54 万个试验数据，在实际部署环境收集了 32.5 万个试验数据。随着数据的不断增加，整个系统的性能得到了改善。研究者在“robot classrooms” 中对最终系统进行了评估，以便进行受控比较，根据机器人在实际部署中看到的情况设置了场景。最终系统的平均准确率约为 84％，随着数据的增加，性能稳步提高。

基于强化学习的系统可以使机器人在真实办公环境中处理实际任务。离线和在线数据的结合使得机器人能够适应真实世界中广泛变化的情况。同时，在更加受控的 “课堂” 环境中学习，包括在仿真环境和实际环境中，可以提供强大的启动机制，使得强化学习的 “飞轮” 开始转动，从而实现适应性。

虽然已经取得了重要成果，但还有很多工作需要完成：最终的机器人强化学习策略并不总是成功的，机器人需要更强大的预测模型来改善其学习性能，并将其扩展到更广泛的任务协作机器人范围。除此之外，其它经验来源，包括来自其它任务、其它机器人，甚至是互联网视频，也可能会进一步补充从仿真和” 课堂 “中获得的启动经验。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!