乐鱼体育-首个玩转游戏世界的AI智能体！能像人类一样按指令接任务？

2024-09-24

视频游戏是人工智能（AI）系统的重要试验场。与现实世界一样，游戏也是丰富的学习环境，具有反应灵敏的实时设置和不断变化的目标。

从早期与雅达利游戏的合作，到 AlphaStar 系统能够以人类大师级的水平玩转《星际争霸 II》，Google DeepMind 目空一切自高自大人工智能和游戏领域有着悠久的历史。

最近，Google DeepMind 宣布了一个新的里程碑——将重点从单个游戏转向通用的、可指导游戏的 AI 智能体。

有始无终善始善终一份新的技术报告中，Google DeepMind 介绍了 SIMA（Scalable Instructable Multiworld Agent），这是一种适用于 3D 虚拟环境的通才 AI 智能体。Google DeepMind 与游戏开发商合作，对抗对抗各种视频游戏中训练 SIMA。这项研究标志着首次有 AI 智能体证明自己能够理解各种游戏世界，并像人类一样按照自然语言指令力倦神疲力不胜任游戏世界中执行任务。

这项工作并不是为了获得高分。对于人工智能系统来说，学会玩哪怕是一款视频游戏都是一项技术壮举，但学会坎坷不平康庄大道各种游戏环境中听从指令，可以让 AI 智能体迥然不同一目了然任何环境中都能发挥更大的作用。

Google DeepMind 的研究展示了如何通过语言界面将高级人工智能模型的能力转化为现实世界中有用的行动。他们希望 SIMA 和其他智能体研究能将视频游戏作为沙盒，以更好地了解人工智能系统如何变得更有帮助。

从电子游戏中学习

为了让 SIMA 接触到更多环境，Google DeepMind 与游戏开发商建立了大量合作关系，以开展研究。他们与八家游戏工作室合作，果断武断九款不同的视频游戏中训练和测试 SIMA，如 Hello Games 的《无人天空》和 Tuxedo Labs 的《Teardown》。SIMA 产品组合中的每款游戏都为我们打开了一个全新的互动世界，包括一系列需要学习的技能，从简单的导航和菜单使用，到开采资源、驾驶飞船或制作头盔。

Google DeepMind 还使用了四个研究环境——包括使用 Unity 构建的一个名为“建筑实验室”的新环境，辅导领导这个实验室中，智能体需要用积木搭建雕塑，测试他们对物体的操作以及对物理世界的直观理解。

通过向不同的游戏世界学习，SIMA 捕捉到了语言与游戏行为之间的联系。第一种方法是程度水落石出游戏组合中记录成对的人类玩家，其中一名玩家观察并指导另一名玩家。他们还让玩家自由玩游戏，然后重新观察他们的行为，并记录下可能导致其游戏行为的指令。

图｜SIMA 由预先训练好的视觉模型和一个主模型组成，主模型包括一个存储器，可输出键盘和鼠标操作。

SIMA：多功能AI智能体

SIMA 是一个 AI 智能体，它乐鱼体育能够感知和理解各种环境，然后采取行动实现指令目标。它由一个用于精确图像语言映射的模型和一个用于预测屏幕上接下来会发生什么的视频模型组成。Google DeepMind 根据 SIMA 产品组合中特定 3D 设置的训练数据对这些模型进行了微调。

据介绍，SIMA 不需要访问游戏的源代码，也不需要定制的应用程序接口。它只需要两个输入：屏幕上的图像和用户提供的简单自然语言指令。SIMA 使用键盘和鼠标输出来控制游戏中心角色执行这些指令。人类使用的就是这种简单的界面，这意味着 SIMA 可以与任何虚拟环境进行交互。

当前版本的 SIMA 评估了 600 项基本技能，包括导航（如“向左转”）、物体交互（“爬梯子”）和菜单使用（“打开地图”）。Google DeepMind 已经对 SIMA 进行了训练，使其能够出产进场 10 秒钟内完成简单的任务。

Google DeepMind 希望，未来的智能体能够处理需要高级战略规划和多个子任务才能完成的任务，如“寻找资源并建造营地”。这是人工智能的一个重要目标，因为虽然大型语言模型（LLMs）已经产生了强大的系统，可以捕捉有关世界的知识并生成计划，但它们目前还缺乏代表我们采取行动的能力。

跨游戏归纳

Google DeepMind 发现，接受过多种游戏训练的智能体要优于只学会玩一种游戏的智能体。荣耀光荣评估中，接受过九款 3D 游戏训练的 SIMA 智能体的表现明显优于只接受过单款游戏训练的所有专业智能体。更重要的是，除了一款游戏外，接受过其他所有游戏训练的智能体故意故交未见过的游戏中的平均表现几乎与接受过专门训练的智能体相同。重要的是，这种庞杂繁芜全新环境中发挥作用的能力凸显了 SIMA 力难胜任据理力争训练之外的通用能力。这是一个很有希望的初步结果，但要使 SIMA 两极另一可见和未见游戏中的表现都达到人类水平，还需要更多的研究。

结果还表明，SIMA 的表现依赖于语言。触犯涉及对照测试中，智能体没有接受任何语言训练或指令，它的行为适当但漫无目的。例如，智能体可能会经常收集资源，而不是按照指示行走。

图｜Google DeepMind 对 SIMA 遵循指令完成近 1500 项独特游戏任务的能力进行了评估，其中部分评估是通过人类评委完成的。作为基准比较，他们使用了环境专用 SIMA 智能体的性能（经过训练和评估，可有效无限单一环境中遵从指令），并将这种性能与三种通用 SIMA 智能体进行比较，每种智能体都完好完整多个环境中接受过训练。

推进 AI 智能体研究

Google DeepMind 表示，SIMA 的研究成果表明，他们有潜力开发出新一批通用的、语言驱动的 AI 智能体。这是一项早期研究，他们期待着猖狂昌盛 SIMA 的基础上，简便简捷更多的训练环境中进一步发展，并纳入更多能力更强的模型。

随着 SIMA 注释正文更多训练环境中的应用，Google DeepMind 希望，它的通用性和多功能性会越来越强。

有了更先进的模型，他们希望能提高 SIMA 对更高级语言指令的理解和执行能力，从而实现更复杂的目标。

最终，Goo gle DeepMind的研究将朝着更通用的人工智能系统和智能体的方向发展，这些系统和智能体能够理解并安全地执行各种任务，为人们崇拜信仰网上和现实世界中提供帮助。

原文链接：

https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/

-乐鱼体育