原文链接：https://arxiv.org/abs/2401.03568

本篇Survey由斯坦福大学、微软研究院、加利福尼亚大学，华盛顿大学，微软游戏共同发表，非常典型的产学联合。微软和斯坦福这样两个企业和高校的巨头联合发表一篇Agent的Survey，有Li Fei-Fei的加入，足以说明Agent是目前AI的当红明星。

主要借助GPT-4完成初步翻译工作，经过本人的整理，部分意译，增加一下评论，部分不好翻译的名词带了英文。图片自带水印，均来自论文。部分个人理解可能存在错误，欢迎批评指正。目前Agents的中文还没有一个很好的版本，本文中暂时将Agents翻译为“代理”或者“智能体”。

摘要

多模式 AI 系统可能会成为我们日常生活中无处不在的存在。让这些系统变得更具交互性的一个有前景的方法是将它们作为Agent存在于物理和虚拟环境中。当前，多模式 AI 系统利用现有的基础模型作为构建 Embodied Agents 的基本构件。将 Agents 嵌入这样的环境中，有助于模型处理和解释视觉和上下文信息，这对于创建更复杂、更具上下文意识的人工智能系统至关重要。例如，一个能够感知用户行为、人类行为、环境物体、音频表达和场景整体情绪的系统，可以用来指导和影响 Agents 在给定环境中的响应。为了加速基于 Agents 的多模态智能研究，我们定义“ 代理人工智能（Agent AI）” 为一类交互系统，它能感知视觉刺激、语言输入和其他与环境相关的数据，并能借助无限的Agents产生有意义的具象行动。我们重点探索的是：如何通过整合外部知识、多感官输入和人类反馈来预测下一个具象行动，并利用预测的具象行动来改进Agents。我们认为，通过在具体环境中开发代理人工智能系统，也可以减轻大型基础模型的幻觉和生成环境不正确输出的倾向（environmentally incorrect outputs）。新兴的代理人工智能领域涵盖了多模态互动的更广泛的具象和代理方面。除了代理在物理世界中的行动和互动，我们设想一个未来，人们可以轻松创建任何虚拟现实或模拟场景，并与嵌入其中的代理互动。

要点：

定义：We define “Agent AI” as a class of interactive systems that can perceive visual stimuli, language inputs, and other environmentally-grounded data, and can produce meaningful embodied action with infinite agent.
目标：we explore systems that aim to improve agents based on next-embodied action prediction by incorporating external knowledge, multi-sensory inputs, and human feedback.
潜在好处：mitigate the hallucinations of large foundation models and their tendency to generate environmentally incorrect outputs.

图1：展示了一种代理人工智能系统的概览，该系统能在不同领域和应用中感知和行动。代理人工智能作为通往人工通用智能（AGI）的可能途径正在崛起。代理人工智能训练已显示出在物理世界中进行多模态理解的能力。通过结合生成人工智能以及多个独立数据源，它实现了一个 reality-agnostic 的训练框架。在 cross-reality 数据上训练的大型基础模型，可以应用于物理和虚拟世界中的 Agents 以及 action-related 的任务。我们展示了一个代理人工智能系统的一般概览，该系统能在许多不同领域和应用中感知和行动，可能作为使用代理范式通向AGI的一条途径。

1 介绍

1.1 动机

历史上，人工智能系统在1956年的达特茅斯会议上被定义为能够从环境中收集信息并以有用的方式与之互动的人造生命形式。受此定义的启发，Minsky’s MIT group 于1970年构建了一个名为“Copy Demo”的机器人系统，该系统观察了“ blocks world”场景，并成功地重建了观察到的多面体积木结构。该系统包括观察、规划和操作模块，揭示了这些子问题中的每一个都具有极大的挑战性，需要进一步的研究。人工智能领域分裂为专门的子领域，这些子领域在独立解决这些问题和其他问题方面取得了巨大进展，但过度还原主义（over-reductionism）模糊了人工智能研究的总体目标。

为了超越现状，有必要回归到以亚里士多德整体主义（Aristotelian Holism）为动力的人工智能基础上。幸运的是，大型语言模型（LLMs）和视觉语言模型（VLMs）的最新发展使得创建与整体理想相符的新型人工智能代理成为可能。抓住这个机会，本文探讨了整合语言能力、视觉认知、情境记忆、直观推理和适应性的模型。这类模型探索了使用LLMs和VLMs完成这种整体合成的潜力。我们还重新审视了Aristotle’s Final Cause，这是“系统存在的目的论”（the teleological “why the system exists”），这在以前的人工智能发展中可能被忽视了。

随着强大的预训练LLMs和VLMs的出现，自然语言处理和计算机视觉领域经历了一场复兴。LLMs现在展示出了解析现实世界语言数据细微差别的令人印象深刻的能力，通常达到与甚至超越人类专家的能力。最近，研究人员已经表明，当与特定领域的知识和模块配对时，LLMs可以扩展为在各种环境中的Agents以执行复杂的动作和任务。这些场景通常需要理解Agents所代表的角色及其所处的环境，并要求完成复杂的推理和多步骤规划。这些场景测试了代理在限定的环境内做出高度微妙和复杂决策的能力。

在这些初步努力的基础上，人工智能社区正处于一个重大的范式转变的边缘，从创建用于被动、结构化任务的人工智能模型，转向能够在多样化和复杂环境中承担动态、代理角色的模型。在这个背景下，本文探讨了使用LLMs和VLMs作为代理的巨大潜力，强调具有语言能力、视觉认知、情境记忆、直观推理和适应性的模型，并讨论了利用LLMs和VLMs作为代理，在游戏、机器人和医疗保健等领域的应用。本文不仅提供了一个严格的评估平台，用于评估最先进的人工智能系统，而且预示了以代理为中心的人工智能将对社会和各行各业产生的变革性影响。当这些代理模型得到充分利用时，它们可以重新定义人类体验并提升操作标准。这些模型带来的全面自动化潜力预示着在行业和社会经济动态中的重大变革。这样的进步将与多方面的leader-board相互交织，不仅是技术方面，还包括伦理方面。我们深入探讨了代理人工智能的这些子领域的重叠区域，并在图1中展示了它们的相互联系。

1.2 背景

现在我们将介绍与代理人工智能的概念、理论背景和实现进展的相关研究论文。

大型基础模型 Large Foundation Models：LLMs和VLMs一直在推动发展通用智能机器（general intelligent machines）。尽管它们是使用大型文本语料库训练的，它们解决问题的能力并不仅限于标准的语言处理领域。LLMs可能解决以前被认为是人类专家或特定领域算法专有的复杂任务。除了数学推理和专业法律问答，最近的研究还表明了使用LLMs生成复杂计划，作为机器人和游戏AI的可能性，这标志着LLMs作为通用智能代理的重要里程碑。

具身智能 Embodied AI：许多工作利用LLMs进行任务规划，特别是LLMs的互联网级别的领域知识和新兴的few-shot具象能力，使执行复杂的任务规划和推理成为可能。最近的机器人研究也利用LLMs进行任务规划，通过将自然语言指令分解为一系列子任务并以自然语言或Python代码的形式表示，然后使用低级控制器执行这些子任务。此外，还有一些工作结合环境的反馈来提高任务性能。

交互式学习 Interactive Learning：为交互式学习设计的人工智能代理结合了机器学习技术和用户的互动。最初，人工智能代理在大型数据集上进行训练，数据集中包括了各种类型的信息（取决于代理的预期功能）。例如，为语言任务设计的人工智能将在大量的文本数据语料库上进行训练。训练涉及使用机器学习算法，这可能包括深度学习模型，如神经网络。这些训练模型使人工智能能够识别模式、做出预测，并根据其训练的数据生成响应。人工智能代理还可以从与用户的实时互动中学习。这种交互式学习可以以多种方式发生：1）基于反馈的学习：人工智能根据直接用户反馈调整其响应。例如，如果用户纠正了人工智能的响应，人工智能可以使用这些信息来改进未来的响应。2）观察学习：人工智能通过观察用户互动来隐式学习。例如，如果用户经常提出类似的问题或以特定方式与人工智能互动，人工智能可能会调整其响应以更好地适应这些模式。这使得人工智能代理能够理解和处理人类语言、实现多模型设置，解释跨现实语境（cross reality-context），并生成面向人类用户的响应。随着时间的推移，随着用户互动和反馈的增加，人工智能代理的性能通常会持续改善。这个过程通常由人类操作者或开发者监督，以确保人工智能正在适当地学习，并且不会形成偏见或错误模式。

1.3 概览

多模态代理人工智能（Multimodal Agent AI MAA）是一类系统，它们基于对多模态感官输入的理解，在给定环境中生成有效行动。随着大型语言模型（LLMs）和视觉-语言模型（VLMs）的出现，许多MAA系统在从基础研究到应用的各个领域中被提出。虽然这些研究领域通过与各领域的传统技术（例如，视觉问答 VQA 和视觉-语言导航 vision-language navigation）的结合快速发展，但它们有一些共同的关注点，如数据收集、基准测试和伦理观点。在本文中，我们专注于MAA的一些代表性研究领域，即多模态性、游戏（VR/AR/MR）、机器人和医疗保健，并旨在提供这些领域中讨论的共同关注点的全面知识。因此，我们期望学习MAA的基础知识，并获得进一步推进其研究的洞见。具体的学习成果包括：

MAA概览：深入探讨其原则及在当代应用中的作用，为研究人员提供对其重要性和用途的全面了解。
方法论：通过在游戏、机器人和医疗保健等案例研究中的详细示例，展示LLMs和VLMs如何增强MAAs。
性能评估：关于使用相关数据集评估MAAs的指导，侧重于它们的有效性和泛化能力。
伦理考虑：讨论部署代理人工智能的社会影响和伦理领导榜，强调负责任的开发实践。
新兴趋势和未来排行榜：分类各领域的最新发展，并讨论未来方向。

基于计算机的行动和通用代理（generalist agents GAs）对许多任务非常有用。为了使GA真正对用户有价值，它能够自然地与人互动，并适用于广泛的上下文和模态。我们的目标是培育一个充满活力的研究生态系统，并在代理人工智能社区中创造共同的身份和目标感。多模态代理人工智能（MAA）有潜力在各种上下文和模态中广泛应用，包括来自人类的输入。因此，我们相信这个代理人工智能领域能够吸引多样化的研究人员，促进一个充满活力的代理人工智能社区和共享目标。在学术界和工业界的杰出专家的带领下，我们期望这篇论文将成为一个互动和丰富的体验，完整地包括代理指令、案例研究、任务会议和实验讨论，确保所有研究人员都有一个全面和引人入胜的学习体验。

本文旨在提供关于代理人工智能领域当前研究的一般性和全面的知识。为此，本文的其余部分安排如下：

第2节概述了代理人工智能如何从与相关新兴技术的整合中受益，特别是大型基础模型。
第3节描述了我们为训练代理人工智能提出的新范式和框架。
第4节提供了在代理人工智能训练中广泛使用的方法论概览。
第5节分类并讨论了各种类型的代理。
第6节介绍了代理人工智能在游戏、机器人和医疗保健中的应用。
第7节探讨了研究社区开发多用途代理人工智能的努力，这种智能不仅能够跨越各种模态和领域应用，还能够弥合模拟到真实的差距。
第8节讨论了代理人工智能的潜力，这种智能不仅依赖于预训练的基础模型，而且通过与环境和用户的互动持续学习和自我提升。
第9节介绍了我们为训练多模态代理人工智能而设计的新数据集。
第11节讨论了人工智能代理的伦理考虑、局限性和我们论文的社会影响这一热门话题。
（第10节为Broader Impact Statement，主要介绍了作者对更广泛社区做出重大贡献的三种方式，本文略去）

2 Agent AI 集成

早期研究提出的基于LLMs和VLMs的基础模型，仍然在具身智能领域（embodied AI）展现出有限的性能，特别是在理解、生成、编辑和unseen环境或场景互动方面，这些限制导致人工智能代理产生次优输出。当前以代理为中心的人工智能建模方法专注于直接可访问和明确定义的数据，例如，对于世界状态（world state）的文本或字符串表示，并通常使用从其大规模预训练中学到的领域和环境无关的模式，来预测每个环境的行动输出。我们早先研究了结合大型基础模型的知识引导的协作和互动场景生成任务（“Ark: Augmented reality with knowledge interactive emergent ability）。结果表明knowledge-grounded LLM agents可以提高2D和3D场景理解、生成和编辑的性能，以及其他人类-代理的互动。通过整合代理人工智能框架，大型基础模型能够更深入地理解用户输入，形成一个复杂且适应性强的人机交互系统（HCI system）。

LLM和VLM的新兴能力在生成人工智能、具象人工智能、多模型学习的知识增强、混合现实生成、文本到视觉编辑、以及在游戏或机器人任务中用于2D/3D模拟的人类互动方面发挥着隐形的作用。代理人工智能在基础模型方面的最新进展成为即将到来的催化剂，用于在具象代理中解锁通用智能（AGI）。大型行动模型或代理-视觉-语言模型（agent-vision-language models）为 general-purpose embodied systems 开辟了新的可能性，例如实现在复杂环境中进行规划、解决问题和学习的能力。代理人工智能在元宇宙中进一步测试，并为AGI的早期版本铺路。

2.1 无限的 AI Agent

人工智能代理具有基于其训练和输入数据解释、预测和响应的能力。虽然这些能力是先进的并且不断改进，但认识到它们的局限性以及其所训练的底层数据的影响是很重要的。人工智能代理系统通常具有以下能力：1）预测建模：人工智能代理可以基于历史数据和趋势预测可能的结果或建议下一步行动。例如，它们可能预测文本的继续、问题的答案、机器人的下一个动作或场景的解决方案。2）决策制定：在某些应用中，人工智能代理可以基于它们的推理做出决策。通常，代理会基于最有可能实现指定目标的方式来做出决策。对于像推荐系统这样的人工智能应用，代理可以决定根据其对用户偏好的推理推荐哪些产品或内容。3）处理模糊性 Handling Ambiguity：人工智能代理通常能够处理模糊输入，通过基于上下文和训练推断最可能的解释。然而，它们这样做的能力受到其训练数据和算法范围的限制。4）持续改进：虽然一些人工智能代理有能力从新数据和互动中学习，但许多大型语言模型在训练后不会持续更新它们的知识库或内部表示。它们的推理通常仅基于直至最后一次训练更新时可用的数据。

图2：多模态代理人工智能用于 cross-reality 2D/3D embodied generation and editing

我们在图2中展示了增强的交互式代理，用于多模态和 cross reality-agnostic integration，并引入了一个出现机制(emergence mechanism )。人工智能代理需要为每个新任务收集大量训练数据，这对许多领域而言可能代价高昂或不可能实现。我们开发了一种无限代理 ( infinite agent )，学会将从通用基础模型（例如，GPT-X，DALL-E）中获得的记忆信息转移到新的领域或场景中，用于实体或虚拟世界中的场景理解、生成和交互式编辑。在机器人学中应用这样的无限代理的一个例子是RoboGen。在这项研究中，作者提出了一个自动运行任务提出、环境生成和技能学习循环的流程。RoboGen是将大型模型中嵌入的知识转移到机器人技术中的一项努力。

个人思考：这里和我的想法十分吻合，一直认为只有具备计划，决策，语义能力（即，不是传统模型只认Hard Label的死记硬背，而是能理解信息中的语义，并推断给出合理的输出，文中的说法是处理模糊性，Handling Ambiguity），自我改进的能力才初步具备AGI的可能。因为，人类就是如此进化的。

重要论文：Robogen: Towards unleashing infinite data for automated robot learning via generative simulation

理论上具有无限的数据。

2.2 Agent AI with LLM

最近的研究表明，大型基础模型在创建评测Agent 行动能力的基准数据方面发挥着关键作用，这类Agents通常受环境约束。例如，在机器人操纵（manipulation）和导航（navigation）中使用基础模型。Black等人采用了一个图像编辑模型（ image-editing model）作为高级规划器，生成未来子目标的图像，从而指导低级策略。对于机器人导航，Shah等人提出了一个系统，该系统使用LLM从文本中识别地标，并使用VLM将这些地标与视觉输入关联起来，通过自然语言指令增强导航。此外，越来越多的研究关注在语言和环境因素影响下生成限定的人类动作。目前已经提出了几个人工智能系统，用于生成根据特定语言指令定制的动作，并适应各种3D场景。这一研究领域强调了生成模型可以不断的增强AI代理在不同场景中的适应性和响应能力。

2.2.1 Hallucinations 幻觉

代理生成的文本通常容易出现幻觉问题，即生成的文本毫无意义或不忠实于提供的内容。幻觉可以分为两类：内在和外在幻觉。内在幻觉是与源材料相矛盾的幻觉，而外在幻觉是生成的文本包含了源材料中原本没有包含的额外信息。减少语言生成中幻觉率的一些途径包括使用检索增强生成（RAG）或其他通过外部知识检索来限制自然语言输出的方法。一般来说，这些方法旨在通过检索额外的源材料并检查输出结果与源材料之间的矛盾来增强语言生成。

在多模态代理系统的背景下，VLMs也被发现可能出现幻觉。在基于视觉的语言生成过程中，产生幻觉的一个常见原因是过度依赖训练数据中的共现的对象和视觉线索（co-occurrence of objects and visual cues）。那些完全依赖预训练的LLMs或VLMs，并使用有限的环境特定微调的AI代理特别容易出现幻觉，因为它们依赖于预训练模型的内部知识库来生成动作，可能无法准确理解它们所部署的世界状态（world state）的动态变化。

2.2.2 Biases and Inclusivity 偏见和包容性

人工智能代理基于大型语言模型（LLMs）或大型多模态模型（LMMs）时，由于其设计和训练过程中的多个因素，会存在偏见。在设计这些人工智能代理时，我们必须注意包容性，并且意识到所有最终用户和利益相关者的需求。在人工智能代理的背景下，包容性是指采取的措施和原则，以确保代理的回应和互动对来自不同背景的广泛用户群体都是包容的、尊重的和敏感的。我们在下面列出了代理偏见和包容性的关键方面。

训练数据：基础模型是在从互联网上收集的大量文本数据上训练的，这包括书籍、文章、网站和其他文本来源。这些数据通常反映了人类社会中存在的偏见，模型可能无意中学习并复制这些偏见。这包括与种族、性别、民族、宗教和其他个人属性相关的刻板印象、偏见和片面观点。特别是，通过在互联网数据上进行训练，而且通常只使用英文文本，模型隐式地学习了西方教育、工业化、富裕和民主（WEIRD）社会的文化，因为这些文化在互联网上占据主导地位。然而，重要的是要认识到，由人类创建的数据集不可能完全无偏见，因为它们通常反映了社会的偏见和最初生成或编译数据的个人的倾向。
历史和文化偏见：人工智能模型接受了来自多种内容的大型数据集训练。因此，训练数据通常包括来自不同文化的历史文本或材料。特别是，来自历史来源的训练数据可能包含表现某个社会文化规范、态度和偏见的冒犯性或贬义语言。这可能导致模型延续过时的刻板印象，或未能充分理解当代文化的变化和细微差别。
语言和语境限制：语言模型可能难以理解和准确表达语言中的微妙之处，如讽刺、幽默或文化参照。这可能导致在某些语境中出现误解或有偏见的回应。此外，口语中的许多方面并不通过纯文本数据捕捉到，这导致人类对语言的理解和模型对语言的理解之间可能存在脱节。
政策和指南 Policies and Guidelines：人工智能代理在严格的政策和指南下运行，以确保公平和包容性。例如，在生成图像时，有规则来多样化对人的描绘，避免与种族、性别和其他属性相关的刻板印象。
过度概括 Overgeneralization：这些模型倾向于基于训练数据中观察到的模式生成响应。这可能导致过度概括，其中模型可能产生看似刻板印象或对某些群体做出广泛假设的响应。
持续监控和更新 Constant Monitoring and Updating: ：人工智能系统不断受到监控和更新，以解决任何新出现的偏见或包容性问题。用户反馈和人工智能伦理领域的持续研究在这一过程中扮演着关键角色。
放大主导观点 Amplification of Dominant Views：由于训练数据通常包括来自主导文化或群体的更多内容，模型可能更偏向这些观点，可能导致少数派观点的代表不足或误解。
伦理和包容性设计：人工智能工具的设计应以伦理考虑和包容性作为核心原则。这包括尊重文化差异，促进多样性，并确保人工智能不会延续有害的刻板印象。
用户指南：用户也被指导如何以促进包容性和尊重的方式与人工智能互动。这包括避免提出可能导致有偏见或不当输出的请求。此外，这有助于减轻模型从用户互动中学习有害材料的风险。

尽管采取了这些措施，人工智能代理仍然表现出偏见。在代理人工智能的研究和开发中，持续努力集中于进一步减少这些偏见，并提高代理人工智能系统的包容性和公平性。缓解偏见的努力包括：

多元化和包容性训练数据：努力在训练数据中包含更多元化和包容性的资源。
偏见检测和纠正：持续研究专注于检测和纠正模型响应中的偏见。
伦理指南和政策：模型通常受伦理指南和政策的约束，旨在缓解偏见，确保尊重和包容性互动。
多样性代表：确保人工智能代理生成的内容或提供的响应代表广泛的人类经验、文化、种族和身份。这在图像生成或叙事构建等场景中尤为相关。
缓解偏见：积极努力减少人工智能响应中的偏见。这包括与种族、性别、年龄、残疾、性取向和其他个人特征相关的偏见。目标是提供公平和平衡的响应，不延续刻板印象或偏见。
文化敏感性：人工智能设计考虑到文化敏感性，承认并尊重文化规范、实践和价值观的多样性。这包括理解并适当响应文化参考和细微差别。
可访问性：确保人工智能代理对不同能力的用户可访问，包括残疾人。这可能涉及纳入使视觉、听觉、运动或认知障碍的人更容易互动的功能。
基于语言的包容性：支持多种语言和方言，以迎合全球用户群，并对语言内部的细微差异和变化保持敏感（刘等人，2023b）。
伦理和尊重的互动：代理人被编程以伦理和尊重的方式与所有用户互动，避免可能被视为冒犯性、有害或不尊重的响应。
用户反馈和适应：纳入用户反馈，不断提高人工智能代理的包容性和有效性。这包括从互动中学习，以更好地理解和服务多样化的用户群体。
遵守包容性指南：遵循人工智能代理的包容性指南和标准，这些通常由行业团体、伦理委员会或监管机构设定。

尽管做出了这些努力，但认识到回应中可能存在的偏见，并以批判性思维解读它们是非常重要的。人工智能代理技术和伦理实践的持续改进旨在随着时间的推移减少这些偏见。在代理人工智能的包容性方面，一个总体目标是创建一个对所有用户都尊重和可访问的代理，不论他们的背景或身份如何。

2.2.3 数据隐私和使用

人工智能代理的一个关键伦理问题在于这些系统该如何处理、存储以及检索用户数据。我们在下面讨论关键方面：

数据收集、使用和目的 Data Collection, Usage and Purpose：在使用用户数据来提高模型性能时，模型开发者可以访问人工智能代理在生产过程中与用户互动时收集的数据。一些系统允许用户通过用户账户查看其数据，或向服务提供商提出请求。重要的是要认识到人工智能代理在这些互动中收集了哪些数据。这可能包括文本输入、用户使用模式、个人偏好，有时还包括更敏感的个人信息。用户还应该了解从他们的互动中收集的数据如何被使用。如果由于某种原因，人工智能持有关于特定个人或群体的错误信息，一旦识别出来，应该有一种机制让用户帮助纠正这一点。这对于准确性和尊重所有用户和群体都是重要的。检索和分析用户数据的常见用途包括改进用户互动、个性化响应和系统优化。对于开发者来说，极其重要的是确保数据不会用于用户未同意的目的，如未经请求的营销。

存储和安全 Storage and Security：开发者应了解用户互动数据的存储位置以及为保护数据免受未经授权的访问或泄露所采取的安全措施。这包括加密、安全服务器和数据保护协议。确定代理数据是否与第三方共享以及在何种条件下共享极为重要。这应该是透明的，通常需要用户同意。

数据删除和保留 Data Deletion and Retention：用户了解用户数据存储多久以及如何请求删除这些数据也很重要。许多数据保护法律赋予用户被遗忘的权利，意味着他们可以请求删除其数据。人工智能代理必须遵守如欧盟的GDPR或加利福尼亚州的CCPA等数据保护法律。这些法律规定了数据处理实践和用户关于其个人数据的权利。

数据可携带性和隐私政策 Data Portability and Privacy Policy：此外，开发者必须创建人工智能代理的隐私政策，以向用户说明其数据如何被处理。这应详细说明数据收集、使用、存储和用户权利。开发者应确保他们获得用户同意收集数据，特别是对于敏感信息。用户通常有选择退出或限制他们提供的数据的选项。在某些司法管辖区，用户甚至可能有权要求以可转移至另一服务提供商的格式获取其数据副本。

匿名化 Anonymization：对于用于更广泛分析或人工智能训练的数据，理想情况下应该进行匿名化处理，以保护个人身份。开发者必须了解他们的人工智能代理在互动过程中如何检索和使用历史用户数据。这可能是为了个性化或提高响应相关性。

总之，理解人工智能代理的数据隐私涉及了解用户数据是如何被收集、使用、存储和保护的，以及确保用户了解他们在访问、更正和删除其数据方面的权利。了解用户和人工智能代理检索数据的机制，对于全面理解数据隐私也至关重要。

2.2.4 可解释性和可说明性

模仿学习 → 解耦：代理通常通过在强化学习（RL）或模仿学习（IL）中从一个随机初始化的策略开始，使用连续的反馈来循环进行训练。然而，这种方法在获取初始奖励方面面临着挑战，尤其是在奖励稀缺（sparse）或只在长步骤（long-step）互动的陌生环境中。因此，一个更优的解决方案是使用通过模仿学习训练的无限记忆代理，该代理可以从专家数据中学习策略，通过出现的基础设施提高对Unseen环境空间的探索和利用，如图3所示。专家知识可以帮助代理更好地探索和利用Unseen环境空间。代理人工智能可以直接从专家数据中学习策略和新的范式流程。传统的IL让代理模仿专家示范者的行为来学习一项策略。然而，直接学习专家策略并不总是最佳方法，因为代理可能无法很好地推广到未见情况。为了解决这个问题，我们提出了一种具有上下文提示或隐含奖励函数的代理学习方法，该函数捕捉专家行为的关键方面，如图3所示。这为无限记忆代理提供了从专家示范中学到的用于执行物理世界任务的行为数据。它有助于克服现有模仿学习的缺点，如需要大量的专家数据以及可能在复杂任务中出现错误。代理人工智能背后的关键思想有两部分：1）收集物理世界专家示范（expert demonstrations）作为状态-动作对（s state-action pairs）的无限代理；2）模仿代理生成器的虚拟环境。模仿代理产生模仿专家行为的动作，而代理通过减少专家动作和通过学习策略而生成的动作之间差异的损失函数来学习从状态到动作的策略映射。

图 3：使用代理从候选人 (candidates) 中识别与图像相关的文本的新兴互动机制示例。这项任务涉及使用来自网络的多模态人工智能代理和人类标注的知识交互样本来整合外部世界的信息。

解耦 → 泛化：在这种方法中，智能体不依赖于特定任务的奖励函数学习，而是从专家示范中学习，这些示范提供了涵盖各种任务方面的state-action pairs。智能体随后通过模仿专家的行为来学习将状态映射到动作的策略。在模仿学习中，解耦指的是将学习过程与特定任务的奖励函数分离，使策略能够在不同任务中泛化，而不显式依赖于特定任务的奖励函数。通过解耦，智能体可以从专家示范中学习，并学习一种适应各种情况的策略。解耦使得迁移学习成为可能，即在一个领域中学到的策略只需很少的微调就可以适应其他领域。通过学习一种不与特定奖励函数绑定的通用策略，智能体可以利用在一个任务中获得的知识，在其他相关任务中表现良好。由于智能体不依赖于特定的奖励函数，它可以适应奖励函数或环境的变化，而无需进行大量的再训练。这使得所学习的策略在不同环境中更加稳健和具有泛化性。在这种情境下，解耦指的是学习过程中的两个任务的分离：学习奖励函数和学习最优策略。

泛化 → 涌现行为：泛化解释了如何从更简单的组件或规则中产生涌现性质或行为。关键思想在于识别控制系统行为的基本元素或规则，如单个神经元或基础算法。随后，观察这些简单组件或规则如何相互作用。这些组件的相互作用通常会导致复杂行为的涌现，而这种复杂行为无法仅通过检查单个组件来预测。跨不同复杂性级别的泛化使系统能够学习适用于这些级别的一般性原则，从而导致涌现性质的出现。这使得系统能够适应新情况，展示了从简单规则中涌现出更复杂行为的能力。此外，跨不同复杂性级别的泛化能力促进了从一个领域到另一个领域的知识转移，这有助于在系统适应新情境时，在新背景下复杂行为的涌现。

2.2.5 推理增强

AI Agent 的推理能力体现在其根据训练和输入数据进行解释、预测和响应的能力。虽然这些能力先进且不断改进，但认识到它们的局限性以及它们所训练的底层数据的影响是重要的。特别是在大型语言模型的背景下，这指的是它们基于所受训练的数据和接收的输入来得出结论、做出预测和生成响应的能力。在AI智能体中，推理增强指的是通过附加工具、技术或数据增强AI的自然推理能力，以提高其性能、准确性和实用性。这在复杂的决策场景中或处理细微或专业内容时尤其重要。以下是推理增强的一些特别重要的来源：

数据丰富化：结合额外的数据来源，以提供更多的背景或上下文，可以帮助AI智能体做出更明智的推理，特别是在其训练数据可能有限的领域。例如，AI Agent可以从对话或文本的背景中推断意义。它们分析给定的信息，并使用它来理解用户查询的意图和相关细节。这些模型擅长识别数据中的模式。它们使用这种能力根据在训练期间学到的模式对语言、用户行为或其他相关现象进行推理。

算法增强：改进AI的底层算法以进行更好的推理。这可能涉及使用更高级的机器学习模型，集成不同类型的AI（如将NLP与图像识别相结合），或更新算法以更好地处理复杂任务。语言模型中的推理涉及理解和生成人类语言。这包括掌握语调、意图和不同语言构造的微妙之处。

人在回路（Human-in-the-Loop HITL）：在AI的推理中涉及人类输入，特别是在人类判断至关重要的领域时（如伦理考虑、创造性任务或模糊场景）可能特别有用。人类可以提供指导、纠正错误或提供智能体本身无法推断的见解。

实时反馈集成：使用用户或环境的实时反馈来增强推理是另一种提高推理过程中性能的有前途的方法。例如，AI可能会根据实时用户反应或动态系统中的变化条件调整其推荐。或者，如果智能体在模拟环境中采取的行动违反了某些规则，可以动态地给予反馈，帮助它自我纠正。

跨领域知识转移：利用来自一个领域的知识或模型来改进另一个领域中的推理，这在专业学科内产生输出时可能特别有帮助。例如，为语言翻译开发的技术可能被应用于代码生成，或者从医学诊断中获得的见解可能增强机械设备的预测性维护。

针对特定用例的定制：为特定应用程序或行业量身定制AI的推理能力可能涉及对AI进行专业数据集的训练或微调其模型，以更好地适应特定任务，例如法律分析、医学诊断或财务预测。由于一个领域内的特定语言或信息可能与其他领域的语言大相径庭，因此在特定领域的信息上微调智能体可能会有益处。

伦理和偏见考虑：确保增强过程不引入新的偏见或伦理问题非常重要。这涉及仔细考虑额外数据的来源或新推理增强算法对公平性和透明度的影响。在进行推理时，特别是在敏感话题上，AI智能体有时必须考虑伦理因素。这涉及避免有害的刻板印象、尊重隐私并确保公平。

持续学习和适应：定期更新和完善AI的能力，以跟上新的发展、不断变化的数据景观和不断发展的用户需求。

总结而言，AI智能体中的推理增强涉及一些方法，这些方法可以通过额外数据、改进的算法、人类输入和其他技术来增强它们的自然推理能力。根据用例，这种增强通常对于处理复杂任务和确保智能体输出的准确性至关重要。

2.2.6 监管

最近，Agent AI 取得了显著进展，通过融入 embodied system，与Agents的互动变得更为身临其境、动态和引人入胜。为了加快进程并简化Agent AI开发中的繁琐工作，我们提议开发下一代AI赋能的 Agent 交互流水线（next-generation AI-empowered pipeline for agent interaction）。开发一种人机协作系统，使人类和机器能够进行有意义的沟通和互动。该系统可以利用LLM或VLM的对话能力和广泛的行动与人类玩家交谈，并识别人类需求。然后，它将根据请求执行适当的行动以帮助人类玩家。

在使用LLM/VLM进行人机协作系统时，需要注意的是，这些系统作为黑盒子运行，产生不可预测的输出。这种不确定性在物理环境中，例如操作实际机器人时中可能变得至关重要。解决这一挑战的一种方法是通过提示工程（prompt engineering）限制 LLM/VLM 的关注焦点。例如，在根据指令进行机器人任务规划时，在提示中提供环境信息比仅依赖文本产生更稳定的输出。

这份报告得到了 Minsky’s frame theory of AI 的支持，该理论表明LLM/VLM解决的问题空间是由给定的提示定义的。另一种方法是设计提示，使LLM/VLM包含解释性文本，以便用户了解模型关注或识别了什么。此外，实施一个允许在人类指导下进行预执行验证和修改的更高层，可以促进在此类指导下运行的系统的操作（见图4）。

图4：Wake等人开发的机器人教学系统的系统工作流程(左)。该过程包括三个步骤：1. 任务规划，ChatGPT根据指令和环境信息规划机器人任务；2. 演示，用户视觉展示动作序列。3. 所有步骤都由用户审查，如果任何步骤失败或显示不足，可以根据需要重访之前的步骤。（右）一个允许上传演示数据并实现用户与ChatGPT互动的网络应用程序。

2.3 代理人工智能的涌现能力

尽管交互式代理人工智能系统的采用日益增加，但大多数提出的方法在未见环境或场景的泛化性能方面仍面临挑战。当前的建模实践要求开发者为每个领域准备大量数据集以微调/预训练模型；然而，这一过程既昂贵又在新领域可能是不可能的。为了解决这个问题，我们构建了利用通用基础模型（ChatGPT、Dall-E、GPT-4等）的知识记忆的交互式代理，特别是为了在人类和代理之间生成协作空间。我们发现了一种涌现机制——我们将其命名为知识推理交互的混合现实——它促进了与人类的协作，解决了复杂现实世界环境中的挑战性任务，并使适应虚拟现实的未见环境成为可能。对于这种机制，代理学习 i) 跨模态微反应：从显式网络源收集每个交互任务的相关个体知识（例如，理解未见场景），并通过预训练模型的输出隐含推理；ii) 现实不可知的宏观行为：改进语言和多模态领域的交互维度和模式，并根据特定角色、特定目标变量、混合现实和LLM中协作信息的多样化影响进行变化。我们研究了知识引导的交互协同效应任务，结合了各种OpenAI模型进行协作场景生成，并展示了交互式代理系统如何进一步提升我们设置中的大型基础模型的有前景的结果。它整合并提高了复杂自适应AI系统的泛化深度、意识和可解释性。

3 代理人工智能范式

在本节中，我们讨论了用于训练代理人工智能的新范式和框架。我们希望通过我们提出的框架实现几个目标：

利用现有的预训练模型和预训练策略，有效地引导Agents理解重要的模态，如文本或视觉输入。
支持长期任务规划能力（long-term task-planning capabilities）。
整合一个记忆框架，使学到的知识可以编码并在以后检索。
允许使用环境反馈来有效地训练Agents学习应该采取哪些行动。

我们在图5中展示了一个高层次的新Agents，概述了这种系统的重要子模块。

图5：我们为多模式通用代理提出的新代理范式。如图所示，有5个主要模块：1）环境和感知，包括任务规划和技能观察；2）代理学习；3）记忆；4）代理行动；5）认知。

3.1 LLMs 和 VLMs

我们可以使用LLM或VLM模型来引导Agents的组件，如图5所示。特别是，LLM已被证明在任务规划、逻辑推理方面表现良好，同时包含重要的世界知识。此外，诸如CLIP之类的VLM提供了一个与语言对齐的通用视觉编码器，以及提供zero-shot视觉识别能力。例如，最先进的开源多模态模型，如LLaVA和InstructBLIP依赖于冻结的CLIP模型作为视觉编码器。

3.2 Agent Transformer定义

与其使用固定的LLM和VLM作为AI代理，不如使用一个单一的Agent Transformer模型，该模型接受视觉Token和语言Token作为输入，类似于Gato。除了视觉和语言，我们还增加了第三种通用类型的输入，我们称之为Agent Tokens。从概念上讲，Agent Tokens用于为模型的输入和输出空间保留特定的子空间以用于Agents Action。对于机器人或游戏玩家，这可能被表示为控制器的输入动作空间。在训练代理使用特定工具时，如图像生成或图像编辑模型，或用于其他API调用时，也可以使用代理令牌。如图7所示，我们可以将代理令牌与视觉和语言令牌结合起来，生成一个统一的界面来训练多模态代理AI。与使用大型专有LLM作为代理相比，使用代理变换器有几个优点。首先，模型可以轻松定制到非常特定的代理任务，这些任务可能难以用自然语言表示（例如，控制器输入或其他特定动作）。因此，代理可以通过环境互动和特定领域数据来提高性能。其次，通过访问代理令牌的概率，可以更容易理解模型为何采取或不采取特定行动。第三，有些领域如医疗和法律有严格的数据隐私要求。最后，相对较小的Agent Transformer可能比较大的专有语言模型要便宜得多。

图6：我们展示了通过结合大型语言模型（LLM）和大型视觉模型（LVM）来创建多模态AI代理的当前范式。通常，这些模型采用视觉或语言输入，并使用预训练和固定的视觉和语言模型，学习连接和桥接模态的较小子网络。例如Flamingo（Alayrac等人，2022）、BLIP-2（Li等人，2023c）、InstructBLIP（Dai等人，2023）和LLaVA（Liu等人，2023c）。

图7：统一的代理多模态变换器模型。我们提出一种代理系统的统一和端到端训练范式，而不是连接固定的子模块并使用现有的基础模型作为构建块。我们仍然可以使用LLM和LVM初始化子模块，如图6所示，但也使用代理令牌，专门的令牌用于训练模型在特定领域（例如，机器人）执行代理行为。有关代理令牌的更多细节，请参见第3.2节。

3.3 Agent Transformer 的创建

如上图5所示，我们可以使用新的Agents范式与LLM和VLM引导的Agents，以及利用大型基础模型生成的数据来训练 Agents Transformer 模型，以学习如何执行特定目标。在此过程中，代理模型被训练为专门针对特定任务和领域。这种方法允许您利用现有的基础模型学到的特性和知识。我们在下面两个步骤中简化地概述了这个过程：

定义特定领域内的目标。为了训练 Agents Transformer，需要明确定义Agents 在每个特定环境中的目标和行动空间。这包括确定Agents 需要执行的特定任务或动作，并为每个任务分配独特的 Agent tokens。此外，任何可用于识别任务成功完成的自动规则或程序都可以显著提高可用于训练的数据量。否则，将需要基础模型生成或人类注释的数据来训练模型。收集数据并能够评估代理的性能后，就可以开始持续改进的过程。

持续改进。模型性能的持续监控和反馈收集是过程中的关键步骤。反馈应用于进一步的微调和更新。确保模型不传播偏见或不道德结果也至关重要。这需要仔细检查训练数据，定期检查输出中的偏见，并在需要时训练模型以识别和避免偏见。一旦模型达到令人满意的性能，就可以部署用于预期应用。持续监控对于确保模型按预期执行并促进必要的调整至关重要。有关此过程、训练数据来源以及Agents AI持续学习的详细信息，请参见第8节。

4 Agent AI Learning

4.1 策略与机制

交互式AI的策略涉及不同领域，扩展了调用大型基础模型的范式，经过训练的 Agent 主动寻求收集用户反馈、行动信息、用于生成和互动的有用知识（user feedback, action information, useful knowledge for generation and interaction）。有时，LLM/VLM模型不需要再次训练，我们可以通过在测试时提供改进的上下文提示词来提高它们的性能。另一方面，它总是涉及到通过三重系统组合进行知识/推理/常识/推断的交互建模——一个通过多模态查询来检索知识，第二个通过相关Agents进行交互式生成，最后一个是训练新的、有信息的自我监督训练或预训练模型，使用强化学习或模仿学习进行改进。

4.1.1 强化学习（RL）

利用强化学习（RL）训练表现出智能行为的交互式Agent有着悠久的历史。RL是一种基于行动结果获得的奖励（或惩罚）学习状态与行动之间最优关系的方法。RL是一个高度可扩展的框架，已被应用于包括机器人学在内的众多应用，然而，它通常面临几个挑战，而LLM/VLM已显示出减轻或克服这些困难的潜力：

奖励设计：策略学习的效率在很大程度上取决于奖励函数的设计。设计奖励函数不仅需要了解RL算法，还需要深入理解任务的本质，因此通常需要基于专家经验来制定函数。
数据收集和效率：鉴于其探索性质，基于RL的策略学习需要大量数据。当策略涉及管理长序列或整合复杂行动时，对大量数据的需求尤为明显。这是因为这些情况要求从更广泛的情境中进行更细致的决策和学习。最近的研究努力提高数据生成以支持策略学习。此外，在某些研究中，这些模型已被整合到奖励函数中以提高策略学习。与此同时，另一方面的研究关注于使用VLM和LLM实现学习过程中的参数效率（parameter efficiency）。
长期视野步骤（Long-horizon steps）：与数据效率问题相关，随着行动序列长度的增加，RL变得更具挑战性。这是由于行动和奖励之间关系的不确定性（即信用分配问题）以及需要探索的状态数量的增加，需要大量的时间和数据。对于长期和复杂的任务，一种典型的方法是将它们分解成一系列子目标，并应用预训练策略来解决每个子目标。这一思路属于称为任务和运动规划（TAMP）由两个主要部分组成：任务规划，即确定高层次行动的序列；以及运动规划，涉及找到物理上一致、无碰撞的轨迹以实现任务计划的目标。大型语言模型（LLM）非常适合TAMP，最近的研究常常采用一种方法，即使用LLM执行高层次任务规划，而低层次控制则通过基于强化学习（RL）的策略来解决。大型语言模型的先进能力使它们能够有效地将抽象的指令分解为子目标，从而提高机器人系统中的语言理解能力。（评：TAMP像是进一步的CoT）

待了解：TAMP

4.1.2 模仿学习（IL）

虽然强化学习旨在通过与环境的互动和最大化奖励来训练策略，但模仿学习（IL）旨在利用专家数据来模仿经验丰富的代理或专家的行动。例如，在机器人领域，基于IL的一个主要框架是行为克隆（Behavioral Cloning BC）。BC是一种方法，机器人通过直接复制专家的行动来进行训练，以模仿专家的行动。在这种方法中，记录专家在执行特定任务时的行动，并训练机器人在类似情况下复制这些行动。最近基于BC的方法通常结合了LLM/VLM技术，使得端到端模型更加先进。例如，Brohan等人提出了RT-1和RT-2，这些基于Transformer的模型以图像和语言为输入，输出基础和手臂的动作序列。这些模型由于在大量训练数据上的训练，被报道显示出高度的泛化性能。

待了解：RT-1和RT-2

4.1.3 传统RGB

多年来，利用图像输入来学习智能Agents一直受到关注。使用RGB输入的固有挑战是维度灾难问题。为了解决这个问题，研究人员要么使用更多数据，要么在模型设计中引入归纳偏见以提高样本效率。特别是，有研究者在用于manipulations任务的模型架构中加入了3D结构。对于机器人导航（robot navigation），研究者利用地图作为一种表示。地图可以通过汇总所有之前的RGB输入的神经网络学习获得，也可以通过像神经辐射场（Neural Radiance Fields）这样的3D重建方法获得。为了获得更多数据，研究人员使用图形模拟器合成数据，并尝试缩小仿真环境到现实的差距。最近，一些集体努力构建大规模数据集，以解决数据稀缺问题。另一方面，为了提高样本复杂性，他们也广泛研究了数据增强技术。

4.1.4 In-context Learning

随着大型语言模型如GPT-3的出现，In-context Learning 被证明是解决NLP任务的有效方法。few-shot prompt 被视为一种有效的方式，在NLP中的各种任务中，通过在LLM提示的上下文中提供任务示例，来使模型输出具有上下文。如In-context demonstrations中示例的多样性和示例质量等因素可能提高模型输出的质量。在多模态基础模型的背景下，像Flamingo和BLIP-2这样的模型，仅给出少量示例，就在各种视觉理解任务上表现出色。通过在环境中的Agents采取某些行动时合并环境特定的反馈，可以进一步改进 In-context Learning。

简评：example的多样性和质量影响In-context learning效果，整合环境信息可以进一步提升In-context能力。

4.1.5 Agent System 中的优化

Agent 系统的优化可以分为空间和时间两个方面。空间优化考虑Agent如何在物理空间中操作以执行任务。这包括机器人间协调、资源分配和保持有序的空间。

为了有效地优化Agent AI系统，特别是具有大量并行行动的Agents系统，先前的研究集中在使用大批量强化学习。由于特定任务的多代理交互数据集很少，自我对弈强化学习使得Agents团体随时间得到改善。然而，由于它们过度适应了自我对弈的训练范式，可能会导致一个非常脆弱的Agent，它只能在自我对弈中工作，而不能与人类或其他独立Agent合作。为了解决这个问题，我们可以找到一个多样化的约定集，并训练一个能够意识到广泛约束的代理。此外，基础模型可以进一步帮助与人类或其他独立Agents建立约定，实现与其他Agents的顺畅协调。

另一方面，时间方面的优化关注Agents如何随时间执行任务。这包括任务调度、排序和效率。例如，优化机器人手臂的轨迹是连续任务间高效优化运动的一个例子。在任务调度层面，已经提出了诸如LLM-DP和ReAct的方法，通过交互地结合环境因素来解决高效任务规划。

4.2 Agent系统（zero and few-shot level）

4.2.1 Agent模块

我们对代理范式的探索涉及使用LLM或VLM开发交互式多模态代理的代理人工智能“模块”。我们最初的代理模块便于训练或情境学习，并采用最小化设计，以展示代理的调度和协调能力。我们还探索了最初的基于提示的记忆技术，以促进更好的规划并在领域内指导未来的行动方法。例如，我们的“MindAgent”基础设施包括5个主要模块：1）环境感知与任务规划，2）代理学习，3）记忆，4）一般代理行动预测和5）认知，如图5所示。

4.2.2 Agent 基础架构

以Agent为基础的人工智能构成了娱乐、研究和工业领域中一个庞大且快速发展的社区。大型基础模型的发展显著提高了代理人工智能系统的性能。然而，以这种方式创建代理受到创建高质量数据集和整体成本不断增加的限制。在微软，借助先进硬件、多样化数据源和强大软件库来构建高质量的Agent基础架构的方式显著影响了multi-modal agent copilot的能力。随着微软继续推动代理技术的发展，人工智能代理平台有望在未来几年内继续在多模态智能领域中占据主导地位。尽管如此，代理人工智能交互目前仍然是一个复杂的过程，需要多种技能的组合。大型生成性人工智能模型的最新进展有潜力大大降低当前交互内容的高成本和时间要求，无论是对大型工作室还是赋予小型独立内容创作者超越其目前能力的高质量体验设计能力。目前多模态代理中的人机交互系统主要是基于规则的。它们对人类/用户的行动有智能行为反应，并在某种程度上拥有网络知识。然而，这些交互通常受限于软件开发成本，以启用系统中的特定行为。此外，当前模型并未设计为在用户无法完成特定任务的情况下帮助人类实现目标。因此，需要一个代理人工智能系统基础设施来分析用户行为，并在需要时提供适当的支持。

4.3 代理性基础模型（预训练和微调层面）

使用预训练的基础模型在其广泛适用性方面提供了显著优势。这些模型的整合使得可以为不同应用开发定制解决方案，从而避免了针对每个特定任务需要大量标记数据集的需求。

在导航领域的一个显著例子是LM-Nav系统（Shah等人，2023a年），它以一种新颖的方式结合了GPT-3和CLIP。它有效地使用语言模型生成的文本地标，并将它们锚定在机器人用于导航的图像中。这种方法展示了文本和视觉数据的无缝融合，显著提高了机器人导航的能力，同时保持了广泛的适用性。

在机器人操控方面，几项研究提出了使用现成的大型语言模型（例如，ChatGPT），同时使用开放词汇目标检测器。大型语言模型与高级目标检测器（例如，Detic（Zhou等人，2022年））的结合，有助于理解人类指令，同时将文本信息与场景信息联系起来（Parakhet等人，2023年）。此外，最新的进展展示了使用高级多模态模型（例如，GPT-4V）进行提示工程的潜力。这种技术为多模态任务规划开辟了新途径，突显了预训练模型在各种情境中的多功能性和适应性。

5 代理人工智能分类

5.1 通用代理领域

基于计算机的行动和通用代理（GAs）对许多任务都有用。在大型基础模型和交互式人工智能领域的最新进展，为GAs启用了新的功能。然而，要使GA真正对用户有价值，它必须易于交互，并能广泛适应不同的情境和模态。我们在第6章中扩展了代理基础人工智能的主要章节，特别是与这些主题相关的领域：多模态代理人工智能（MMA）是一个即将到来的论坛，供我们的研究和产业社区参与，并与代理人工智能领域的更广泛研究和技术社区交流。在大型基础模型和交互式人工智能领域的最新进展，为通用代理（GAs）启用了新的功能，例如预测用户行动和在受限设置中进行任务规划（例如，MindAgent（Gong等人，2023a年）），精细的多模态视频理解（Luo等人，2022年），机器人学（Ahn等人，2022b年；Brohan等人，2023年）），或为用户提供包含知识反馈的聊天伙伴（例如，健康系统的网站客户支持（Peng等人，2023年））。有关代表性工作和最新代表性工作的更多细节如下所示。我们希望讨论我们对MAA未来的愿景，并激励未来的研究人员在这一领域工作。本文和我们的论坛涵盖以下主要主题，但不仅限于这些：

主要主题：多模态代理人工智能，通用代理人工智能
次要主题：具身代理，行动代理，基于语言的代理，视觉与语言代理，知识与推理代理，游戏代理，机器人学，医疗保健等代理。
扩展主题：视觉导航，模拟环境，重新排列，代理性基础模型，VR/AR/MR，具体视觉与语言。接下来，我们将按照以下列表介绍具体的代理类别：

5.2 Embodied Agents

我们的生物大脑生活在身体中，而我们的身体在不断变化的世界中移动。Embodied AI 的目标是创建代理，比如机器人，它们学会创造性地解决需要与环境互动的具有挑战性的任务。尽管这是一个重大挑战，但深度学习的重要进展和像ImageNet这样的大型数据集日益增加，已经使得在以前被认为是棘手的各种人工智能任务上取得了超越人类的表现。计算机视觉、语音识别和自然语言处理在像语言翻译和图像分类这样的被动输入输出任务上经历了革命性变革，而强化学习在游戏玩法等互动任务上同样取得了世界级的表现。这些进展极大地推动了具体人工智能，使越来越多的用户能够迅速朝着智能代理的方向取得进展，这些代理可以与机器互动。

5.2.1 行动代理

行动代理指的是需要在模拟的物理环境或现实世界中执行物理动作的代理。特别是，它们需要积极地与环境进行互动。我们根据应用领域将行动代理大致分类为两种不同的类别：gaming AI 和robotics。

在游戏人工智能中，代理将与游戏环境和其他独立实体互动。在这些环境中，自然语言可以使代理和人类之间的沟通更加顺畅。根据游戏的不同，可能会有一个特定的任务需要完成，提供一个真实的奖励信号。例如，在竞争性的游戏中，使用人类对话数据训练语言模型以及使用强化学习训练动作政策，可以实现人类水平的游戏。

还有一些设置是代理作为一个城镇的普通居民行动，而不是尝试优化特定目标。基础模型在这些设置中非常有用，因为它们可以模拟更自然的互动，通过模仿人类行为。当与外部记忆增强时，它们产生令人信服的代理，可以进行对话、安排日常生活、形成关系，并拥有虚拟生活。

5.2.2 交互代理

交互代理简单地指的是可以与世界互动的代理，比行动代理更广泛的代理类别。它们的互动形式不一定需要物理动作，但可能涉及向用户传达信息或修改环境。例如，一个具体的交互代理可能通过对话回答用户关于某个主题的问题，或帮助用户解析类似于聊天机器人的现有信息。通过扩展代理的能力，包括信息共享，代理人工智能的核心设计和算法可以有效地适应一系列应用，如诊断和知识检索代理。

5.3 模拟和环境代理

一种有效的方法让人工智能代理学会如何在环境中行动，是通过与环境的互动进行尝试和错误的体验。一个代表性的方法是强化学习（RL），它需要大量的失败经验来训练代理。虽然存在使用物理代理的方法，但使用物理代理既耗时又昂贵。此外，当在实际环境中的失败可能危险时（例如，自动驾驶，水下车辆），在物理环境中训练通常是可行的。因此，使用模拟器来学习策略是一种常见的方法。

为了具体人工智能研究，已经提出了许多模拟平台，范围从导航到物体操控。一个例子是Habitat，它提供了一个3D室内环境，人类和机器人代理可以在其中执行各种任务，如导航、指令跟随和问答。另一个代表性的模拟平台是VirtualHome，支持在3D室内环境中进行物体操控的人类化身。在游戏领域，Carroll等人引入了“Overcooked-AI”，这是一个旨在研究人类与AI之间合作任务的基准环境。类似地，一些工作旨在结合真实人类的干预，超越代理与环境之间互动的重点。这些模拟器有助于在涉及代理和机器人互动的实际设置中学习策略，以及利用人类示范行动的模仿学习（IL）策略。

在某些情况下，学习策略的过程可能需要在模拟器中整合专门的特性。例如，在学习基于图像的策略的情况下，通常需要真实的渲染来促进适应真实环境。使用真实的渲染引擎对于生成反映各种条件的图像（例如，照明环境）是有效的。此外，需要使用物理引擎的模拟器来模拟与物体的物理互动。在模拟中整合物理引擎已被证明有助于获取在现实世界场景中适用的技能。

5.4 生成型代理

最近在大型生成型AI模型领域的进步有潜力大幅降低当前互动内容的高成本和所需时间，这不仅适用于大型游戏工作室，也能赋予小型独立工作室超出其当前能力的高质量体验创作能力。此外，将大型AI模型嵌入沙盒环境中，将允许用户创作自己的体验，并以目前无法实现的方式表达他们的创造力。这个代理的目标不仅仅是向场景中添加交互式3D内容，还包括：

为对象添加任意行为和互动规则，使用户能够以最少的提示创建自己的VR规则。
使用多模态GPT4-v模型，以及涉及视觉AI模型的其他模型链，从一张纸上的草图生成整个级别的几何结构。
使用扩散模型重新贴图场景中的内容。
从简单的用户提示创建自定义着色器和视觉特效。短期内的一个潜在应用是VR创建故事板/原型工具，允许单个用户创建一个粗糙（但功能性的）体验/游戏草图，速度比目前可行的快一个数量级。这样的原型随后也可以使用这些工具进行扩展和提升。

5.4.1 增强现实/虚拟现实/混合现实代理

增强现实/虚拟现实/混合现实（统称为XR）环境目前需要技术熟练的艺术家和动画师来创建角色、环境和对象，用于模拟虚拟世界中的互动。这是一个成本高昂的过程，涉及概念艺术、3D建模、纹理设计、绑定以及动画制作。XR代理可以通过促进创作者之间的互动和构建工具来协助这一过程，帮助构建最终的虚拟环境。我们早期的实验已经证明，GPT模型可以在Unity引擎中的少量样本（few-shot）情境下使用（无需任何额外的微调），以调用引擎特定方法、使用API调用从互联网下载3D模型并将其放置到场景中，以及为它们分配行为和动画的状态树（Huang等人，2023a）。这种行为很可能是由于开源游戏库中使用Unity的类似代码的存在。因此，GPT模型能够根据简单的用户提示在场景中加载许多对象，构建丰富的视觉场景。这类代理的目标是构建一个平台和一套工具，为大型AI模型（包括GPT系列模型以及扩散图像模型）与渲染引擎之间提供高效的接口。我们在这里探索两个主要方向：

将大型模型整合到代理基础设施中的各种编辑工具中，实现开发速度的显著提升。
通过生成遵循用户指令的代码，然后在运行时编译，从用户体验中控制渲染引擎，使用户可以以任意方式编辑他们正在与之互动的VR/模拟环境，甚至引入新的代理机制。引入专注于XR设置的AI副驾驶对XR创作者来说将是有益的，他们可以使用副驾驶来完成繁琐的任务，比如提供简单的资产或编写代码模板，让创作者专注于他们的创意愿景并快速迭代想法。此外，代理可以帮助用户交互式地修改环境，通过添加新资产、改变环境动态或构建新设置。这种在运行时的动态生成也可以由创作者指定，使用户的体验感觉新鲜并持续进化。

5.5 知识与逻辑推理代理

推断和应用知识的能力是人类认知的一个定义特征，尤其明显在复杂任务中，如逻辑推理和理解心理理论。进行知识推理确保AI的回应和行动与已知事实和逻辑原则一致。这种连贯性是维持AI系统信任和可靠性的关键机制，特别是在医疗诊断或法律分析等关键应用中。在这里，我们引入了结合知识和推理的相互作用的代理，解决智能和推理的特定方面。

5.5.1 知识代理

知识代理在其获取的知识系统上进行推理分为两个方向：隐性和显性。隐性知识通常是大型语言模型（如GPT系列）在接受大量文本数据训练后所包含的（Brown等人，2020年；OpenAI，2023年）。这些模型可以生成给人以理解印象的回应，因为它们在训练过程中隐式地学习了模式和信息。相反，显性知识是结构化的，可以直接查询，如知识库或数据库中的信息，这些传统上用于通过引用可验证的外部资源来增强AI推理能力。尽管语言模型取得了进展，但它们的隐性知识是静态的，随着世界的发展而过时（Lewis等人，2020年；Peng等人，2023年）。这种局限性需要将显性知识源整合进来，这些知识源不断更新，确保AI系统能提供准确且当前的回应。隐性和显性知识的融合使AI代理具备了更为细腻的理解能力和在特定环境下应用知识的能力，类似于人类智能。这种整合对于打造以知识为中心的AI代理至关重要，它们不仅拥有信息，还能理解、解释并运用这些信息，从而缩小了广泛学习和深刻知识之间的鸿沟。这些代理被设计用来灵活推理，并了解世界的动态信息，增强了它们的健壮性和适应性。

5.5.2 逻辑代理

一般来说，逻辑代理是系统的一个组成部分，旨在应用逻辑推理来处理数据或解决特定于逻辑推理的任务。在GPT-4等大型基础模型的背景下，逻辑代理指的是设计用来处理逻辑推理任务的专门组件或子模块。这些任务通常涉及理解和操纵抽象概念、从给定的前提推导出结论，或解决需要结构化、逻辑方法的问题。广义上，像GPT-4这样的基础模型在大量文本数据上训练，学会执行广泛的任务，包括那些需要某种形式逻辑推理的任务。因此，它们的逻辑推理能力被整合到整体架构中，通常不具备一个独立的、孤立的“逻辑代理”。虽然GPT-4和类似模型可以执行涉及逻辑的任务，但它们的方法与人类或传统基于逻辑的系统的运作方式根本不同。它们不遵循正式的逻辑规则，也没有对逻辑的显式理解；相反，它们根据从训练数据中学到的模式生成回应。因此，它们在逻辑任务中的表现可能令人印象深刻，但也可能不一致，或受限于训练数据的性质和模型设计的固有局限。将单独的逻辑子模块嵌入架构中的一个例子是，它修改了LLM在预训练期间使用的令牌嵌入过程，通过将文本解析成逻辑段落，并在令牌嵌入中显式地建模逻辑层次。

5.5.3 面向情感推理的代理

在许多人机交互中，情感理解和同理心是代理的重要技能。例如，创建引人入胜的对话代理的一个重要目标是使代理表现出更多的情感和同理心，同时尽量减少社交不当或冒犯性的输出。为了推进对话代理实现这一目标，我们发布了具有同理心的神经图像评论数据集（NICE），包括近两百万幅图像及其相应的人类生成评论和一组人类情感注释。我们还提供了一个新的预训练模型 – 面向图像评论的情感生成建模（MAGIC）- 旨在生成图像评论，条件是基于捕捉风格和情感的语言表征，并帮助生成更具同理心、情感、吸引力和社交适当性的评论。我们的实验表明，这种方法在训练更具人性化和吸引力的图像评论代理方面是有效的。开发具有同理心意识的代理是交互式代理的一个有希望的方向，创建具有情感理解能力的代理对于广泛的群体和人口来说非常重要，尤其是考虑到许多当前的语言模型在情感理解和同理心推理能力上表现出偏见。

5.5.4 神经符号代理

神经符号代理运作于一个结合神经元和符号的混合系统上（d'Avila Garcez和Lamb，2020年）。解决自然语言中提出的问题是一个具有挑战性的任务，因为它需要明确捕捉输入中隐含的离散符号结构信息。然而，大多数通用的神经序列模型并没有明确捕捉这种结构信息，限制了它们在这些任务上的性能。Chen等人（2020年）提出了一种基于结构化神经表示代理的新编码器-解码器模型。TP-N2F的编码器采用TPR“绑定”来在向量空间中编码自然语言的符号结构，解码器使用TPR“解绑”在符号空间中生成一个由关系（或操作）和若干参数组成的关系元组序列程序。

基于指令的视觉语言（VL）模型（如GPT-4）提供了一个灵活的接口，支持广泛的多模态任务，以零样本的方式进行。然而，完全基于图像的接口并不直接允许用户“指向”并访问图像中的特定区域。这种能力不仅对于支持基于参考的VL基准测试很重要，而且对于需要精确的图像内推理的实际应用也很重要。在Park等人（2023b）的研究中，我们构建了一个允许用户指定（多个）区域作为输入的本地化视觉常识模型。我们通过向大型语言模型（LLM）提出提示，采样本地化常识知识，具体来说，我们要求LLM收集给定全局字面图像描述和由一组VL模型自动生成的局部字面区域描述的常识知识。这个流程是可扩展的且完全自动的，因为不需要对齐或人工编写的图像和文本对。通过使用一个单独训练的评论模型选择高质量示例，我们发现，仅从图像扩展的本地化常识语料库的训练成功地提炼了现有的VL模型，以支持作为输入的参考接口。零样本设置中的经验结果和人类评估表明，我们的提炼方法在推理方面产生了比生成引用表达的基线更精确的VL模型。

5.6 LLMs和VLMs代理

一些研究利用大型语言模型（LLMs）作为代理进行任务规划（Huang等人，2022a；Wang等人，2023b；Yao等人，2023a；Li等人，2023a），并利用LLMs庞大的互联网规模领域知识和零样本规划能力来执行代理任务，如规划和推理。最近的机器人研究也利用LLMs进行任务规划（Ahn等人，2022a；Huang等人，2022b；Liang等人，2022），通过将自然语言指令分解为一系列子任务，不论是以自然语言形式还是以Python代码形式，然后使用低级控制器执行这些子任务。此外，（Huang等人，2022b）、（Liang等人，2022）和（Wang等人，2023a）还纳入了环境反馈，以提高任务性能。还有一些研究展示了通用的、与视觉对齐的大型语言模型的能力，这些模型在大规模文本、图像和视频数据上进行训练，可以作为创建多模态代理的基础，这些代理具有实体性，并能在各种环境中行动（Baker等人，2022；Driess等人，2023；Brohan等人，2023）。

6 代理AI应用任务

6.1 游戏中的代理

游戏提供了一个独特的沙盒环境，用于测试LLMs和VLMs的代理行为，推动它们的协作和决策能力的界限。我们特别描述了三个领域，突出了代理与人类玩家和其他代理的互动能力，以及它们在环境中采取有意义行动的能力。

6.1.1 NPC行为

在现代游戏系统中，非玩家角色（NPC）的行为主要由开发者制定的预定义脚本决定。这些脚本包含了基于各种触发器或玩家在游戏环境中的行动的一系列反应和互动。然而，这种脚本化的本质通常导致NPC行为可预测或重复，无法响应玩家的行动或游戏的动态环境。这种僵硬性阻碍了动态游戏环境中预期的沉浸式体验。因此，利用LLMs赋予NPC行为自主性和适应性的兴趣日益增长，使互动更加细腻和引人入胜。AI驱动的NPC可以从玩家行为中学习，适应不同的策略，并提供更具挑战性和不可预测性的游戏体验。大型语言模型（LLMs）可以显著地有助于游戏中NPC行为的演变。通过处理大量文本，LLMs可以学习模式并生成更多样化和类似人类的回应。它们可以用来创建动态对话系统，使与NPC的互动更加吸引人且不可预测。此外，LLMs可以在玩家反馈和游戏数据上进行训练，以不断完善NPC行为，使其更加符合玩家期望和游戏动态。

6.1.2 人类-NPC互动

人类玩家与NPC之间的互动是游戏体验的关键方面。传统的互动模式主要是单向的，NPC对玩家输入以预设的方式作出反应。这种限制抑制了更自然和丰富互动的潜力，类似于虚拟领域内的人与人之间的交互。LLM和VLM技术的出现承诺改变这种模式。通过使用这些技术，游戏系统可以分析并从人类行为中学习，提供更像人类的互动。这不仅增强了游戏的真实感和参与度，而且还提供了一个平台，用于探索和理解在受控但复杂的环境中的人机交互。

6.1.3 游戏中基于代理的分析

游戏是日常生活的重要组成部分，估计吸引了全球一半的人口参与。此外，它对心理健康有积极影响。然而，现代游戏系统在与人类玩家的互动中存在缺陷，因为它们的行为主要是由游戏开发者手工制作的。这些预编程的行为经常未能适应玩家的需求。因此，存在对新的AI系统的需求，这些系统可以在游戏中分析玩家行为，并在必要时提供适当的支持。智能互动系统有可能彻底改变玩家与游戏系统的互动方式。NPC与玩家的互动不再受限于游戏开发者设计的有限规则集。它们有潜力无缝适应玩家的体验，提供及时的反馈，丰富游戏体验并提升人机互动的协同性。LLMs可以作为一个强大的工具来分析游戏中的文本数据，包括聊天记录、玩家反馈和叙述内容。它们可以帮助识别玩家行为、偏好和互动的模式，这对于游戏开发者改进游戏机制和叙述非常宝贵。此外，VLMs可以解析游戏会话中大量的图像和视频数据，帮助分析游戏世界中的用户意图和行动。此外，LLMs和VLMs可以促进游戏内智能代理的开发，这些代理可以以复杂和类似人类的方式与玩家和其他代理进行交流，增强整体游戏体验。除了LLMs和VLMs之外，用户输入数据提供了一个有前景的途径，用于创建模拟人类玩家的游戏代理，这些代理可以模拟感知、游戏玩法和对游戏的理解。通过结合玩家互动和反馈、像素输入以及自然语言规划和理解，代理模型可以协助持续改进游戏动态，推动更以玩家为中心的游戏环境的发展。

6.1.4 游戏中的场景合成

场景合成是创建和增强沉浸式游戏环境的重要组成部分。它涉及在游戏中自动或半自动生成三维（3D）场景和环境的过程。这个过程包括地形生成、物体放置、真实照明创建，有时甚至包括动态天气系统。现代游戏通常特色是广阔的开放世界环境。手动设计这些景观可能非常耗时和资源密集。自动地形生成，常常利用程序化或AI驱动的技术，可以产生复杂、真实的景观，减少手动劳动。LLMs和VLMs可以利用互联网规模知识来制定规则，设计独特且视觉上令人印象深刻的非重复性景观。此外，LLMs和VLMs可用于确保生成资产的语义一致性和变化性。在场景中以真实和美观的方式放置建筑、植被和其他元素对于沉浸感至关重要。VLMs和LLMs可以通过遵循预定义或学习的规则和美学帮助物体放置，从而加快关卡设计过程。VLMs和LLMs还可以进一步训练，以理解设计和美学原则，帮助程序化生成内容。它们可以帮助制定程序化算法遵循的规则或指导方针，以生成既视觉上吸引人又与上下文相符的对象和场景。真实的照明和大气效果对于创建可信和引人入胜的游戏环境至关重要。先进的算法可以模拟自然照明条件和动态天气效果，增强场景的真实感和氛围。LLMs可以以多种创新方式帮助开发更真实的照明和大气效果系统。VLMs可以分析来自现实世界照明和大气条件的大量数据集，帮助开发更真实的游戏中模拟这些效果的算法。通过理解自然照明和天气的模式和复杂性，这些模型可以有助于开发更接近现实的算法。LLMs和VLMs还可以用于开发根据玩家行动、游戏状态或外部输入实时调整照明和大气效果的系统。它们可以处理玩家的自然语言命令来修改游戏环境，提供更互动和沉浸的体验。

6.1.5 实验和结果

使用LLM或LVM的零样本/少样本学习：正如我们在图8和图9中展示的，我们使用GPT-4V进行高层描述和行动预测。图8展示了一些使用GPT-4V生成和编辑行动描述的定性示例。代理增强的文本开辟了一种生成具有游戏行动先验的3D场景的新方法，以帮助提高场景的自然性。因此，GPT-4V生成了适合游戏视频的相关高层描述。

小型代理预训练模型：为了展示我们的代理视觉-语言架构，我们首先在Minecraft数据上进行预训练，研究其在游戏代理领域的应用。如图7所示，给定一个输入动作代理、视频的关键帧和相应的文本，标准的编码器-解码器可以用来将代理动作和图像转换为动作文本令牌和图像补丁令牌，然后使用代理视觉-语言解码器将其转换为动作预测句子。整体架构如图7所示。我们使用几个Minecraft演示评估我们的方法。Minecraft视频数据包含5分钟的片段，我们用于预训练的数据包含78K个视频，我们使用了5K个视频（预训练数据的6%）进行第一轮预训练。我们在16个NVIDIA v100 GPU上训练了一个250M参数模型一天，并在图10和图11中可视化我们的模型输出。图10显示我们相对较小的代理架构可以为训练期间未见过的Minecraft场景生成合理的输出。图11显示了模型的预测与地面真实人类玩家行动的对比，表明我们的小型代理模型具有潜在的低级理解能力。

多代理基础设施：正如我们在图5中所展示的代理范式，我们为一个名为“CuisineWorld"的新游戏场景设计了一个新颖的基础设施（Gong等人，2023a）。我们在图12中详细介绍了我们的方法。我们的基础设施允许通过利用GPT-4作为中心规划者，在多个游戏领域进行多代理协作。我们调查了我们系统的多代理规划能力，并将基础设施部署到真实世界的视频游戏中，以展示其多代理和人工智能协作的有效性。此外，我们还介绍了一个基于文本的多代理协作基准试“Cuisineworld”，它提供了一个新的自动度量协作得分（CoS）来量化协作效率。有关游戏描述、高层行动预测和GPT-4V提示的更多示例和细节，请参阅附录。我们在图32和附录B中为Bleeding Edge展示了示例，微软飞行模拟器在图33和附录C中，刺客信条奥德赛在图34和附录D中，战争机器4在图35和附录E中，以及星际战场在图36和附录F中。我们还在附录A中的图31中提供了用于生成Minecraft示例的GPT4V提示过程的详细截图。

6.2 机器人技术

机器人是需要有效与环境互动的代表性代理。在本节中，我们将介绍高效机器人操作所需的关键要素，回顾最新的LLM/VLM技术应用的研究主题，并分享我们最新研究的发现。

视觉运动控制：视觉运动控制是指将视觉感知和运动行为整合以在机器人系统中有效执行任务。这种整合至关重要，因为它使机器人能够解释其环境中的视觉数据，并相应地调整其运动行为以准确地与环境进行互动。例如，在装配线上，装备有视觉运动控制的机器人可以感知物体的位置和方向，并准确地对齐其操作器与这些物体进行交互。这种能力对于确保机器人操作的精确性和有效性至关重要，应用范围广泛，从工业自动化到协助老年人日常杂务。此外，视觉运动控制使机器人能够适应动态环境，例如环境状态可能迅速变化，需要基于视觉反馈实时调整运动行为。

此外，在安全操作的背景下，视觉信息对于检测执行错误和确认每个机器人行动的前后条件至关重要。在不受控制的环境中，例如未知的家庭环境，机器人更可能面临意外结果，因为不可预测因素，如变化的家具形状、不同的照明和滑移。仅以前馈方式执行预先计划的行动计划在这些环境中可能带来显著风险。因此，利用视觉反馈不断验证每个步骤的结果是确保机器人系统稳健和可靠运行的关键。

语言条件操控：语言条件操控涉及机器人系统基于语言指令解释和执行任务的能力。这一方面对于创建直观和用户友好的人机交互界面尤为关键。通过自然语言命令，用户可以以类似于人与人交流的方式指定目标和任务给机器人，从而降低操作机器人系统的障碍。例如，在实际情境中，用户可以指示服务机器人“从桌子上拿起红苹果”，机器人将解析这个指令，识别被提及的对象并执行拾起的任务（Wake等人，2023c）。核心挑战在于开发健壮的自然语言处理和理解算法，能够准确解释从直接命令到更抽象指令的广泛指令，并使机器人能够将这些指令转化为可行的任务。此外，确保机器人能够在不同任务和环境中泛化这些指令对于提高其在现实世界应用中的多功能性和实用性至关重要。使用语言输入来指导机器人的任务规划在机器人框架“任务与运动规划”（Garrett等人，2021）的背景下受到关注。

技能优化：近期研究突显了LLMs在机器人任务规划中的有效性。然而，特别是涉及物理交互的任务，如抓握，要求对环境有更深入的理解，这超出了简单解释人类指令的范畴。例如，机器人抓握需要精确的接触点（Wake等人，2023e）和手臂姿势（Sasabuchi等人，2021）。尽管这些元素——精确的接触点和手臂姿势——对于人类来说是直观的，但通过语言表达它们却具有挑战性。尽管在互联网规模的VLMs方面取得了进展，但从场景中捕获这些微妙的间接线索并有效地将其转化为机器人技能仍然是一个重大挑战。为此，机器人学界越来越多地关注收集增强数据集（例如（Wang等人，2023d; Padalkar等人，2023））或开发从人类演示中直接获取技能的方法论（Wake等人，2021a）。包括学习式示范和模仿学习的框架在内的技术在优化物理技能方面发挥着至关重要的作用。

6.2.1 基于LLM/VLM的机器人学代理

近期的研究展示了LLM/VLM在涉及人类互动的环境中对机器人代理的潜在作用。旨在利用最新LLM/VLM技术的研究主题包括：

多模态系统：最近的研究积极专注于开发整合最新LLM和VLM技术作为输入信息编码器的端到端系统。特别地，越来越多的研究趋势是修改这些基础模型以处理多模态信息（江等，2022年；布罗汉等，2023年、2022年；李等，2023年d；安等，2022年b；沙等，2023年b；李等，2023年e）。这种适应旨在基于语言指令和视觉线索指导机器人行动，从而实现有效的体现。

任务规划和技能训练：与端到端系统相对，基于任务和运动规划（TAMP）的系统首先计算一个高层次的任务计划，然后通过低层次的机器人控制，即技能来实现它们。LLM的高级语言处理能力已展示出解读指令和将其分解为机器人动作步骤的能力，极大地推进了任务规划技术（倪等，2023年；李等，2023年b；帕拉赫等，2023年；韦克等，2023年c）。对于技能训练，几项研究探索了使用LLM/VLM设计奖励函数（于等，2023年a；卡塔拉等，2023年；马等，2023年），生成数据以促进政策学习（库马尔等，2023年；杜等，2023年），或作为奖励函数的一部分（桑塔克等，2023年）。结合如强化学习（RL）和模仿学习（IL）等训练框架，这些努力将有助于高效机器人控制器的发展。

现场优化：由于环境条件的不可预测性，执行长期机器人任务步骤可能会很困难。因此，机器人领域的一个重要挑战是通过整合任务计划和实时环境数据来动态适应和完善机器人技能。例如，安等人（2022年b）提出了一种方法，该方法根据视觉信息计算行动的可行性（即，适应性）并与计划任务进行比较。此外，还有一些方法专注于使LLM输出任务步骤的前置条件和后置条件（例如，物体状态及其相互关系），以优化其执行（周等，2023年c），并检测前置条件错误，以便对任务计划进行必要的修订（拉曼等，2023年）。这些策略旨在通过整合环境信息和调整任务计划或控制器级别的机器人行为，实现环境基础的机器人执行。

对话代理：在创建对话型机器人时，LLM可以促进与人类的自然、环境敏感的互动（叶等，2023年a；韦克等，2023年f）。这些模型处理和生成模仿人类对话的响应，允许机器人参与有意义的对话。此外，LLM在估计概念（亨泽尔等，2023年；手岛等，2022年）和情感属性（赵等，2023年；杨等，2023年b；韦克等，2023年d）方面发挥着重要作用。这些属性有助于理解人类意图和生成有意义的手势，从而促进人机交流的自然性和有效性。

导航代理：机器人导航有着悠久的研究历史，专注于地图导航规划和同时定位与建图（SLAM）等核心方面，用于创建环境地图。这些功能已成为广泛使用的机器人中间件（如机器人操作系统（ROS））的标准（吉马良斯等，2016年）。

虽然传统的导航技术在许多机器人应用中仍然普遍存在，但它们通常依赖于静态或预制的地图。最近，人们对于能够使机器人在更具挑战性的环境中导航的先进技术越来越感兴趣，利用计算机视觉和自然语言处理等领域的突破。一个代表性的任务是对象导航（查普洛特等，2020年a；巴特拉等，2020年；杰维特等，2023年；拉马克里希南等，2022年；张等，2021年），在这里，机器人使用对象名称进行导航，而不是地图坐标，需要在环境中对对象名称进行视觉定位。此外，最近还关注了在完全陌生的新环境中对机器人进行零次射击导航的技术，这是基于基础模型的所谓零次射击对象导航（加德雷等，2023年；多巴拉等，2023年；蔡等，2023年）。另外，视觉-语言导航（VLN）（安德森等，2018年a）是一个代表性任务，在此任务中，代理人需要根据自然语言指令在之前未见过的真实环境中进行导航（沙等，2023年a；周等，2023年a；多巴拉等，2022年；梁等，2023年；黄等，2023年b）。VLN解释句子而不是对象名称，例如“走到你左边的浴室”，因此它需要更高的功能来解析输入文本（王等，2019年）。基础模型的出现有助于这种自适应、即时导航技术的发展，通过增强对人类语言指令的理解和对环境信息的视觉解释。有关代表性VLN研究的更详细解释，请参见6.2.2节。

6.2.2 实验与结果

越来越多的证据表明，最近的VLM和LLM在符号任务规划（例如，做什么）方面具有很大的潜力。然而，每个任务都需要低层次的控制策略（例如，如何做）来实现与环境的成功互动。尽管强化学习和模仿学习是学习策略的有希望的方法，但另一种有前景的方法是通过现场演示直接从人类那里获取策略，这种方法称为从观察中学习（韦克等，2021年a；池内等，0）。在这一部分中，我们介绍了一项研究，我们在其中使用ChatGPT进行任务规划，并通过参数化适应性信息来丰富计划，以促进有效和精确的执行（图13）。

该流程包括两个模块：任务规划和参数化。在任务规划中，系统被输入语言指令和工作环境的描述。这些指令，连同预定义的机器人动作和输出规范，被编译成提供给ChatGPT的全面提示，ChatGPT随后生成一系列分解任务及其文本描述（图13；左侧窗格）。值得注意的是，我们采用少量示例方法，意味着ChatGPT没有在这个任务上进行训练，这在可应用性方面提供了优势，因为它消除了对硬件依赖数据收集和模型训练的需求。此外，输出中的文本描述使用户能够根据需要检查和调整结果，这是安全和稳健操作的一个关键特性。图14显示了在VirtualHome（普伊格等，2018年）之上进行的代理模拟的定性结果。结果展示了一个合理的任务计划及其在调整输出方面的灵活性，表明了我们方法的广泛适用性。

尽管任务规划器确保了任务序列之间的一致性，但在现实中成功操作需要详细的参数。例如，抓握类型对于携带容器时不洒出内容至关重要，这样的参数在模拟器中常被忽略（参见图14中抓握馅饼）。因此，在我们的机器人系统中，要求用户在视觉上演示每个动作（图13；右侧窗格）。任务有执行所需的预定义参数，我们的视觉系统从视频中提取这些参数（韦克等，2021年b）。值得注意的是，我们的机器人系统不是设计用来精确复制人类动作（即远程操作），而是用来处理真实世界条件的变化，如物体位置的变化。因此，从人类演示中提取的参数并不是精确的运动路径，而是决定有效环境运动的适应性信息（例如，用于避免碰撞的航点（韦克等，2023年a），抓握类型（韦克等，2023年e），上肢姿势（佐佐渊等，2021年；韦克等，2021年a））。上肢的姿势对于自由度高的机器人至关重要，并且设计为对与操作机器人共存的人类呈现可预测的姿势。配备适应性的任务序列被转化为通过强化学习获得的可重用机器人技能序列，并由机器人执行（高松等，2022年）。

通过与VLMs的整合，可以将LLM赋能的任务规划扩展到更多功能的机器人系统。在这里，我们展示了一个例子，我们在多模态输入背景下使用GPT-4V（视觉）来拓展前述任务规划器（图15），人类执行的动作旨在被机器人复制。在本文中，只展示了部分提示。完整的提示可在microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts上找到。

这一流程接收演示视频和文本，然后输出一系列机器人动作。视觉分析器的目的是理解视频中人类执行的动作。我们使用了GPT-4V，并提供了一个提示，以人与人交流的典型风格生成文本指令。图16展示了如何使用文本输入允许用户对GPT-4V的识别结果进行反馈，以便进行纠正。这样的特性，旨在提高识别结果的准确性，也使操作更加稳健。

接下来，场景分析器根据指令和视频数据的第一帧（或环境图像）将预期的工作环境编译成文本信息。这些环境信息包括GPT-4V识别的物体名称列表、物体的可抓取属性和物体之间的空间关系。尽管这些计算过程在GPT-4V中是一个黑盒，但信息是基于GPT-4V的知识和图像/文本输入输出的。图17展示了我们场景分析器的示例输出。如图所示，GPT-4V成功选择了与操纵相关的物体。例如，当人类在桌子上重新放置一个午餐肉罐头时，桌子被包括在输出中，而在打开冰箱的任务中忽略了桌子。这些结果表明，场景分析器根据人的动作对场景信息进行编码。我们提示GPT-4V解释物体选择过程的结果及其背后的原因。实践中，我们发现这种方法产生了合理的输出。最后，根据给定的文本指令和环境信息，任务规划器输出一系列任务（韦克等，2023年c）。

机器人导航的具体代理：视觉-语言导航（VLN）是一项任务，它涉及引导一个具体代理在真实的3D环境中执行自然语言指令。在3D环境中的导航（朱等，2017年a；米罗夫斯基等，2016年；穆萨维安等，2018年；赫马钦德拉等，2015年）是移动智能系统在物理世界中运行的基本能力。在过去几年中，提出了大量的任务和评估协议（萨瓦等，2017年；科尔夫等，2017年；宋等，2017年；夏等，2018年；安德森等，2018年a），如（安德森等，2018年b）所总结。VLN（安德森等，2018年a）专注于真实3D环境中的基于语言的导航。为了解决VLN任务，（安德森等，2018年a）建立了一个基于注意力的序列到序列的基线模型。然后（王等，2018年）引入了一种结合无模型和基于模型的强化学习（RL）的混合方法，以提高模型的泛化能力。最后，（弗里德等，2018年）提出了一个采用数据增强、全景动作空间和修改的波束搜索的扬声器-追随者模型，为VLN设立了当前在房间到房间数据集上的最新性能标准。在先前工作的基础上，我们在（王等，2019年）中为VLN提出了一种加强的跨模态匹配（RCM）模型。RCM模型是基于（弗里德等，2018年）构建的，但在许多重要方面有所不同：（1）RCM结合了一种新颖的多奖励RL与模仿学习用于VLN，而扬声器-追随者模型（弗里德等，2018年）仅使用（安德森等，2018年a）中的监督学习。（2）RCM推理导航器执行跨模态接地，而不是对单模态输入的时间注意机制。（3）RCM匹配评论家在架构设计上类似于扬声器，但前者用于为RL和SIL训练提供循环重建内在奖励，而后者用于增强监督学习的训练数据。在（王等，2019年）中，我们研究了如何解决这个任务的三个关键领导板问题：跨模态接地、不良反馈和泛化问题。如图18所示，我们提出了一种新颖的加强的跨模态匹配方法，通过强化学习（RL）在局部和全局上强制执行跨模态接地。特别是，一个匹配评论家被用来提供内在奖励以鼓励指令和轨迹之间的全局匹配，一个推理导航器被用来在局部视觉场景中执行跨模态接地。在VLN基准数据集上的评估表明，我们的RCM模型在SPL上比以前的方法高出10%，并取得了新的最佳性能。为了提高学习策略的泛化能力，我们进一步引入了一种自我监督的模仿学习（SIL）方法，通过模仿自己过去的好决定来探索未见过的环境。我们展示了SIL可以近似一个更好、更有效的策略，这极大地减少了在已见和未见环境之间的成功率性能差距（从30.7%降到11.7%）。此外，在（王等，2019年）中，我们引入了一种自我监督的模仿学习方法来进行探索，以明确解决泛化问题，这是之前工作中未得到充分研究的问题。与此同时，（托马森等，2018年；柯等，2019年；马等，2019年a，b）从各个方面研究了VLN任务，（阮等，2018年）引入了VLN任务的一个变体，以在需要时通过请求语言协助来寻找物体。请注意，我们是第一个提出探索未见环境用于VLN任务的。

6.3 医疗保健

在医疗保健领域，LLM和VLM可以作为诊断代理、患者护理助手，甚至是治疗辅助工具，但它们带来了独特的领先地位和责任。随着AI代理改善患者护理和拯救生命的巨大潜力，同样危险的可能性是，它们的误用或仓促部署可能会危及全球成千上万甚至数百万人。我们讨论了AI代理在医疗保健背景下的一些有前景的路线，也讨论了一些面临的关键领先地位。

诊断代理：使用LLM作为医疗聊天机器人进行患者诊断最近引起了极大的关注，这是由于对医疗专家的高需求和LLM帮助分诊和诊断患者的潜力（李等，2023年）。特别是那些能够有效地向来自不同患者群体的广泛人群传达重要医疗信息的对话代理，有潜力为历史上处于劣势或边缘化的群体提供公平的医疗保健获取途径。此外，世界各地的医生和医疗系统普遍负担过重、资源不足，导致全球数亿人无法获得足够的医疗保健（世界卫生组织和世界银行，2015年）。诊断代理为数百万人改善医疗保健提供了特别有利的途径，因为它们可以构建具有理解多种语言、文化和健康状况的能力。初步结果表明，可以通过利用大规模网络数据来训练具有医疗知识的LMM（李等，2023年f）。尽管这是一个令人兴奋的方向，但诊断代理的承诺并非没有风险。我们在下一节中强调了在医疗背景中幻觉的风险，以及可能的解决方案途径。

知识检索代理：在医疗背景下，模型幻觉尤其危险，甚至可能导致严重的患者伤害或死亡，这取决于错误的严重性。例如，如果患者错误地收到一个诊断，表明他们没有实际上拥有的病症，这可能导致灾难性的后果。这些包括推迟或不适当的治疗，或者在某些情况下，完全缺乏必要的医疗干预。未诊断或误诊条件的严重性可能导致医疗费用升高、治疗时间延长，从而造成进一步的身体压力，在极端情况下，可能导致严重伤害甚至死亡。因此，使用代理更可靠地检索知识（彭等，2023年）或以检索为基础的方式生成文本（古等，2020年）的方法是有前景的方向。将诊断代理与医疗知识检索代理配对，有可能显著减少幻觉，同时提高诊断对话代理响应的质量和精确度。

远程医疗和远程监测：基于代理的AI在远程医疗和远程监测领域也具有巨大潜力，它通过改善医疗保健获取、改进医疗提供者与患者之间的沟通以及提高频繁医患互动的效率和降低成本（阿姆贾德等，2023年）。初级保健临床医生花费大量时间筛选患者消息、报告和电子邮件，这些往往对他们来说是无关紧要或不必要的。允许支持代理帮助分流来自医生、患者和其他医疗保健提供者的消息，并帮助突出显示所有方的重要消息，具有重要的潜力。通过使代理AI系统与患者、临床医生和其他AI代理协调，有巨大的潜力来革新远程医疗和数字健康产业。

6.3.1 当前医疗保健能力

图像理解：我们在图19中展示了现代多模态代理（如GPT-4V）在医疗保健背景下的当前能力和局限性。我们可以看到，尽管GPT-4V具有医院护理中涉及的设备和程序的重要内部知识，但它并不总是对用户的更具指导性或诊断性的查询作出响应。

视频理解：我们在两种情境下研究了VLM代理在医疗视频理解方面的性能。首先，我们研究了VLM代理识别临床空间中重要患者护理活动的能力。其次，我们探讨了VLM在更技术性视频（如超声波）中的应用。具体来说，在图20中，我们展示了GPT-4V在医院护理和医疗视频分析方面的一些当前能力和局限性。

6.4 多模态代理

整合视觉和语言理解对于开发复杂的多模态AI代理至关重要。这包括图像字幕、视觉问答、视频语言生成和视频理解等任务。我们旨在深入研究这些视觉-语言任务，在AI代理的背景下探索它们所呈现的领先地位和机遇。

6.4.1 图像-语言理解和生成

图像-语言理解是一项任务，涉及使用语言解释给定图像中的视觉内容并生成相关的语言描述。这一任务对于开发能够以更类似人类的方式与世界互动的AI代理至关重要。一些最受欢迎的任务包括图像字幕，指代表达和视觉问答。最近，引入了一些知识密集型的视觉问答任务，例如OKVQA，KBVQA，FVQA和WebQA。多模态代理应具备识别图像中的对象、理解它们的空间关系、生成关于场景的准确描述性句子以及运用推理技能处理知识密集型的视觉推理的能力。这不仅需要对象识别能力，还需要深入理解空间关系、视觉语义，并且能够将这些视觉元素映射到与世界知识整合的语言构造中。

6.4.2 视频和语言理解与生成

视频语言生成：视频字幕或视频叙事是为一连串视频帧生成一系列连贯句子的任务。受到在视频和语言任务中成功使用的循环大型基础模型的启发，以代理为驱动的增强模型变体在视频语言生成任务上显示出了有前途的结果。根本挑战在于，神经编码器-解码器模型的强大性能并不适用于视觉叙事，因为这项任务需要全面理解每个图像的内容以及不同帧之间的关系。该领域的一个重要目标是创建一个能够高效编码帧序列并生成主题连贯的多句段落的代理意识文本合成模型。

视频理解：视频理解扩展了图像理解的范围，涵盖动态视觉内容。这涉及对视频中的帧序列进行解释和推理，通常与伴随的音频或文本信息结合使用。代理应能够与视觉、文本以及音频等多种形式互动，以展示其对视频内容的高级理解。该领域的任务包括视频字幕、视频问答和活动识别等。视频理解的挑战多样。它们包括视觉和语言内容的时间对齐、处理长序列帧的能力，以及解释随时间展开的复杂活动。关于音频，代理可以处理口语、背景噪音、音乐和声音语调，以理解视频内容的情绪、背景和微妙之处。

先前的研究聚焦于利用在线可用的现有视频-语言训练数据来建立视频基础模型（李等，2020年，2021年b；傅等，2022年；贝恩等，2021年；泽勒斯等，2021年，2022年；傅等，2023年）。然而，支持这些训练流程和功能是困难的，因为这些数据集的数量有限且往往不一致。视频基础模型采用了遮蔽和对比预训练目标，并在其各自的任务上进行了调整。尽管在多模态基准测试中展示了显著的结果，但这些模型在诸如动作识别之类的仅限视频的任务中遇到了困难，因为它们依赖于从嘈杂的音频转录构建的有限的视频-文本数据。这一局限性也导致了缺乏大型语言模型通常具有的鲁棒性和细致的推理技能。

其他方法，类似于图像-语言理解中使用的方法，利用大型语言模型的强大推理技能和广泛知识来改善视频解释的不同方面。像ChatGPT和GPT4这样的仅限语言的模型，或者像GPT4-V这样的图像-语言模型，将音频、视频和语言模式视为单独的可解释输入数据类型，并将代理定位为强大的开源模型，从而简化了视频理解任务。例如，（黄等，2023年c；李等，2023年g）通过使用开源视觉分类/检测/字幕模型将视频内容文本化，将视频理解转化为自然语言处理（NLP）问答形式。（林等，2023年）将GPT4-V与视觉、音频和语音中的专业工具整合起来，以促进复杂的视频理解任务，如在长视频中编排角色动作和行为。

平行研究探索了从大型模型生成扩展数据集，然后对生成的数据进行视觉指导调整（刘等，2023年c；李等，2023年c；朱等，2023年）。随后使用了大量的音频、语音和视觉专家感知模型来对视频进行口述。使用自动语音识别工具转录语音，使用各种标记、定位和字幕模型生成视频描述和相关数据（李等，2023年g；马兹等，2023年；陈等，2023年；王等，2023年f）。这些技术展示了如何通过在生成的数据集上对视频-语言模型进行指导调整，可能导致增强的视频推理和沟通能力。

6.4.3 实验与结果

知识密集型模型：如INK（朴等，2022年）和KAT（桂等，2022年a）所介绍的，这是一种集成了人类注释所需知识的密集型神经知识任务，以支持知识密集型检索任务。
多模态代理：对于多模态语言模型，如Chameleon（卢等，2023年）和MM-React（杨等，2023年c）的兴趣不断增长。
视觉指令调整：VCL（桂等，2022年b），Mini-GPT4（朱等，2023年），MPLUG-OWL（叶等，2023年b），LSKD（朴等，2023年c）生成图像级别指令调整数据集。

知识密集型代理。如图22和图23所示，基于知识的视觉问答和视觉-语言检索任务是多模态机器学习中的挑战性任务，需要超越图像内容的外部知识。近期关于大规模变换器的研究主要专注于最大化模型参数的存储信息效率。这一研究探讨了不同的方面：多模态变换器是否能在其决策过程中使用显式知识。基于变换器的预训练方法在隐式学习多个模态的知识表示方面取得了显著成功。然而，传统方法，主要是单模态的，已经研究了知识检索和随后的答案预测，提出了关于检索知识的质量和相关性以及使用隐式和显式知识的推理过程整合的问题。为了解决这些问题，我们引入了知识增强变换器（KAT），在2022年OK-VQA开放域多模态任务中比其他模型表现更佳，提高了6%。KAT结合了来自GPT3的隐式知识和来自网站的显式知识，采用编码器-解码器结构，并在答案生成过程中允许同时使用两种知识类型进行推理。此外，结合显式知识增强了模型预测的可解释性。代码和预训练模型可在https://github.com/guilk/KAT获取。

视觉-语言变换器代理。接下来，我们介绍了“从字幕训练视觉-语言变换器”（VLC）模型（桂等，2022年b），这是一个仅使用图像-字幕对预训练的变换器。尽管VLC只使用了简单的线性投影层进行图像嵌入，但它在各种视觉-语言任务中取得了与依赖于对象探测器或有监督CNN/ViT网络的其他方法相媲美的结果。通过广泛的分析，我们探索了VLC作为视觉-语言变换器代理的潜力。例如，我们展示了VLC的视觉表示对于ImageNet-1K分类非常有效，我们的可视化证实VLC可以准确地将图像块与相应的文本标记匹配。随着更多训练数据性能的可扩展性凸显了开发大规模、弱监督、开放域视觉-语言模型的潜力。

为了理解将预训练的图像语言模型（LLMs）转换为视频理解的实用性，我们对InstructBLIP（Dai等人，2023年）进行了时间扩展和微调，用于视频字幕制作。具体来说，我们使用与Frozen in Time（Bain等人，2021年）相同的分割空间时间注意力机制，扩展了InstructBLIP的视觉编码器（EVA-CLIP-G（Sun等人，2023b）），并在训练过程中保持Q-former和LLM（Flan-T5-XL（Chung等人，2022年））的不变。我们冻结了视觉编码器的所有空间层，同时在字幕训练期间保持时间层的活跃。这使得我们的模型能够输入图像和视频（与InstructBLIP在图像层面的性能相匹配）。我们在包含500万视频字幕的WebVid10M数据集（Bain等人，2021年）上进行训练。我们在图25中展示了两个示例输出。然而，现有代理无法完全理解视频内容中精确的、细致的视觉细节。视觉指令调整方法也存在类似的限制，它们缺乏通用的、人类水平的感知能力，这些能力仍然是多模态模型和代理需要解决的问题。基于指令调整的模型在准确总结视频中可见动作和有效识别诸如“一个人坐在长椅上”这样的行为方面显示出了希望。然而，它们有时会添加不正确的细节，比如“一个人对着相机微笑”，这暴露出一个缺陷：无法捕捉到对话主题或视频氛围等元素，而这些元素对于人类观察者来说是显而易见的。这一缺陷强调了另一个关键的局限性：忽略了音频和语音模式，这些模式可以通过提供上下文来丰富视频理解，帮助更准确的解释，并防止此类误解的发生。弥补这一差距需要对可用模态进行全面整合，使多模态代理达到与人类感知相似的理解水平，确保对视频解释采用全面的多模态方法。

我们接着评估了GPT-4V作为一种融合了视觉、音频和语音的多模态代理的能力，它能够对视频进行细致且精确的理解，这一评估遵循了（Lin等人，2023年）概述的方法。图26展示的结果比较了各种视频代理在视频总结任务上的表现。视频指令调整模型（Li等人，2023g）提供了准确的内容，但在全面性和细节上有所欠缺，错过了像用扫把棍有条不紊地测量树高这样的特定行为。为了提高视频描述的准确性，我们使用GPT-4V来对帧进行字幕标注，同时从OpenAI Whisper模型中获取音频及其转录内容。然后，我们提示GPT-4V仅使用帧字幕创建视频摘要，然后再使用帧字幕和音频转录。最初，我们观察到，仅帧字幕会导致虚构事件，如第三部分中的人咬住一根棍子。这些不准确之处在视频摘要中仍然存在，描述为“他以一种俏皮的方式咬住它，同时水平持棍。”没有音频输入，代理无法纠正这些字幕错误，导致在语义上正确但在视觉上具有误导性的描述。

然而，当我们向代理提供音频转录时，它能够准确描述内容，甚至捕捉到详细的物理动作，如“将扫把棍垂直于身体并向下旋转”。这种细节水平明显更具信息性，为观众提供了关于视频目的和关键细节的更清晰理解。这些发现突显了整合音频、视频和语言互动以开发高质量多模态代理的重要性。GPT-4V作为这种先进多模态理解和互动的有希望的基础而显现。以GPT-4V为基础的具身多模态代理。如图27所示，我们主要使用StackOverflow获取初始问题，然后我们使用“Bing搜索”API检索与问题相关的视频和音频。接下来，我们主要使用GPT-4V获取相关的文本信息和高层次的视频描述。另一方面，我们通过ASR将关键帧音频转换为关键帧的低层次片段描述。最后，我们使用GPT-4V生成令人信服的“幻觉”，作为视频问题和回答任务的困难负面查询。我们支持在视频当前帧进行互动和问题回答，以及对整体高层次视频描述进行总结。在推理过程中，我们还结合外部知识信息通过网络搜索来提高回答能力。

GPT-4V的主要提示信息如下。整个提示为缩进格式，便于清晰；它超过一页长。

GPT-4V are an assistant to provide descriptive, informative, and full comprehensive details in the video for the visually impaired who can hear the video but cannot see. The job is to create high-quality, dense descriptions of the video by synthesizing the given annotations and output them as JSON. Specifically, GPT-4V will be given original query used to search the video, the video title, description, audio transcription, and potentially noisy descriptions for specific time in the video. Different segments of same video is annotated as "[time start – time end (in seconds)] ’text’ ". Utilize the transcriptions and descriptions all together to reason about the exact detail and visual demonstration that might be happening in the video. GPT-4V will to combine or segment the timestamps as necessary to provide the best segmentation of the video.

Expectations for GPT-4V Output:

Action-Oriented Descriptions: Prioritize plausible actions, motions, and physical demonstrations that the audio implies, enriching your narrative with dynamic visual cues.

Complete Video Coverage: Provide a continuous and consistent audio-descriptive experience that covers every moment of the video’s duration, ensuring no content is left undescribed.

Concise Segmentation: Construct your descriptions in focused, succinct segments of 1-2 sentences each to effectively communicate visual actions without overwhelming detail.

Contextual Audio-Visual Synthesis: Seamlessly blend the spoken audio content with inferred visual elements to form a narrative that reflects potential onscreen activities.

Imaginative and Plausible Speculation: Infuse your descriptions with creative yet believable visual details that correspond with the audio, enhancing scene comprehension.

Accurate Timecode Correspondence: Align your descriptive segments with corresponding timecodes, ensuring that speculative visual details synchronize with the audio narrative’s timeline.

Confident Narrative Delivery: Present the descriptions with assurance, as though the speculated visuals are occurring, to instill confidence in the listener.

Omit Implausible Details: Exclude descriptions of objects or events that do not reasonably fit within the context established by the audio and visual information provided. The final output should be structured in a JSON format containing a list of dictionaries, each detailing a segment of the video. The final output should be structured in a JSON format containing a list of dictionaries, each detailing a segment of the video.

[ ‘start’: <start-time-in-seconds>, ‘end’: <end-time-in-seconds>, ‘text’: “<Your detailed single-sentence, audio- visual description here>" ]

For MC Creation: our task is to create multiple-choice questions for video-to-text retrieval tasks that is trivially solved by looking at the title and reading through audio transcriptions. To do so, we will be given original query to get the video, description, audio transcription, and potentially noisy descriptions for specific time in the video.

Format of audio transcription: -[start-end time in seconds] “transcription"

Format of noisy description: – [time in seconds] “description"

We kindly ask GPT-4V to generate four queries, where the primary query is aligned with the video content, and the other three negatives are subtly different from our primary one. Selecting the primary one should not simply involve listening to audio transcriptions e.g. the text original query is contained in audio transcriptions. The negatives should be closely related but not fully aligned with the video content, requiring visual understanding of the video to differentiate. For example, modify the semantics in nuanced way so that one needs to watch the video than just listening to select the original query. Compile four queries in caption-like statement, with the first one being the rephrased original.

Think step by step how you can come up with negative statements using the information from the video. And justify the negative queries are incorrect but still compelling choices that demand nuanced understanding of the video. And how humans would not accidentally choose the negatives over the original query.

Finally, we present the work in the following format of analyses and 4 queries. No need to generate how you translated the original query.

Video Analysis: xxx

Queries: [query1, query2, query3, query4]

Justification: xxx

6.6 用于自然语言处理的代理

6.6.1 语言模型代理

在交互式人工智能和自然语言处理领域，识别任务指令并采取行动几十年来一直是一个根本性挑战。随着深度学习的最新进展，人们越来越关注联合研究这些领域以改善人机协作。我们确定了三个特定方向，以改进以语言为基础的代理：

工具使用和从知识库查询。这个方向强调将外部知识库、网络搜索或其他有用工具整合到AI代理的推理过程中的重要性。通过利用来自各种来源的结构化和非结构化数据，代理可以增强其理解能力，并提供更准确、更具情境意识的回应。此外，它促进代理在面对不熟悉的场景或查询时主动寻求信息，确保更全面和更有信息的响应。例如Toolformer（Schick等人，2023年）和Retrieve What You Need（Wang等人，2023g）。
改进代理的推理和规划能力。增强代理的推理和规划能力对于有效的人机协作至关重要。这涉及到开发能够理解复杂指令、推断用户意图和预测潜在未来场景的模型。这可以通过要求代理反思过去的行动和失败来实现，如在ReAct（Yao等人，2023a）中所做，或者通过将代理的思考过程构建为一种搜索形式（Yao等人，2023b）。通过模拟不同的结果并评估各种行动的后果，代理可以做出更有信息、更具情境意识的决策。
纳入系统和人类反馈。AI代理通常在两个主要环境中运作：提供有关其行动有效性的明确信号的环境（系统反馈），以及与可以提供口头批评的人类协作的环境（人类反馈）。这个方向强调了适应性学习机制的需求，允许代理优化其策略并纠正错误，如AutoGen（Wu等人，2023年）。能够持续从多样化的反馈源学习和适应的能力，确保代理保持对用户需求的有用性和一致性。

6.6.2 通用语言模型代理

识别和理解代理内容及自然语言几十年来一直是交互式人工智能和自然语言处理的根本性挑战。随着深度学习的最新进展，人们越来越关注联合研究这两个领域，以深入理解代理计划或人类反馈对知识推理和自然语言生成的影响。这些是许多人机交互代理的关键组成部分，例如“AutoGen”（Wu等人，2023年）和“Retrieve What You Need”（Wang等人，2023g）。

6.6.3 遵循指令的语言模型代理

此外，创建能够有效遵循人类指令的LLM代理已成为研究的一个重要领域。最初的模型使用人类反馈来训练一个代理奖励模型，以模拟人类偏好，这个过程被称为带有人类反馈的强化学习（RLHF）（Ouyang等人，2022年）。这个过程产生了如InstructGPT和ChatGPT等模型。为了更有效地训练遵循指令的LLM代理，而不需要人类标签，研究人员开发了一种更有效的指令调整方法，直接在由人类生成的指令/响应对上训练LLM代理，例如Dolly 2.0，或者自动从LLM生成，如Alpaca（Taori等人，2023年）。我们在图28中展示了Alpaca训练流程的整体。

6.6.4 实验与结果

尽管对话和自我反馈系统的应用日益增长，这些形式的人工智能在从自身隐含知识生成事实正确回应方面仍然表现不佳，因此它们通常在推理时使用外部工具，如网络搜索和知识检索机制来增强回应。解决这个问题有助于为用户在许多现实生活应用中创造更具吸引力的体验。在社交对话中（如在Instagram和Facebook等社交媒体平台上），或在问答网站上（如Ask或Quora），人们通常通过一系列评论和网络搜索相关讨论信息和知识来与他人互动。因此，在这种情境下生成对话轮次的任务不仅仅是在传统自然语言处理模型和任务上简单引导，而是使用代理通过反映知识搜索和获取的智能行为来生成对话（Peng等人，2023年）。通过这种方式，自然语言处理任务的智能代理扩展了任务描述，并通过在对话期间添加明确的知识搜索和检索步骤来提高回应的可解释性。将这些网络搜索和检索代理作为对话期间的反馈纳入，将有助于进一步加深人类与代理之间的社交互动（Wang等人，2023e）。如图29所示，我们引入了一种新的变压器语言模型建模范式，它检测和提取输入文本中的重要逻辑结构和信息，然后通过精心设计的多层次逻辑投影将它们整合到输入嵌入中，将逻辑结构注入预训练的语言模型，作为一种自然语言处理代理。Wang等人（2023e）提出了一种新的方法，通过逻辑检测、逻辑映射和分层逻辑投影的组合为变压器语言模型构建逻辑感知输入嵌入，然后开发相应的新模型范式，将所有现有变压器语言模型升级为逻辑变压器，以持续提升其性能。所提出的逻辑变压器代理通过更深入地理解文本的逻辑结构，始终比基线变压器模型表现更优。对于人类用户来说，这些方面通常对通过基于代理的对话和信息检索协调提供有意义且有趣的对话更为重要。深入探讨自然语言处理，本主题将讨论使LLM更具代理性并更适合各种以语言为中心的任务的进展和领先情况。

开放域问答（QA）系统通常遵循一种先检索再阅读的范式，其中使用检索器从大型语料库中检索相关段落，然后阅读器根据检索到的段落和原始问题生成答案。在（Wang等人，2023g）中，我们提出了一种简单且新颖的相互学习框架，通过中间模块“知识选择代理”来提高先检索再阅读风格模型的性能，该模块我们使用强化学习进行训练。细粒度的知识选择器被整合到检索-阅读范式中，其目标是构建一个保留与问题相关信息的小型段落子集。如图30所示，知识选择代理作为我们新颖的相互学习框架的一个组成部分进行训练，该框架迭代训练知识选择器和阅读器。我们采用一种简单且新颖的方法，使用策略梯度来优化知识选择代理，利用阅读器的反馈训练它选择一小组信息丰富的段落。这种方法避免了暴力搜索或人为设计的启发式方法，无需任何标注的查询-文档对进行监督。我们展示了迭代训练阅读器和知识选择代理可以在一些公开的开放域问答基准测试中带来更好的预测性能。

7 跨模态、领域和现实的代理人工智能

7.1 跨模态理解的代理

多模态理解对于创建通用人工智能代理是一个重大挑战，因为缺乏包含视觉、语言和代理行为的大规模数据集。更一般地，AI代理的训练数据通常是特定于模态的。这导致大多数现代多模态系统使用冻结的子模块组合。一些值得注意的例子包括Flamingo（Alayrac等人，2022年）、BLIP-2（Li等人，2023c）和LLaVA（Liu等人，2023c），它们都使用了冻结的LLM和冻结的视觉编码器。这些子模块分别在不同的数据集上单独训练，然后训练适应层将视觉编码器编码到LLM嵌入空间中。为了在AI代理的跨模态理解方面取得更大进展，使用冻结的LLM和视觉编码器的策略可能需要改变。事实上，RT-2是一种最近的视觉-语言模型，能够在机器人领域内采取行动，在联合调整视觉编码器和LLM进行机器人和视觉-语言任务时显示出显著改进的性能（Brohan等人，2023年）。

7.2 跨领域理解的代理

创建通用代理的一个关键挑战是不同领域间具有独特的视觉外观和不同的行动空间。人类具有从各种来源解释图像和视频的能力，包括现实世界、视频游戏以及机器人和医疗保健等专业领域，一旦熟悉这些领域的特定细节。然而，现有的LLM和VLM通常在其训练数据和应用的不同领域之间显示出显著差异。值得注意的是，训练代理模型预测特定行动在尝试开发能够有效学习跨领域多个控制系统的单一策略时呈现出相当大的挑战。一般而言，现代工作在特定领域内应用系统时的方法是从预训练的基础模型开始，然后为每个特定领域微调一个单独的模型。这无法捕捉到领域间的任何共性，并导致用于训练的数据总量较少，而不是利用每个领域的数据。

7.3 跨模态和跨现实的交互式代理

开发能够成功理解和执行不同现实中的任务的AI代理是一个持续的挑战，最近在图像和场景生成方面取得了一些成功（Huang等人，2023a）。特别是，代理同时理解现实世界和虚拟现实环境是具有挑战性的，因为它们在视觉上的差异和不同的环境物理特性。在跨现实的背景下，模拟到现实（Sim to Real）转移是使用模拟训练策略处理现实世界数据时的一个特别重要的问题，我们将在下一节中讨论。

7.4 模拟到现实转移

使在模拟中训练的模型能够在现实世界中部署的技术。基于强化学习（RL）策略的具身代理通常在模拟环境中训练。这些模拟不能完全复制现实世界的特性（例如，干扰、光线、重力和其他物理属性）。由于模拟与现实之间的差异，模拟中训练的模型在应用于现实世界时通常难以表现良好。这个问题被称为“模拟到现实”问题。为解决这个问题，可以采取几种方法：

领域随机化：领域随机化是一种在模拟环境中训练模型时随机改变参数的技术（例如，物体外观、传感器噪声和光学特性），以期望适应现实世界的不确定性和变化（Tobin等人，2017年）。例如，在基于RL的抓取技能训练中，引入物体形状的随机性可以导致策略能够适应形状略有不同的物体（Saito等人，2022年）。
领域适应：领域适应或领域转移是一种技术，它通过用大量模拟图像和较少的现实世界图像训练模型来弥合模拟与现实世界领域之间的差距。在实际设置中，由于跨领域准备成对图像的困难，采用了未配对的图像到图像转换方法，如CycleGAN（Zhu等人，2017b）。增强版本包括用于强化学习的RL-CycleGAN（Rao等人，2020年），以及用于模仿学习的RetinaGAN（Ho等人，2021年）。
模拟改进：逼真的模拟是模拟到现实转移的关键。这部分工作通过系统识别技术（Zhu等人，2017c；Allevato等人，2020年）来实现，旨在识别模拟参数以模仿现实世界环境。此外，使用逼真的模拟器在基于图像的强化学习中将是有效的（Martinez-Gonzalez等人，2020年；Müller等人，2018年；Shah等人，2018年；Sasabuchi等人，2023年）。模拟到现实转移仍然是具身代理研究的核心挑战，因为方法不断发展。理论和实证研究都是推进这些技术的关键。

8 代理人工智能的持续自我改进

目前，基于基础模型的AI代理能够从多个不同的数据源中学习，这允许用更灵活的数据源进行训练。这有两个关键的后果：（1）用户和基于人类的互动数据可以用来进一步细化和改善代理；（2）现有的基础模型和模型工件可以用来生成训练数据。我们将在以下章节中更详细地讨论这些内容，但我们注意到，由于当前的AI代理主要与现有的预训练基础模型相绑定，它们通常不会从与环境的持续互动中学习。我们认为这是一个令人兴奋的未来方向，Bousmalis等人的初步工作表明，用于机器人控制的自我改善代理能够通过环境互动在无监督情况下持续学习和改进（Bousmalis等人，2023年）。

8.1 基于人类的互动数据

使用基于人类的互动数据的核心思想是利用大量的代理-人类互动来训练和改善代理的未来迭代。有几种策略用于通过人-代理互动来改进代理。

额外的训练数据也许使用人-代理互动最简单的方法是将互动示例本身作为未来代理迭代的训练数据。这通常需要过滤策略来区分成功的代理示例和不成功的互动示例。过滤可以是基于规则的（例如，达到某个期望的最终目标状态）、基于模型的（例如，分类成功与不成功的互动）或在事后检查和/或修改互动示例后手动选择。
人类偏好学习在与用户互动时，代理系统可以提示用户几个不同的模型输出，并允许用户选择最佳输出。这通常被像ChatGPT和GPT-4这样的LLM使用，用户可以选择一个（在几个中）最符合他们偏好的输出。
安全训练（红队）在代理人工智能的背景下，红队是指有一个专门的对手团队（人类或计算机），寻求利用和暴露代理人工智能系统中的弱点和漏洞。尽管红队的性质是对抗性的，但它通常被用作了解如何改进AI安全措施和减少有害输出发生的手段。核心原则是发现诱导不希望的代理输出的一致方法，以便可以在明确纠正这种行为的数据上训练模型。

8.2 基础模型生成的数据

随着学术界和工业界强大的基础模型工件的出现，已经开发了多种方法，利用各种提示和数据配对技术从这些工件中提取和生成有意义的训练数据。

LLM指令调整从LLM生成遵循指令的训练数据的方法，已经允许对基于较大专有LLM输出的较小、开源模型进行微调（Wang等人，2022b）。例如，Alpaca（Taori等人，2023年）和Vicuna（Zheng等人，2023年）是基于开源LLaMA系列（Touvron等人，2023年）的LLM，它们在ChatGPT和人类参与者的各种输出上进行了调整。这种指令调整方法可以被视为一种知识蒸馏，其中较大的LLM充当教师模型，较小的模型充当学生模型。重要的是，尽管已经显示LLM指令调整可以将教师模型的写作风格和一些遵循指令的能力转移到学生模型上，但教师和学生模型之间在事实性和能力方面仍然存在显著差距（Gudibande等人，2023年）。
视觉-语言对许多最近的工作试图通过为视觉内容自动生成字幕和其他文本来增加可用于视觉-语言模型的预训练数据的数量和多样性。例如，LLaVA（Liu等人，2023c）使用了15万个主要由LLM生成的遵循文字和视觉输入指令的行为示例。其他工作表明，使用VLM为图像重新加标签可以改善训练数据和随后图像生成模型的质量（Segalis等人，2023年）。在视频理解领域内，使用VLM和LLM为视频重新加标签已被证明可以提高随后在重新加标签的视频上训练的VLM的性能和质量（Wang等人，2023f；Zhao等人，2022年）。

9 代理数据集和排行榜

为了加速这一领域的研究，我们分别为多代理游戏和代理视觉语言任务提出了两个基准测试。我们将发布两个新数据集 – “CuisineWorld”和“VideoAnalytica” – 以及一套基线模型，鼓励参与者探索新的模型、系统，并在我们排行榜的测试集上提交他们的结果。

9.1 “CuisineWorld”多代理游戏数据集

CuisineWorld是一款类似于Overcooked!的文本游戏。它为AI驱动的代理提供了一个合作和配合游戏的平台。这个数据集将测试多代理系统的协作效率，提供洞察LLM和其他系统在动态场景中如何协同工作的见解。特别是，数据集将侧重于代理如何理解目标，以及代理之间如何协调。这个数据集支持两种模式：集中式调度模式和去中心化模式。参与者可以选择一种游戏模式并向我们的排行榜提交。

9.1.1 基准测试

在我们的比赛中，我们将发布一个基准测试，即CuisineWorld基准测试，它包括一个文本界面，该界面包括可扩展的任务定义文件、多代理交互界面和人机交互界面。我们引入了游戏互动任务，其目标是生成相关的、适当的、多代理协作策略，以最大化协作效率。我们使用提出的评估指标：CoS来评估协作效率。"CuisineWorld"数据集由微软、加州大学洛杉矶分校和斯坦福大学共同收集。比赛的目标是探索不同的、现有的和新颖的、基于LLM和交互技术在这个基准测试中的表现，并为多代理游戏基础设施任务建立强大的基线。CuisineWorld数据集包括：

一系列定义良好的多代理协作任务。
一个促进代理互动的API系统。
一个自动评估系统。（下载数据集的链接将很快提供，并且本文将更新以在此处包含它。）

9.1.2 任务

我们提供一个数据集和相关的基准测试，称为Microsoft MindAgent，并相应地向研究社区发布一个数据集“CuisineWorld”。
我们将提供基准测试来评估和排名提交的“MindAgent”算法。我们还将提供使用流行基础设施生成的基线结果。

9.1.3 指标和评判

多代理协作效率的质量由新的“cos"自动度量标准（来自MindAgent（Gong等人，2023a））确定。最终评分是根据多代理系统在所有任务上评估的协作效率指标的平均值计算得出的。人类评估员将被要求对个别响应进行评分，并对用户与代理的互动的参与度、广度和整体质量提供主观判断。

9.1.4 评估

自动评估。我们计划发布一个排行榜，从发布日期（待公布）开始，注册参与者将被要求提交与数据集“CuisineWorld”（我们为排行榜公开发布的数据集）相关的任务结果。提交结果将在结束日期（待公布）关闭。每个团队将被要求在测试集上提交其生成的结果，以进行“cos"度量的自动评估。
我们排行榜上的人类评估。排行榜参与者将需要提供由本地评估脚本生成的提交文件。我们将使用evalAI系统检查提交文件，并可选择为顶级挑战者重新运行代码。因此，团队还必须提交他们的代码以及如何运行代码的Readme文件。人类评估将由组织团队执行。
获奖公告。我们将宣布获奖者并在我们的排行榜上公布提交作品的最终评分。

9.2 音视频语言预训练数据集

我们介绍VideoAnalytica：一个用于分析性视频演示理解的新基准测试。VideoAnalytica专注于利用视频演示作为辅助工具，以更好地理解长篇指导视频中嵌入的复杂、高层次的推理。其目标是评估视频语言模型的认知推理能力，将它们从仅仅的识别任务和基本理解推向对视频的更复杂和微妙的理解。至关重要的是，VideoAnalytica强调整合多种模态，如音频、视频和语言，以及模型应用特定领域知识以理解和解释视频中呈现的信息的能力。具体来说，VideoAnalytica涉及两个主要任务：

视频文本检索：这个任务涉及准确地从指导视频中检索相关文本。挑战在于区分相关和不相关的信息，因此需要对视频内容有深入理解，并分析演示以检索正确的查询。为了进一步增加这些任务的复杂性，我们在由大型语言模型生成的数据集中引入了难分辨的负面信息。我们对生成的负面信息进行人工验证，并移除使任务无效和不公平的实例（例如，负面信息是有效的）。
视频辅助的信息问答：这个任务要求模型基于从视频中提取的信息回答问题。重点是需要分析性推理和对视频演示的全面理解的复杂问题。

为了促进音视频语言代理在分析性视频理解方面的发展，我们为VideoAnalytica的两项任务引入了一个基准排行榜。

排行榜参与者需要提交他们的解决方案进行评估。评估将基于模型在这两项任务上的表现，结果将显示在排行榜上。参与者需要提交他们的代码，以及对他们的方法和方法论的详细解释。
伦理考虑：排行榜重点关注对视频内容的理解和解释，这可能被用于监控或其他侵犯隐私的应用。因此，考虑技术的伦理影响和潜在滥用是至关重要的。我们鼓励参与者在提交作品时考虑这些方面，并促进AI的道德使用。

10 更广泛的影响声明

我们的文章和相关论坛旨在成为创新研究的催化剂，促进将推动下一波AI应用的合作。通过关注多模态代理，我们强调了人工智能互动、排行榜和解决方案的未来方向。我们详细说明了我们对更广泛社区做出重大贡献的三种方式。首先，我们希望我们的论坛能使AI研究人员立足于现实世界问题，开发出在游戏、机器人、医疗保健和长视频理解等方面的解决方案。特别是，游戏中多模态代理的发展可能导致更具沉浸感和个性化的游戏体验，从而改变游戏行业。在机器人领域，自适应机器人系统的发展可能会革新从制造业到农业的各个行业，有可能解决劳动力短缺问题并提高效率。在医疗保健领域，将LLM和VLM作为诊断代理或患者护理助手的使用可能导致更准确的诊断、改善患者护理，并增加特别是在服务不足地区的医疗服务的可及性。此外，这些模型解释长视频的能力可能具有深远的应用，从增强在线学习到改善技术支持服务。总的来说，我们论坛所涵盖的主题将对全球范围内的众多行业和人类产生重大的下游影响。其次，我们希望我们的论坛能成为AI从业者和研究人员的宝贵资源，作为一个平台来探索和深刻理解在各种环境和情境中实施AI代理所带来的多样化和复杂的排行榜。

11 伦理考虑

多模态代理人工智能系统有许多应用。除了交互式AI外，基于实体的多模态模型可以帮助推动机器人和AI代理的内容生成，并协助生产力应用程序，帮助重放、改述、预测行动或合成3D或2D场景。代理人工智能的基本进步有助于实现这些目标，许多人将受益于更好地理解如何在模拟现实或现实世界中建模具象化和移情。可以说，这些应用中的许多可能具有积极的好处。然而，这项技术也可能被不良行为者使用。生成内容的代理人工智能系统可以用来操纵或欺骗人们。因此，非常重要的是，这项技术的发展要遵循负责任的AI指南。例如，明确告知用户内容由AI系统生成，并为用户提供控制选项以定制这样的系统。代理人工智能有可能被用来开发检测操纵性内容的新方法——部分原因是它丰富了大型基础模型的幻觉性能——从而帮助解决现实世界的另一个问题。例如，1）在健康话题上，尤其是在像医疗保健这样的敏感领域，LLM和VLM代理的道德部署至关重要。在有偏见的数据上训练的AI代理可能通过为代表性不足的群体提供不准确的诊断来加剧健康差异。此外，AI代理处理敏感的患者数据引发了重大的隐私和保密问题。2）在游戏行业，AI代理可能改变开发者的角色，将他们的焦点从编写非玩家角色转移到完善代理学习过程。同样，自适应的机器人系统可能会重新定义制造业角色，需要新的技能集而不是取代人类工人。负责任地应对这些转变至关重要，以最大限度地减少潜在的社会经济颠覆。此外，代理人工智能专注于在模拟中学习协作政策，由于分布转移，直接将政策应用于现实世界存在一定风险。应该建立健全的测试和持续的安全监控机制，以最大限度地减少现实世界场景中不可预测行为的风险。我们的“VideoAnalytica”数据集是从互联网收集的，考虑到这并不是一个完全代表性的来源，所以我们已经通过了微软和华盛顿大学的伦理审查和法律程序。即便如此，我们也需要了解这个语料库中可能存在的偏见。数据分布可以用多种方式表征。在这次研讨会上，我们已经捕捉到我们数据集中的代理级别分布与其他现有数据集的不同之处。然而，单个数据集或研讨会中还有更多内容可以包含。我们认为需要更多关于实际任务或话题的方法或讨论，并通过使这些数据或系统可用。我们将在我们的项目中专门讨论这些伦理问题，探索潜在的缓解策略，并部署负责任的多模态AI代理。我们希望通过这篇论文帮助更多的研究人员一起回答这些问题。

12 多样性声明

通过审视AI代理模型在各个领域的适应性，我们本质上拥抱了多样性的排行榜、观点和解决方案。本项目旨在通过探索多模态和代理人工智能的广泛主题，建立一个多元化的社区。本着这些原则，本项目专注于高级多模态系统，这些系统能够在物理和虚拟环境中有效交互，并促进与人类的有效互动。因此，我们打算吸引来自广泛技术专长、文化、国家和学术领域的专家和从业者，讨论包括但不限于以下重要话题：

基础模型的应用：开发集成多种模态（音频、图像、文本、传感器输入）的代理，旨在增强其在广泛应用中的识别和响应能力。
通用端到端系统：开发用大规模数据训练的端到端模型，旨在创建多功能和适应性强的AI解决方案。
模态接地方法论：整合跨不同模态的信息，增强数据处理的连贯性和有效性。
直观人机界面：开发人类与代理之间有效且有意义的交互。
驯服LLM/VLM：探索解决大规模模型中常见问题的新方法，如幻觉和输出偏见。

我们渴望通过利用我们独特和多样化的视角，拓宽我们对代理人工智能潜力和局限性的集体理解。我们坚信这种方法不仅会丰富个人视角，还会增强社区的集体知识，并促进更包容的整体观点，更全面地涵盖多模态AI代理面临的广泛排行榜。