AI Agent行业深度研究：通往AGI的核心基础

发布日期：2024-08-23 04:33 点击次数：184

(精选报告来源：幻影视界)

LLM 推动 AI Agent 进入新阶段，AI 应用商业化或加速

AI Agent 是一种能够感知环境、进行决策和执行动作的智能实体，从发展历程看，经历了用逻辑规则和符号封装知识、快速响应环境、基于强化学习等发展阶段。随着大语言模型（LLM）的快速发展，AI Agent 在感知、记忆、规划、行动等模块方面的能力均得到了进一步的提升。我们认为 LLM 推动 AI Agent 进入了新阶段，与 LLM 结合的 AI Agent 在智能化程度、自主性方面有进一步提升的潜力，通过与终端的进一步结合，有望推动 AI 应用商业化加速。

AI Agent：通过 AGI 的核心基础

Agent 有望降低人机交互门槛。我们认为，这一轮 AI 产业变革，核心本质不是在原有产品上增加或者减少什么功能，而是改变人机交互方式。这种人机交互方式不仅体现在硬件载体上，更是覆盖到软件载体。其实现的路径就是通过 Agent 来实现，Agent 作为智能辅助助理，其具备自我决策和执行能力，能够完成连续服务多步骤的任务。我们认为，这是未来 Killer APP 应该具备的核心特征。Agent 对人机交互方式的改变，我们将其可以类比为 Dos 系统向 Windows 系统的转变，带来的人机交互方式的变化，降低了人机交互的门槛。

AI Agent：下一代大模型的核心能力。Agent 能力的实现，还是需要大模型具备相应的能力。我们的判断：Agent 或是下一代大模型边际变化最大的能力。我们可以看到，GPT-4o 模型已经开始具备 Agent 能力雏形，Google 的 Astra 也开始具备人机多模态交互多步骤任务完成的能力。

AI Agent：能力体现。如何从用户角度感知 Agent 能力？我们将其总结为：连续、复杂、多步骤、多任务的执行能力。1）连续：指的是大模型能够对用户的任务指令，进行任务拆解，分解为多个步骤，对步骤进行规划排序、连续执行。2）复杂：目前大模型智能解决单个任务，或者简单少数多个任务，无法完成多个复杂任务。3）多步骤：多步骤与连续密切相关，在大模型执行后续步骤的同时，能够对任务目标和前序任务随时保持记忆，步骤的规划执行能力要强。

我们认为，AI 大模型的 Agent 能力是通往 AGI 的核心基础。我们或将看到 Agent 能力有望逐步体现：1）单一简单任务执行，2）单一复杂任务执行，3）多步骤简单任务执行，4）多步骤复杂任务执行，5）连续多步骤复杂任务执行。这些能力的实现都依赖于大模型能力的提升。我们认为，Agent 能力有望在 GPT-4 的后续模型中逐步体现出来。另外需要特别注意的是：Agent 是一种能力，是 AI 重构人机交互方式实现的工具。Agent 能力既可以通过 AI 重构硬件来实现，也可以通过 AI 改造软件来体现（软件的自动化执行）。

AI Agent：LLM 推动 AI Agent 进入新阶段

LLM 推动 AI Agent 进入新阶段。AI Agent 经历了几大阶段，包含：1）符号 Agent：采用逻辑规则和符号表示来封装知识并促进推理过程，典型代表为基于知识的专家系统；2）反应 Agent：主要关注 Agent 与其环境之间的交互，强调快速和实时的响应，设计时优先考虑直接的输入输出映射；3）基于强化学习的代理：主要关注如何使 Agent 通过与环境的互动进行学习，典型代表如 AlphaGo；4）具有迁移学习和元学习的 Agent：引入迁移学习实现不同任务之间知识的共享和迁移，通过元学习使 Agent 学习如何学习；5）基于大型语言模型(LLM)的代理。将 LLM 作为大脑的主要组成部分或 Agent 的控制器，并通过多模态感知和工具利用等策略扩展其感知和行动空间，通过思维链（CoT）和问题分解等技术使 Agent 获得与符号代理相当的推理及规划能力，并且可以通过从反馈中学习和执行新的行动，获得与环境的互动能力。

AI Agent 是 LLM 和人类在计算任务中分工的重新划定。相比主流的计算架构，AI Agent 实现了能力的进一步提升。AI Agent 主要由在环境和感知中具有任务规划和观察能力的 Agent（感知可类比输入、规划可类比人类规划）、Agent 学习（强化学习，类比人类反思）、记忆（类比存储）、行动（类比输出）、认知和意识（类比控制）五个模块构成，模块上基本能够对应。从作用上 AI Agent 的感知方面更加强调对于多模态信息的获取能力，不局限于数据的输入；认知方面主要用于协调每个 Agent AI 组件，强调了复杂动态环境中交互式 Agent 的集成方法的重要性，突出了交互式决策的作用。我们认为 AI Agent 实现了将人类利用编程解决特定任务的过程进一步的接管，从解决问题的执行环节进一步向思考如何解决问题的规划环节渗透。

AI Agent 具备两条能力提升路径。根据分工划分模块的方式是当前得到较为广泛采用的 AI Agent 技术框架，与之对应的，针对 AI Agent 的能力提升同样可以从分模块能力突破、系统性优化两条路径展开。在分模块能力突破中，相比于 LLM 支撑的聊天机器人（如 ChatGPT），我们认为 AI Agent 在感知模块中具备更加丰富的模态理解能力，在记忆模块中能够结合更加丰富的数据来源，在规划模块中具备更强的规划、反思能力，在行动模块中能够提供更加丰富的输出，此外在系统性优化的过程中，AI Agent 也有望逐步向通用人工智能过渡。

多路径共同提升 Agent 整体智能化水平，有望逐步通向整体智能

LLM+Agent 是通向通用人工智能（AGI）的路径之一。AI Agent 用来描述表现出智能行为并具有自主性、反应性、主动性和社交能力的人工实体，能够使用传感器感知周围环境、做出决策，然后使用执行器采取行动，具备以上特征的 Agent 是实现 AGI 的关键一步。据 2023 年 11 月 Google DeepMind 发布的论文《Levels of AGI: Operationalizing Progress on the Path to AGI》，考虑 AGI 性能、通用性和自主性级别，AGI 的发展可按 L0-L5 分级。按该分级方法，目前在狭义 AI 上人类已经实现了在特定的任务上让 AI 超越人类，但是对于广义的 AGI 仅实现到 L1 阶段，典型代表是 ChatGPT、Bard 和 Llama。从更广义的评判标准看，基于 LLM 的 Agent 评估工作还从效用、社会性、价值等角度开展，我们认为当前基于 LLM 的 Agent 从能力上看受到 LLM 能力上限的限制，未来随着 Agent 的不断升级，有望逐步逼近 AGI，具体的路径包括模态丰富、具身智能、多 Agent 协同、系统优化等。

AI Agent 技术逐步落地，智能性仍有提升空间

从 AI Agent 的落地方式看，基于 LLM 的 Agent 产品众多，但各自在自主程度，能力范围上有一定差异。本节我们选取部分典型案例展开分析，具体包括： AutoGPT（2023.3）、卡耐基梅隆大学智能 Agent 系统（2023.4）、Devin（2024.2）。

AutoGPT：利用 LLM 逐步拆解任务，外挂插件提升能力

AutoGPT 具备 AI Agent 的雏形。AutoGPT 是一个构建在 GPT-4 基础上的开源 Python 应用程序,由视频游戏公司 Significant Gravitas Ltd 的创始人 Toran Bruce Richards 于 2023 年 3 月 30 日推出，其功能包括从互联网收集信息、存储数据、通过实例生成文本、访问各种网站和平台以及使用 LLM 执行摘要的能力，常用于市场研究、网站创建、博客写作和创建播客。从所需工具看，构建 AutoGPT 需要 Python（程序）、OpenAI API 密钥（大模型）、 Pinecone API 密钥（向量数据库产品）、Git（开放源码版本控制）、ElevenLabs API（可选语音相关模块）。我们认为 AutoGPT 具备实现多种任务的能力，具备 AI Agent 的雏形。

AI Agent：智能性仍有提升空间，关注 Agent Workflow

模型架构突破+特定数据推动 LLM Agent 能力突破。从 AI Agent 的落地方式看，基于 LLM 的 Agent 实践已经取得一定的成果。具体包括：1）利用 LLM 较强的文本处理能力，实现了信息检索及工具使用效率的提升；2）利用 LLM 的任务分解能力，实现了简单问题的步骤分解与规划；3）利用 LLM 的文本生成能力，打造更加自然的人机交互；4）利用 LLM 的可调试性，打造能够解决垂直领域任务或具备垂直领域知识体系的应用。以上能力突破的基础一方面来自于 Transformer 架构下，LLM 能力相比传统 NLP 方法的效率提升，如更加自然的人机交互、更强的文本处理能力；另一方面则来自于特定数据类型训练赋予 LLM 的能力，如从任务分解数据训练中得到的任务规划能力、配置特定文件后得到的解决特定领域问题的能力。

LLM Agent 自主化、智能性仍存在提升空间。从 LLM Agent 的实践看，当前的 LLM Agent 对于执行特定领域的任务已经体现出一定的自主性（如完成科学试验、搜索资料撰写报告等），LLM 对于固定范式下解决问题能够实现较好的自动化，但在解决问题的泛化能力方面，当前主要的 Agent 产品仍距离通用的 Agent 有一定的差距。主要体现在：1）任务规划方面：当前 Agent 主要基于现有的成熟任务流程进行复现，或基于训练数据对任务进行简单的拆分；2）工具使用方面：当前 Agent 基本按照人类的部署进行流程化的操作和尝试，工具的使用主要通过调用第三方 API 进行。未来随着底层模型能力的提升。我们认为 AI Agent 有望在以下方面实现能力提升：1）在任务规划方面从基于规则、参数的规划能力逐步向基于实践的反思、迭代进化；2）在工具使用与选择方面，从基于人类配置的特定工具，向多种工具的选择规划进化，甚至更进一步的创造适用于 LLM 的工具。

终端厂商：推动人机交互升级，率先实现 Agent 落地

AI+终端：结合安全性+个性化，为 Agent 落地打下良好基础。垂直数据有助于 Agent 形成个性化的能力，AI 部署于终端有助于实现个性化和安全性的良好结合。以 AIPC 为例，通过 AI 能力的本地化部署，使 PC 拥有持续学习能力、提供个性化并保护用户隐私的服务、配备知识库适应用户需求以及可自然交互。AIPC 能够根据用户使用习惯、行为和喜好进行自适应和优化为用户在操作过程中提供更多的个性化建议和支持。AIPC 在终端侧进行运算，能够提供更多的情境信息，如用户的移动状态、个人偏好和设备上的多媒体信息。基于终端的本地数据，Agent 能够提供更加个性化的服务，本地处理也有助于保障数据的安全性，综上，我们认为终端 AI 能力的加强有利于 Agent 落地加速。

从 AI Agent 有望逐步通向 AGI

基础模型能力提升+工作流接入有望加快 AI Agent 商业化。从 Agent 的发展看，人类在逐步强化程序的自动化、智能化程度。在 AI Agent 的尝试中，应用厂商结合深度学习等算法、知识图谱、RPA 等技术实现了部分的自动化，其核心是在存量知识的基础上，实现由程序自主解决部分问题。LLM 的出现是这一框架下的重要突破，LLM 通过预训练吸收知识，以大量参数存储知识，通过 Transformer 的注意力机制，实现了对存量知识吸收理解效率的进一步提升。在解决问题的过程中，相较于传统的 RPA 等基于规则的自动化方式，体现出了更强的灵活性。我们认为随着基础模型能力的进一步提升，AI Agent 在任务规划中的灵活性、在知识吸收运用的效率方面的上限或将进一步提升。在当前的基础模型能力下，若将 AI Agent 与工作流进一步结合，在工作流程中嵌入 AI Agent 实现部分问题的智能+自动化解决，AI Agent 实用性或将进一步改善，商业化或进一步加速。

从 LLM 到 AI Agent 到 AGI。据《On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence》（2022），智能的原则包括简约性、自洽性。其中简约性要求要求系统通过计算有效的方式来获得紧凑和结构化的表示，自洽性要求自主智能系统通过最小化被观察者和再生者之间的内部差异来寻求最自洽的模型来观察外部世界。我们认为 LLM 以黑盒的方式实现了知识的高效吸收，通过人类对齐实现了自洽性；基于 LLM 的 AI Agent 在 LLM 基础上能够通过工作流方式引入人类对齐实现自洽，通过垂直数据强化特定领域的知识能力；而随着知识压缩的效率的进一步提升（Scaling Laws 或白盒大模型等方式），打造闭环系统完成对知识的验证，未来有望逐步实现 AGI。

报告原文目录节选如下：

本文仅供参考，不代表我们的任何投资建议。【幻影视界】整理分享的资料仅推荐阅读，用户获取的资料仅供个人学习，如需使用请参阅报告原文。

发布于：广东省

上一篇：怎样选择儿童电动牙刷？五大专家力荐爆款大盘点

下一篇：樊振东：姆总刚来，所以我动作还不标准，Hala Madrid！