LLM已进入「组装」时代,CAIS复合人工智能系统来了_

日期：2026-06-02 04:14 来源：平采软件服务

2024年，伯克利人工智能研究中心（BAIR）率先提出了一个新概念——复合人工智能系统（Compound AI Systems，简称CAIS）。这个看似简单的术语背后，蕴含着AI系统架构的根本性改变：不再依赖单一LLM的"超级大脑"，而是构建多组件协同的"智能生态系统"。

伯克利研究人员敏锐地观察到，真正的AI突破不是来自更大的模型，而是来自更智能的系统组合。早期部署已经展现出这一范式的变革潜力：

Perplexity.ai 等检索增强助手提供带有思维链引用的实时答案
GitHub Copilot-X 通过编排代码推理、仓库搜索和测试生成，让开发者效率提升超过 55%
放射学领域 的多模态管道结合基于规则的分诊代理，在保持专家级准确性的同时将报告周转时间缩短了 30%

2025年6月5日，新泽西理工学院的研究团队对这一新兴领域进行了迄今为止最全面的梳理，从 120多项 同行评审和产业研究中提炼出CAIS的核心架构和实践指南。

🎯 这项研究解决的核心问题

当前AI应用开发面临着五大核心问题，这项CAIS综述研究正是为了系统性地解决这些问题：

1️⃣ 技术选型的迷茫

面对层出不穷的RAG方案、Agent框架和多模态模型，开发者往往不知道如何选择最适合的技术组合，缺乏统一的架构指导。

2️⃣ 集成复杂度的爆炸

不同AI组件之间的接口不统一、数据格式不兼容，导致系统集成成本居高不下。

3️⃣ 性能评估的困境

传统的单模型评估方法无法衡量复合系统的真实能力，缺乏科学的多维度评估体系。

4️⃣ 扩展性设计的盲区

很多系统在MVP阶段表现良好，但面临用户增长时却遭遇性能瓶颈和架构重构的痛苦。

5️⃣ 最佳实践的缺失

虽然各种技术层出不穷，但缺乏系统性的设计模式和工程指南。

这项研究通过对120多项前沿工作的深度分析，为开发者提供了一套完整的CAIS理论框架和实践方法论。

⚠️ 单一LLM的三重困境

当我们为GPT-4、Claude、Gemini的亮眼表现而惊叹时，实际产品开发却让我们清醒地认识到它们的局限性：

困境类型	具体表现	影响领域
幻觉问题	模型经常编造听起来合理但完全错误的信息	医疗诊断、法律咨询等关键领域
知识时效性	训练数据的截止日期让模型对实时信息一无所知	新闻事件、动态数据处理
推理边界限制	有限的上下文窗口和计算预算限制复杂推理	多步推理、长链思考任务

这三重困境推动着AI社区寻找新的解决方案，而CAIS正是这种探索的结晶。

🎼 从独奏到交响乐团的思维转变

CAIS代表的不仅是技术升级，更是架构哲学的根本转变。传统思路试图打造一个"万能选手"来解决所有问题，而CAIS则选择让LLM充当"指挥家"，协调各种专业化组件形成强大的AI交响乐团。

🧮 核心理论公式

Berkeley研究院将这种趋势精炼为一个数学表达：

CompoundAISystem = f(L, C, D)

这个公式虽然简洁，却是整个CAIS理论的核心：

L = 所有LLM的集合（从GPT-4到专用的小模型）
C = 外部组件集合（包括检索器、工具、编码器等）
D = 系统设计架构（定义组件间如何交互协作）

这三个要素缺一不可，它们的有机组合决定了系统的最终能力边界，体现了从单点突破到系统性能力提升的设计哲学。

🧠 RAG：给LLM装上"外脑"

📋 检索增强生成的三阶段工作流

检索增强生成（RAG）是CAIS中最成熟的技术之一，它的核心思想是为LLM配备一个强大的"外部记忆库"。整个流程分为三个关键阶段：

预检索阶段：将外部知识切块、嵌入和索引
检索阶段：通过相似度计算找到最相关的文档片段
后检索阶段：通过重排序、过滤和精炼来提升检索质量

这种设计让LLM能够访问实时、准确的外部信息，就像给大脑装上了一个可以随时查阅的图书馆。

图1：检索增强生成（RAG）系统的分类体系。该图展示了RAG系统的三个核心模块：检索器、生成器和RAG设计，以及它们之间的关系。

🔧 检索器的五种武器

RAG系统的检索器有五种主要类型，每种都有其独特的优势：

检索器类型	核心技术	适用场景	典型代表	技术特点
稀疏检索器	BM25关键词匹配	专业术语查询	Elasticsearch	精确匹配，适合术语密集场景
密集检索器	BERT语义向量	同义词理解	DPR	语义相似性，理解上下文含义
图检索器	知识图谱遍历	关联知识发现	GraphRAG	结构化信息，节点边遍历
混合检索器	多方法融合	综合性能提升	ColBERT	结合稀疏和密集方法优点
LLM检索器	大模型生成	直接知识生成	FiD	让大模型根据查询生成相关知识

稀疏检索器基于关键词精确匹配，在处理专业术语查询时表现优异；密集检索器使用BERT等模型捕获语义相似性，能理解同义词和上下文含义；图检索器利用知识图谱的结构化信息，通过节点和边的遍历找到关联知识。混合检索器结合了稀疏和密集方法的优点，而最新的"LLM作为检索器"直接让大模型根据查询生成相关知识，这种方法正在快速发展。

🔄 迭代、递归、自适应的设计模式

现代RAG系统采用三种先进的设计模式来提升性能：

🔁 迭代模式

通过多轮检索-生成循环不断精炼结果，就像科研人员反复查阅文献完善论文。

🌳 递归模式

将复杂查询分解为简单子问题，逐层解决后再整合答案。

🎯 自适应模式

最为智能的模式，系统能动态判断何时需要检索、检索什么内容，甚至对自己的输出进行批判性评估。

这些模式让RAG系统具备了类似人类专家的研究能力。

🤖 LLM Agent：从工具到智能体的跃升

图2：LLM Agent的结构化概览。该图展示了LLM Agent的三个维度：应用场景（如通用型、具身型）、Agent框架（单Agent和多Agent架构）以及Agent机制（系统编排、推理循环和工具使用）。

🌟 应用场景的三重境界

LLM Agent的应用场景可以分为三个层次的境界：

🔧 通用目的Agent

像瑞士军刀一样处理各种任务，Google的Gato就是典型代表，能用同一套参数处理 600多种 不同任务

🤖 实体化Agent

进入物理或虚拟环境：

Inner Monologue 让机器人通过语言反馈进行推理和规划
Voyager 在Minecraft中实现了终身学习

🎯 专业场景Agent

在特定领域展现专家级能力：

自动驾驶 的DiLu系统
科学实验 助手
法律咨询 专家Agent

这种分层设计让开发者能够根据具体需求选择合适的Agent架构。

🤝 多Agent协作的三种框架

当单个Agent无法胜任复杂任务时，多Agent协作就成为必然选择：

框架类型	工作机制	典型案例	适用场景	技术特色
🤝 协作框架	角色分工和标准化操作流程	AgentVerse	软件开发、游戏	动态团队调整，多领域协作
💭 辩论框架	不同论辩角色的结构化对话	ChatEval	决策分析、观点评估	多角度论证，裁判决策
🌐 多Agent系统	共享消息池或角色扮演	AutoGen	复杂业务场景	异步通信，专业化分工

协作框架让多个Agent通过角色分工和标准化操作流程共同工作，AgentVerse作为动态多Agent协作框架，能够根据任务需求动态调整团队组成和角色分工；辩论框架则让Agent扮演不同的论辩角色，通过结构化对话探索分歧观点，最终由裁判Agent做出决策；多Agent系统涵盖了所有涉及两个以上自主Agent的架构，它们可以通过共享消息池进行异步通信，也可以通过角色扮演实现专业化分工。这些框架为复杂AI应用提供了可扩展的解决方案。

🔄 交互推理循环的核心机制

Agent的智能体现在其交互推理循环中，这个循环包含四个关键环节：

🧠 规划推理阶段

分析当前状况
设定子目标
确定行动步骤
代表框架：ReAct（思维-行动交替范式）

⚡ 行动执行阶段

调用工具
生成输出
与环境交互
核心能力：区别于普通LLM的关键特征

📊 环境反馈

提供行动结果信号
帮助调整后续策略
支持实时学习

🤔 自我反思

批判性评估推理过程
评估行动表现
代表框架：Reflexion（语言化反馈学习）

这个循环让Agent具备了类似人类的学习和适应能力。

🎭 MLLM：打通感知的任督二脉

图3：多模态大语言模型（MLLM）的分类。该图详细展示了MLLM的架构组件（编码器、视觉投影器、融合模块、核心LLM）和融合策略（早期、晚期、跨模态注意力、混合融合），以及不同模态类型的技术路径。

🏗️ 四大架构组件的精妙配合

多模态大语言模型（MLLM）通过四个核心组件实现了跨模态理解：

🔍 编码器组件

视觉编码器：处理图像信息
音频编码器：处理声音信号
作用：提取不同模态的特征表示

🔄 视觉投影器

功能：关键的"翻译官"
任务：将不同模态特征映射到统一表示空间
经典设计：BLIP-2的Q-Former

🔗 融合模块

职责：决定多模态信息的整合方式
影响：直接影响模型的理解能力

🧠 核心LLM

角色：整个系统的"大脑"
功能：基于融合后的多模态表示生成最终输出

这种模块化设计让开发者能够根据具体需求灵活组合不同组件。

⚖️ 四种融合策略的权衡艺术

多模态融合策略的选择直接影响模型性能，每种策略都有其适用场景：

融合策略	融合时机	典型应用	优势特点	技术实现
🟢 早期融合	输入阶段整合	Gemini	紧密跨模态交互	输入阶段整合不同模态信息
🔵 晚期融合	决策阶段整合	Woodpecker	保证内容一致性	保留各模态独立处理路径
🟡 跨模态注意力	全程持续交互	BLIVA	指令感知特征提取	整个处理过程中持续交互
🟣 混合融合	多策略结合	KOSMOS-2	短语定位+推理统一	结合多种策略的优势

早期融合在输入阶段就整合不同模态的信息，Gemini采用这种策略实现了紧密的跨模态交互；晚期融合保留各模态独立的处理路径，在最终决策阶段才整合信息，Woodpecker框架通过这种方式确保了文本与图像内容的一致性；跨模态注意力融合让不同模态在整个处理过程中持续交互，BLIVA使用这种策略实现了指令感知的视觉特征提取。混合融合结合多种策略的优势，KOSMOS-2通过这种方法实现了短语定位和多模态推理的统一。

🌈 从单模态到全模态的技术路径

MLLM在不同模态上的技术实现各有特色，为开发者提供了丰富的选择：

🖼️ 图像处理技术栈

核心技术：CLIP、ViT、BLIP等成熟技术
实现方式：通过对比学习建立图文对应关系
技术特点：利用大规模图文对训练，建立视觉语言映射

🔊 音频处理技术栈

语音识别：Whisper进行语音识别转录
表示学习：WavLM提供通用的语音表示学习
技术优势：多语言支持，鲁棒性强

🎬 视频处理技术栈

时空建模：同时建模时间和空间信息
压缩技术：Flamingo通过Perceiver Resampler压缩视频帧
架构创新：TimeSformer使用纯Transformer架构建模时空依赖
技术挑战：计算复杂度高，需要高效的时空建模

📄 文档理解技术栈

OCR路线：传统光学字符识别后处理
OCR-free路线：Donut代表的端到端方法
发展方向：能够直接从文档图像生成结构化输出
应用场景：表格理解、版面分析、信息抽取

图像处理主要依赖CLIP、ViT、BLIP等成熟技术，通过对比学习建立图文对应关系；音频处理使用Whisper进行语音识别转录，WavLM提供通用的语音表示学习；视频处理需要同时建模时空信息，Flamingo通过Perceiver Resampler压缩视频帧，TimeSformer使用纯Transformer架构建模时空依赖；文档理解则分为OCR和OCR-free两条路线，Donut代表了后者的发展方向，能够直接从文档图像生成结构化输出。这些技术的组合为构建全能型AI助手奠定了基础。

🎼 系统编排：复合AI的指挥艺术

图4：复合AI系统的编排框架。该图展示了系统编排的三个层次：结构层（分层/中央架构）、机制层（任务规划、模型通信、工具使用、内存管理、反馈循环）以及目标层（隐私安全、偏见控制、低延迟、成本效率）。

🏗️ 结构层：分层vs中央的架构选择

系统编排的结构层决定了整个CAIS的组织形式，主要有两种架构模式：

架构类型	核心特点	典型案例	优势	劣势	适用场景
🌳 分层结构	树状层级模块化管理	MemGPT	可扩展性强、容错性好	协调复杂度高	大规模复杂系统
⭐ 中央结构	统一管理中心协调	PagedAttention	资源调度优、一致性强	单点故障风险	资源密集型应用

分层结构将复杂任务分解为子任务，通过树状层级实现模块化管理，MemGPT采用这种设计实现了类似操作系统的内存管理；中央结构则通过统一的管理中心协调各组件协作，PagedAttention使用中央调度器和分布式GPU工作节点实现高效的LLM服务。这两种结构各有优劣：分层结构具有良好的可扩展性和容错性，中央结构则在资源调度和一致性保证方面更有优势。选择哪种架构需要根据具体应用场景和性能要求来决定。

⚙️ 机制层：五大核心机制的协同运作

机制层定义了CAIS的具体运作方式，包含五个核心机制：

📋 任务规划

功能：将高层目标分解为可执行步骤
典型案例：LLM-MARS多Agent机器人系统
实现方式：动态任务分配

💬 模型通信

职责：确保不同AI组件间信息交换
应用案例：TransLLaMa实时翻译
技术方案：集成语音识别和机器翻译

🔧 工具使用

能力：调用外部API、搜索引擎等资源
实现路径：训练 + 提示工程两种方式
扩展性：支持第三方工具集成
技术细节：让LLM能够调用外部API、搜索引擎等资源，这可以通过训练或提示工程两种方式实现

💾 内存管理

目标：优化系统资源使用效率
核心技术：PagedAttention分页技术
效果：大幅减少内存浪费
技术原理：通过分页技术大幅减少内存浪费，提升系统性能

🔄 反馈循环

作用：确保系统从结果中学习改进
应用场景：Text-to-SQL系统
机制：执行结果反馈优化
实现效果：在Text-to-SQL系统中通过执行结果反馈不断优化查询生成质量

🎯 目标层：平衡性能与约束的系统设计

目标层体现了CAIS设计的核心价值追求，需要在多个目标间找到平衡：

🔒 隐私和安全

防护方案：SecGPT通过隔离执行环境保护敏感数据
访问控制：分层访问控制保护敏感数据
风险防范：防范LLM与外部工具交互时的机密信息泄露风险
技术实现：隔离执行环境和分层访问控制

⚖️ 偏见问题控制

重点关注：信息茧房和观点极化问题
应用场景：LLM驱动的对话搜索系统
解决思路：多元化信息源，避免信息茧房
技术挑战：LLM驱动的对话搜索系统可能加剧信息茧房和观点极化

⚡ 低延迟优化

技术创新：专用网络切片等技术创新
典型案例：LLM-Slice通过无线网络资源优化
效果：显著降低传输延迟
应用价值：低延迟要求推动了专用网络切片等技术创新

💰 成本效率

优化方向：声明式系统优化
代表技术：PALIMPZEST允许工程师在高抽象层次定义任务
平衡点：成本、运行时间和质量之间的最佳平衡点
技术特色：系统自动编译为优化的执行计划

📊 评估挑战：如何衡量复合系统的能力

🎯 四大维度的专业化评估体系

评估CAIS需要针对不同维度建立专业化的评估体系，论文总结了四个核心维度的详细评估方法：

🧠 RAG系统评估

推理问答：Natural Questions、TriviaQA数据集，使用Accuracy、F1、EM指标
段落检索：MS MARCO、SQUAD，使用MRR、nDCG、Precision指标
多文档摘要：Multi-News、NarrativeQA，使用ROUGE、BLEU指标
评估范围：涵盖七大任务类型的全面评估体系

🤖 LLM Agent评估

角色扮演：RoleLLM、AgentBench，测量角色一致性评分
交互推理：AgentQuest、CriticBench，评估推理轨迹准确性
工具使用：ML-Bench、Berkeley Function Calling，衡量工具调用准确性和令牌效率
核心能力：重点关注三个核心能力的专业化评估

🎭 MLLM评估

推理理解：MM-Vet、SEED-Bench，测试准确性和困惑度
图表文档理解：ChartQA、DocVQA，评估BLEU和ROUGE分数
安全对齐：MM-SafetyBench，使用定制安全指标
专业场景：包括推理理解、图表文档理解、安全对齐等专业场景

🎼 系统编排评估

基础设施层：BigDataBench测试吞吐量和延迟
机制层：WebArena测试任务完成时间和API响应
目标层：AI Fairness 360测试公平性指标
三层架构：分为基础设施层、机制层、目标层的三层评估架构

🔄 从单一基准到系统级评估的范式转变

传统基准测试的局限性在CAIS时代变得更加突出，需要进行根本性的评估范式转变：

传统评估	CAIS评估	技术代表	评估特点
静态数据集	交互式评估环境	WebArena	测试Agent在真实Web环境中的导航和操作能力
单一准确率指标	多维度评估体系	延迟+效率+可靠性+体验	平均API响应时间、缓存命中率、错误处理能力、任务完成率
组件级评估	系统级整体评估	Long Range Arena, ZeroSCROLLS	长序列处理能力、长文本理解能力

静态数据集已无法满足系统动态性测试需求，像WebArena这样的交互式评估环境成为新标准，它能测试Agent在真实Web环境中的导航和操作能力；单一准确率指标被多维度评估体系取代，需要同时考虑系统的延迟性能（平均API响应时间）、资源效率（缓存命中率）、可靠性（错误处理能力）和用户体验（任务完成率）；组件级评估转向系统级整体评估，专门设计的基准如Long Range Arena测试长序列处理能力，ZeroSCROLLS评估长文本理解能力。这种转变反映了从优化单一模型性能到优化整体系统效能的思维升级，为CAIS的工程化部署提供了更科学的质量保证体系。

⚠️ 技术挑战：复杂性与可扩展性的双重考验

🔧 系统复杂性带来的工程挑战

CAIS的多组件架构带来了前所未有的工程复杂性挑战：

🔗 组件集成挑战

API不匹配问题：不同模块间的API接口不统一
数据格式不一致：各组件数据格式不兼容
错误传播风险：单一组件错误可能导致系统性问题
技术特点：这些问题在单一模型中并不存在

🐛 调试和优化困难

错误源定位复杂：错误可能出现在任何组件或组件间交互中
需要完善监控机制：建立系统级监控和诊断机制
组件间交互诊断：复杂的交互关系增加调试难度
技术挑战：调试和优化变得极其困难

🚀 部署复杂度激增

多模型版本管理：协调多个模型的版本控制
资源分配协调：合理分配计算和存储资源
服务发现机制：确保各组件能够正确发现和连接
运维要求：部署复杂度大幅增加

组件集成需要处理不同模块间的API不匹配、数据格式不一致和错误传播问题，这些问题在单一模型中并不存在；调试和优化变得极其困难，因为错误可能出现在任何组件或组件间的交互中，需要建立完善的监控和诊断机制；部署复杂度大幅增加，需要协调多个模型的版本管理、资源分配和服务发现。这些挑战要求开发团队具备更强的系统设计能力和运维经验，也推动了相关工具链的发展。

📈 可扩展性瓶颈的突破路径

随着CAIS规模的扩大，可扩展性瓶颈日益凸显，需要在多个层面寻求突破：

🔄 计算资源调度：开发智能的负载均衡和资源管理算法
📡 通信优化：通过优化通信协议和数据压缩技术来解决延迟和带宽限制
🏗️ 架构弹性：系统架构需要支持水平扩展，允许动态添加或移除组件而不影响整体性能
💡 新技术融合：分布式计算、边缘计算和专用硬件等技术提供新的可能性

计算资源的高效调度成为关键，需要开发智能的负载均衡和资源管理算法；组件间通信的延迟和带宽限制需要通过优化通信协议和数据压缩技术来解决；系统架构需要支持水平扩展，允许动态添加或移除组件而不影响整体性能。分布式计算、边缘计算和专用硬件等技术为解决这些问题提供了新的可能性，但同时也带来了新的复杂性挑战。

💡 给Agent开发者的实践建议

📈 从MVP到生产级系统的演进路径

对于正在开发Agent产品的工程师，建议采用渐进式演进策略：

🥇 第一阶段：MVP验证

核心目标：构建基于单一LLM的MVP版本
验证重点：验证核心功能和用户需求
技术策略：快速原型，快速验证

🥈 第二阶段：能力扩展

升级策略：根据发现的局限性逐步引入RAG、工具调用等CAIS组件
迭代原则：每次只添加一个新能力并充分验证
风险控制：渐进式升级，降低技术风险

🥉 第三阶段：系统完善

最终目标：构建完整的多模态、多Agent系统
实现能力：复杂场景的智能化处理
系统特征：具备完整的CAIS架构

首先构建基于单一LLM的MVP版本，验证核心功能和用户需求；然后根据发现的局限性逐步引入RAG、工具调用等CAIS组件，每次只添加一个新能力并充分验证；最后构建完整的多模态、多Agent系统，实现复杂场景的智能化处理。这种演进路径既能快速获得用户反馈，又能逐步积累系统复杂性管理的经验，降低技术风险。

🎯 技术选型与架构设计的关键考虑

在技术选型时需要重点考虑几个关键因素：

考虑因素	具体内容	影响程度	实施建议
🌟 成熟度和生态	活跃社区、丰富文档	降低开发成本	选择有活跃社区和丰富文档的技术栈
📈 可扩展性设计	架构弹性预留	应对需求变化	预留足够的架构弹性以应对未来需求变化
⚖️ 性能成本平衡	模型规模和部署方案	业务可持续性	根据实际业务需求选择合适的模型规模和部署方案
🔒 安全合规要求	敏感数据处理	风险控制	特别是在处理敏感数据的场景中需要特别谨慎

首先是组件的成熟度和生态支持，选择有活跃社区和丰富文档的技术栈能够降低开发成本；其次是系统的可扩展性设计，预留足够的架构弹性以应对未来需求变化；再次是性能与成本的平衡，根据实际业务需求选择合适的模型规模和部署方案；最后是安全与合规要求，特别是在处理敏感数据的场景中需要特别谨慎。这些考虑将帮助开发者构建既实用又可持续的CAIS产品。

🎊 写在最后

LLM的"组装"时代已经到来，CAIS代表着AI系统架构的根本性变革。对于Agent产品开发者而言，这既是挑战也是机遇：

💪 挑战：需要掌握更复杂的系统设计技能
🌟 机遇：能够构建出超越单一模型限制的强大AI应用

在这个关键节点，深入理解CAIS的核心原理和实践方法，将是决定产品成败的关键因素。

Reference：

论文：https://arxiv.org/abs/2506.04565

博客：https://bair.berkeley.edu/blog/2024/02/18/compound-ai-systems/

免责声明：本站内容来源于互联网公开信息，仅供学习和参考使用。如涉及版权问题，请联系我们，我们将在核实后第一时间删除相关内容。

标签： 系统开发