开发者社区 > 博文 > Agent Swarm最新进展:Claude Code 智能体团队实践
分享
  • 打开微信扫码分享

  • 点击前往QQ分享

  • 点击前往微博分享

  • 点击复制链接

Agent Swarm最新进展:Claude Code 智能体团队实践

  • newlif328
  • 2026-02-24
  • IP归属:北京
  • 45浏览

    引言:Anthropic的C编译器突破——智能体团队的里程碑

    2026年2月初,Anthropic研究员Nicholas Carlini发布了一项令人震惊的实验成果:由16个并行Claude智能体组成的团队,在两周内从零开始构建了一个能够编译Linux内核的C编译器。这个基于Rust编写的编译器最终达到了10万行代码规模,成功编译出可在x86、ARM和RISC-V架构上运行的Linux 6.9内核,甚至能够通过"终极考验"——编译并运行经典游戏Doom。

    这项实验的量化数据令人印象深刻:

    指标
    数值
    说明
    并行智能体数量
    16个
    每个智能体独立运行在Docker容器中
    总会话数
    近2,000次
    持续两周的自主迭代
    代码产出
    100,000行
    干净 room 实现,仅依赖Rust标准库
    API成本
    约$20,000
    消耗20亿输入token和1.4亿输出token
    测试通过率
    99%
    通过GCC torture test等主流编译器测试集
    支持架构
    x86/ARM/RISC-V
    可引导Linux内核

    Carlini在实验总结中指出:"脚手架让Claude运行在循环中,但这个循环只有在Claude能够判断如何取得进展时才有用。我的大部分精力都花在设计Claude周围的环境上——测试、环境、反馈——这样它就能在没有我指导的情况下自我定位。"

    这一突破性实验不仅展示了大型语言模型在复杂软件工程任务上的惊人潜力,更揭示了智能体团队(Agent Teams)这一新兴范式的核心价值:通过多智能体并行协作,AI系统能够自主完成传统上需要大型开发团队耗时数月才能交付的复杂项目。

    本文将深入探讨智能体团队的技术架构、主流厂商的实现方案,以及这一范式对AI应用开发的深远影响。


    Claude Code 实验摘要

    实验路径

    1. 自主循环架构
    构建bash脚本循环,使Claude完成一个任务后自动拾取下一个任务持续工作(容器化运行保障安全):

    while true; do
        COMMIT=$(git rev-parse --short=6 HEAD)
        LOGFILE="agent_logs/agent_${COMMIT}.log"
        claude --dangerously-skip-permissions -p "$(cat AGENT_PROMPT.md)" &> "$LOGFILE"
    done

    2. 多智能体并行协同机制

      • 创建bare git仓库,为每个智能体启动独立Docker容器,挂载共享仓库至/upstream,各智能体在/workspace本地克隆工作
      • 通过current_tasks/目录的文本文件实现任务锁(如parse_if_statement.txt),防止多智能体重复处理同一任务
      • 智能体完成任务后执行pull/merge/push,Claude自主解决频繁出现的merge conflicts

    3. 角色分工
    为不同智能体分配专项任务:代码合并去重、编译器性能优化、生成高效目标代码、Rust设计评审、文档编写

    重点数据

    • 规模:16个Claude Opus 4.6智能体并行工作
    • 时长与成本:近2,000次Claude Code会话,历时约两周,API成本约2万美元
    • token消耗:20亿输入token,1.4亿输出token
    • 产出:10万行Rust代码的编译器
    • 成果验证
      • 可编译并启动Linux 6.9(x86/ARM/RISC-V三架构)
      • 99%通过率(GCC torture test suite等主流编译器测试集)
      • 成功编译QEMU、FFmpeg、SQLite、PostgreSQL、Redis及Doom

    关键举措

    1. 实验定位
      设计为能力基准测试(capability benchmark),旨在压力测试LLM当前"勉强能实现"的极限能力,为未来模型能力演进提供参照。
    2. 并行化工程实践
      采用极简同步算法(任务锁文件)实现多智能体无冲突并行推进,接受merge conflicts高频发生并依赖Claude自主解决,而非设计复杂协调协议。
    3. 局限性披露
      • 16位x86实模式启动阶段无法生成符合32KB代码限制的输出(生成代码超60KB),直接调用GCC完成该阶段,仅x86架构存在此依赖,ARM/RISC-V可完全自主编译
      • 无完整汇编器/链接器工具链、生成代码效率低于关闭优化的GCC、Rust代码质量未达专家级


    什么是智能体团队

    主流厂商对智能体团队的定义

    随着AI Agent技术的快速发展,OpenAI、Anthropic和Kimi等厂商都在2025-2026年间推出了各自的智能体团队解决方案,它们的核心理念和实现方式各有特色。

    OpenAI的Swarm框架

    OpenAI于2024年底推出了Swarm框架,作为构建多智能体系统的实验性解决方案。Swarm的核心理念是通过Routines(例程)Handoffs(交接)两个原语实现智能体协作:

    • Routines:定义智能体执行特定任务的指令集
    • Handoffs:允许任务在不同智能体之间无缝传递

    OpenAI将Swarm定位为教育性和研究性工具,而非生产级框架。其设计哲学强调轻量级和灵活性,开发者可以通过简单的Python代码定义智能体及其协作流程。


    Anthropic的Agent Teams

    Anthropic在2026年2月随Claude Opus 4.6正式发布了Agent Teams功能,这是一个原生集成在Claude Code中的多智能体编排系统。与OpenAI的Swarm不同,Agent Teams是面向生产环境设计的企业级解决方案,其核心特征包括:

    • Team Lead(团队负责人):主Claude Code会话,负责创建团队、生成队友、协调工作
    • Teammates(队友):独立的Claude Code实例,每个拥有独立的上下文窗口
    • Shared Task List(共享任务列表):带有依赖跟踪的协作工作项管理
    • Mailbox(邮箱):智能体之间的直接消息传递系统


    Kimi的Agent Swarm

    Moonshot AI在2026年1月发布的Kimi K2.5模型中引入了Agent Swarm模式,宣传称Kimi K2.5能够自主协调多达100个子智能体同时工作,执行多达1,500次并行工具调用,相比单智能体设置可将执行时间缩短4.5倍

    Kimi的Agent Swarm核心差异化特征:

    • 自主导向编排:智能体群由K2.5自动创建和编排,无需预定义子智能体或工作流配置
    • 并行执行:支持100个并发子智能体和1,500次并行工具调用
    • 原生多模态:基于15万亿混合视觉和文本token训练,具备视觉到代码的直接转换能力


    智能体团队的通用架构

    尽管三家厂商的实现各有特色,但现代智能体团队架构已经形成了一些共同的设计模式:

    核心组件

    1. 编排器(Orchestrator):负责任务分解、智能体调度和结果汇总
    2. 专业化智能体(Specialized Agents):执行特定任务的独立智能体实例
    3. 共享状态(Shared State):任务列表、消息邮箱、代码仓库等共享资源
    4. 通信机制(Communication):智能体之间的消息传递和同步协议


    关键设计原则

    原则
    说明
    实现方式
    上下文隔离
    每个智能体拥有独立的上下文窗口
    独立进程/容器
    并行执行
    多个智能体同时处理不同任务
    多线程/多进程
    依赖管理
    任务之间的依赖关系自动处理
    依赖图+状态机
    冲突避免
    防止多个智能体修改同一资源
    Git Worktree/锁机制
    可观测性
    监控智能体状态和任务进度
    日志/事件流/指标


    Claude Code智能体团队使用方式

    TeammateTool架构深度解析

    Claude Code的Agent Teams功能建立在TeammateTool这一核心编排层之上,提供了13个明确定义的操作来管理智能体生命周期:


    TeammateTool 13个核心操作

    操作类型
    操作名称
    功能描述
    团队管理
    spawnTeam
    创建新的智能体团队
    团队管理
    discoverTeams
    发现可用的团队
    团队管理
    requestJoin
    申请加入现有团队
    任务分配
    assignTask
    将任务分配给指定智能体
    任务分配
    claimTask
    智能体认领任务
    任务分配
    completeTask
    标记任务为已完成
    通信
    broadcastMessage
    向所有成员广播消息
    通信
    sendMessage
    向指定智能体发送私信
    通信
    readInbox
    读取消息收件箱
    决策
    voteOnDecision
    对特定决策进行投票
    决策
    proposeChange
    提议代码变更
    生命周期
    shutdown
    优雅关闭智能体
    生命周期
    cleanup
    清理团队资源

    文件系统架构

    Claude Code使用基于文件的协调机制,所有状态都存储在本地文件系统中:

    ~/.claude/
    ├── teams/
    │   └── {team-name}/
    │       ├── config.json      # 团队元数据、成员列表
    │       └── messages/        # 智能体间消息收件箱
    └── tasks/
        └── {team-name}/         # 团队任务列表
    

    这种架构的优势包括:

    • 高可观测性:所有状态都以文件形式存储,便于调试和监控
    • 持久性:智能体重启后可以恢复状态
    • 低耦合:智能体通过松散耦合的文件系统协作,而非复杂的直接依赖


    启用与操作流程

    步骤1:启用Agent Teams功能

    Agent Teams默认处于禁用状态,需要在settings.json或环境变量中启用:

    {
      "env":{
        "CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS":"1"
      }}
    


    步骤2:创建智能体团队

    启用后,可以用自然语言描述任务和团队结构:

    我正在设计一个帮助开发者跟踪代码库中TODO注释的CLI工具。
    创建一个智能体团队从不同角度探索这个问题:
    一个队友负责UX,一个负责技术架构,一个扮演反对者角色。
    

    Claude会据此创建团队、生成队友、协调工作。团队负责人终端会列出所有队友及其当前工作内容,使用Shift+Up/Down选择队友并直接发送消息。


    步骤3:选择显示模式

    Claude Code支持两种显示模式:

    模式
    说明
    适用场景
    in-process
    队友在后台运行,通过主终端交互
    资源受限环境
    split-pane
    每个队友在独立的tmux/iTerm2窗格中
    需要实时监控

    Split-pane模式需要tmux或iTerm2支持,可以在settings.json中配置:

    {
      "teammateMode":"tmux"
    }
    


    步骤4:委派模式(Delegate Mode)

    在委派模式下,团队负责人仅限于协调工具(生成、消息、关闭队友、管理任务),不直接触碰代码。这对于希望负责人专注于编排而非实现的场景非常有用。按Shift+Tab可循环进入委派模式。


    步骤5:任务分配与认领

    共享任务列表协调团队工作。负责人创建任务,队友处理任务。任务有三种状态:待处理、进行中、已完成。任务还可以依赖其他任务:具有未解决依赖的待处理任务在依赖完成前无法被认领。


    需要注意的是,CC的Agent Team支持多种操作模式,这里仅举例一种实践路径。


    Git Worktree隔离机制

    Claude Code的Swarm模式使用Git Worktree机制从根本上避免代码冲突:

    🌿 main分支(稳定)
    ├── 📁 worktree/frontend  → Agent: Frontend Builder
    ├── 📁 worktree/backend   → Agent: Backend Builder
    └── 📁 worktree/qa        → Agent: QA Engineer
    

    每个智能体在独立的工作目录中操作,修改代码的副本,只有通过测试后才会合并到主分支。这种架构确保即使五个智能体同时编码,主分支也能保持稳定。


    典型应用场景

    并行代码审查

    单个审查者倾向于一次只关注一类问题。将审查标准拆分为独立领域意味着安全、性能和测试覆盖可以同时得到彻底关注:

    创建一个智能体团队审查PR #142。生成三个审查者:
    - 一个关注安全影响
    - 一个检查性能影响
    - 一个验证测试覆盖
    让他们各自审查并报告发现。
    

    竞争性假设调查

    当根本原因不明确时,单个智能体倾向于找到一个看似合理的解释就停止寻找。通过让队友明确对抗,每个队友的工作不仅是调查自己的理论,还要挑战其他人的理论:

    生产环境出现了内存泄漏。创建三个调查员:
    - 一个调查数据库连接池问题
    - 一个检查缓存失效逻辑
    - 一个分析第三方库依赖
    让他们各自调查并辩论发现。
    

    CC Agent Team与传统多智能体架构的区别

    特性
    Subagents
    Agent Teams
    上下文
    独立窗口;结果返回给调用者
    独立窗口;完全独立
    通信
    仅向主智能体报告
    队友之间直接消息
    协调
    主智能体管理一切
    共享任务列表+自我协调
    最佳场景
    只需要结果的专注任务
    需要讨论和协作的复杂工作
    Token成本
    较低
    较高——每个队友都是独立实例


    总结

    智能体团队的核心价值

    1. 并行化效率提升

    智能体团队最直观的价值在于将原本顺序执行的任务并行化。Anthropic的C编译器项目展示了16个智能体并行工作的威力,而Kimi K2.5更是将这一能力扩展到100个智能体。对于可以分解为独立子任务的大型项目,这种并行化能够带来数量级的效率提升。

    2. 专业化分工协作

    不同智能体可以承担不同角色(架构师、开发者、测试员、审查员),每个智能体在特定领域深耕,最终通过协作产生更高质量的输出。这种分工模式更接近人类软件开发团队的组织方式。

    3. 上下文容量扩展

    单智能体的上下文窗口是有限的(如200K tokens),而智能体团队通过多个独立上下文窗口的累积,有效扩展了可处理信息的规模。每个智能体可以专注于特定模块,无需加载整个项目的上下文。

    4. 多维度质量保证

    通过让不同智能体从不同角度(安全、性能、可维护性)审查同一产出,可以捕获单智能体难以发现的综合性问题。这种"多眼原则"在软件工程中已被证明有效。

    5. 自主执行能力

    智能体团队可以在没有持续人工干预的情况下自主运行数小时甚至数天。Carlini的C编译器项目运行了近2,000个会话,期间仅需监控和偶尔调整方向,大幅降低了人工监督成本。


    成本与收益的权衡

    Carlini在实验中明确指出:"这个总成本($20,000)只是我自己完成这项工作所需成本的一小部分——更不用说整个团队了。"对于高价值的复杂任务,智能体团队的成本是合理的;但对于简单任务,单智能体模式更为经济。


    参考文献

    1. Carlini, N. (2026). Building a C compiler with a team of parallel Claudes. Anthropic Engineering Blog. https://www.anthropic.com/engineering/building-c-compiler
    2. Claude Code Documentation. Orchestrate teams of Claude Code sessions. https://code.claude.com/docs/en/agent-teams
    3. Apiyi.com. (2026). Claude Swarm Mode Complete Guide: 5 Steps to Master the New Paradigm of Multi-agent Collaborative Development. https://help.apiyi.com/en/claude-code-swarm-mode-multi-agent-guide-en.html
    4. Moonshot AI. (2026). Kimi K2.5 Tech Blog: Visual Agentic Intelligence. https://www.kimi.com/blog/kimi-k2-5.html
    5. India Today. (2026). After SaaS scare, Anthropic launches new Claude AI with agent teams that build C compilers on their own. https://www.indiatoday.in/technology/news/story/after-saas-scare-anthropic-launches-new-claude-ai-with-agent-teams-that-build-c-compilers-on-their-own-2863917-2026-02-06
    6. Addy Osmani. (2026). Claude Code Swarms. https://addyosmani.com/blog/claude-code-agent-teams/
    7. Paddo.dev. (2026). Claude Code's Hidden Multi-Agent System. https://paddo.dev/blog/claude-code-hidden-swarm/
    8. CodeAcademy. (2026). Kimi K2.5: Complete Guide to Moonshot's AI Model. https://www.codecademy.com/article/kimi-k-2-5-complete-guide-to-moonshots-ai-model
    9. Business2Channel. (2026). How Kimi K2.5 Agentic Swarm Will Disrupt the Agentic AI Market in 2026. https://business20channel.tv/how-kimi-k2-5-agentic-swarm-will-disrupt-the-agentic-ai-market-in-2026-29-01-2026
    10. DataCamp. (2026). Kimi K2.5 and Agent Swarm: A Guide With Four Practical Examples. https://www.datacamp.com/tutorial/kimi-k2-agent-swarm-guide
    11. NVIDIA. (2026). Kimi K2.5 Model Card. https://build.nvidia.com/moonshotai/kimi-k2.5/modelcard
    12. Sphere Inc. (2024). OpenAI Swarm: Multi-Agent Systems Framework. https://www.sphereinc.com/blogs/openai-swarm-multi-agent-systems-framework/
    13. ANTS 2026. 15th International Conference on Swarm Intelligence. https://ants2026.org
    14. Shipyard. (2026). Multi-agent orchestration for Claude Code in 2026. https://shipyard.build/blog/claude-code-multi-agent/
    15. wshobson/agents. GitHub - Intelligent automation and multi-agent orchestration for Claude Code. https://github.com/wshobson/agents
    文章数
    2
    阅读量
    569