十年前,嘉为蓝鲸通过「PaaS 架构 + SaaS 运维开发」重构了运维组织的生产力和生产方式;十年后,一场更深刻的变革正在发生 —— 这一次,PaaS 架构变成了智能体平台,生产力工具变成了 AI 智能体。
大约十年前,嘉为蓝鲸通过蓝鲸 PaaS 平台架构与 SaaS 产品的运维开发模式,实现企业运维组织的生产力升级,从此一体化、平台化成为我们在这一领域的核心优势与技术底色。十年后的今天,又一个「运维应用百花齐放」的历史时刻悄然来临。只不过这一次,涌现的不是传统运维软件,而是 AI 智能体 —— 能够感知环境、自主推理、驱动工具、完成多步骤任务的新型软件范式。

图:软件 PaaS 到智能体 PaaS
这场变革的意义,远不止于「知识问答」、「流程自动化工具」这类局部效率提升。它真正指向的,是运维组织生产关系的再一次重构:从「人驱动工具」演进为「智能体自治完成任务」,人的价值向策略制定、边界管控、异常决策集中。但在企业实践中,这条路并不平坦。以下是我们在推进 AgentOps 落地过程中积累的经验与思考。
01 行业难点:为什么 AgentOps 落地如此之难
过去两年,几乎所有运维团队都尝试过 AI 在运维场景的应用,Demo 和 POC 很多,但真正在生产环境规模化落地、带来可量化价值的案例寥寥无几。问题出在哪里?我们总结为以下几点核心困境:
1) 价值无法衡量:
企业在推进 AgentOps 时,面临的第一个拦路虎是价值可见性不足。AI 提升了多少效率?虚增了多少人力?节省了多少人力?避免了多少故障?这些问题在项目立项时没有答案,在项目上线后同样难以量化。没有可信的 ROI 数字,预算投入就缺乏说服力,场景就永远停留在演示阶段,无法进入真正的生产流程;但不投入又无法积累足够的数据和场景来证明价值。这个鸡与蛋的困局,是 AgentOps 落地最常见的阻力。
2) 基础数据与工具能力薄弱:
AI 智能体的能力上限,很大程度上取决于它能调用的数据与工具的质量。然而很多企业的运维数据分散在多个平台,标准化程度低;MCP(模型上下文协议)工具接口尚未建立;历史事件知识库缺乏结构化整理。在这种基础上运行的 Agent,只能做到「会说话」,无法做到「会干活」。
3) 组织与信任双重阻力:
将原本由人完成的工作交给 AI 自主执行,需要跨越两道门槛:技术门槛(Agent 能做对吗?)和信任门槛(出了问题谁负责?)。前者需要时间验证,后者需要组织文化转变。在没有成熟的人工卡点机制和审计框架的情况下,运维负责人很难对生产核心系统的自主操作「放心」。
4) 历史债务问题:
从自动化运维,到 AI 辅助运维,再到 AI 自主运维,这一漫长的发展路径中既有技术上的一路迭代,也有员工技能的配套成长,还需要运维组织管理上的与时俱进,曾经缺失的环节,可能成为 AI 转型中的短板。比如一体化运维架构的成熟度会影响 AI 决策的精度和成功率;货币化管理实现与否会影响 AI 人力投入的合理性和价值度量;运维算力调度的空间决定了运维团队可以长期稳定投入在 AI 发展上的算力,等等。
02 某大型组织实践:从 0 到 20 + 的运维数字人
面对上述困境,某组织内部基于蓝鲸一体化运维平台开展了系统性的 AgentOps 建设实践。目前,通过智能体开发生态模式的构建,已生成 20+ 每天工作量超过 8 小时的运维数字员工,调度 500+ 智能体,覆盖测试环境管控、生产环境可靠性保障等运维全链路场景。
核心思路:场景从效率出发(运维数字人)+ 场景构建要平台化(运维智能体开发)+ 一体化运维能力要丰富(MCP + 数据 + 知识)。
关键策略:
1) 丰富的一体化运维能力:MCP + 数据 + 知识:
智能体的真正能力来源于底层一体化运维能力的支撑。通过复用 API 网关,将原有一体化运维平台 API 快速转化为 LLM 可调用的 MCP 接口,使 Agent 能够直接调度自动化操作。同时,平台沉淀了结构化运维数据和历史事件知识库,为智能体推理提供高质量上下文。Skills 封装保证了操作标准化和可复用,RAG 知识库驱动智能体获取精准信息并减少误判。这一能力组合确保 Agent 不仅 “会说话”,更 “会干活”,实现了生产环境中的可量化价值。
2) 平台化构建:
智能体开发平台(运维智能体开发)延续了 “PaaS + 场景” 的架构理念,底座为运维智能体开发平台,为智能体研发提供统一底座。平台集成了大模型应用开发所需的关键能力,包括 RAG 知识库、MCP 接口管理、提示词管理、Skill 技能管理等。通过平台化设计,运维团队可以快速构建多场景 Agent,并复用已有组件和技能,避免重复开发底层能力,从而显著提升智能体研发效率和落地速度。
3) 提效场景驱动:
以效率为核心的 SRE 数字人能体研发始终以运维效率提升为出发点,而不是对话或检索类应用。每个 Agent 的设计都参照运维组织的服务目录清单,明确其在运维流程中的职责边界。例如业务巡检、SQL 风险排查、岗位自动化操作、故障根因诊断等场景,都是以减少人工重复劳动、压缩响应时间、降低错误率为核心目标。通过这种场景驱动,数字分身真正承担起原本人工执行的工作,实现 “碳基员工” 向 “硅基员工” 的高效迁移。
1) 典型落地场景:
以下列举几个已在测试和生产环境规模化运行的代表性场景:






智能体还有其他各类典型场景还在持续迭代和优化中。
2) 关键启示:
这些场景的落地,验证了一个核心判断:以可衡量的工时效率为价值起点,比追求宏大的顶层设计更能推动组织真正行动起来。场景落地同时反向推动了数据与工具能力的提升 ——Agent 对数据质量和工具接口的要求,倒逼一体化运维能力持续完善。
03 场景思路:运维领域 Agent 任务替代地图
回归运维业务,我们按照业务领域对 AI 替代的可行场景进行了梳理。将业务梳理、工程设计与长期规划有机串联。我们把 AgentOps 建设定义四个阶段和成熟度:

图:AgentOps 成熟度阶段
从业务流程梳理起步:
1) 基于运维业务流程建模,做任务级的 AI 替代分析,以事件管理为例:

从上表可以看出:事件管理全流程 10 个任务中,有 6 个可达 Lv.4(Agent 自主)或 Lv.3(高度智能化)级别。这一分布规律在其他运维域也基本适用 —— 结构化、可规则化的任务优先替代,需要跨角色共识的任务保留人工判断。
2) 进行任务级流程设计,设计人工卡点:
基于流程设计,来进行 skill、mcp、知识库、提示词的设计。如事件任务:
3) 可持续规划的智能体;以下表格展示了各领域核心 Agent 的能力定义与核心价值:

4) 多智能体协同;以下表格展示了各领域核心 Agent 的能力定义与核心价值:
在某些场景下,需要多智能体协同才能完成,以我们还在持续探索的故障诊断多智能体协同为例,基于有优先级的假设列表,将子任务路由到子 Agent 并行执行,调用工具进行排障分析,再进行证据分析,和生成诊断报告。

图:多智能体协同故障诊断场景
04 架构路线:智能体开发平台 + 一体化 + 大模型
我们的整体架构设计遵循一个核心原则:与大模型能力增强方向正向协同。这意味着:不重复建设大模型已经擅长的能力,而是聚焦在大模型与运维业务的连接层 —— 数据、工具接口、知识沉淀、编排框架。

图:嘉为蓝鲸 AgentOps 整体架构

图:智能体开发平台功能示例
架构设计聚焦于大模型与运维业务之间的「连接层」—— 数据标准化、工具接口治理、知识沉淀与 Agent 编排,而非与大模型已有能力重复建设。具体设计原则如下:
05 体系方法:如何在企业内推进 AgentOps 落地
基于我们的实践,总结出以下推进方法供参考:
1) 先跑起来,让组织形成新习惯:
AgentOps 的推进不能等「完美方案」落地后才开始。建议先选择 2-3 个痛点清晰、价值可见的场景快速落地,场景先行和顶层设计收敛,让工程师在真实使用中提炼需求、形成新的协作习惯。群众的力量是第一位的 —— 当团队成员主动创建和使用 Agent,生态才真正开始运转。实操建议:优先选择「现有流程繁琐但逻辑清晰」的场景,如账号开通、服务巡检、SQL 审查等。这类场景 AI 替代成功率高,价值可快速量化,且风险可控。
2) 业务流程梳理仍然是起点:
很多团队的 AgentOps 探索失败,根源在于跳过了业务流程梳理这一步。AI 不能自动让混乱的流程变得清晰,它只是让清晰的流程执行得更快。在引入 Agent 之前,必须先完成:流程现状梳理 → 任务级 AI 替代分析 → 价值量化基线建立。具体方法:以运维业务领域为单位(ITSM、变更、监控、发布等),逐一拆解到任务级别,评估每个任务的 AI 替代可行性(数据是否具备?工具接口是否就绪?风险是否可控?),形成场景优先级矩阵。
3) 基础能力建设是长期投资:
Agent 的智能上限取决于它能访问的数据质量和工具能力的丰富度。一体化运维平台为 AgentOps 提供的不只是展示界面,更是数据底座和 MCP 工具生态。具体而言:
4) 基础能力建设是长期投资:
初期不要追求精细的度量体系,反而会成为推进的阻力。建议分两阶段:
关键原则:每个 Agent 上线前,必须建立价值基线(Before 数据);上线后,定期回顾数据对比。没有 Before,就没有 After,场景就永远是 Demo。
5) 组织变革与技术变革同步推进:
AgentOps 的本质是一场运维组织的生产关系变革,技术只是载体。与技术推进同等重要的是组织侧的配套:
6) 调权限管控和过程透明:
随着 AI 拥有了 “行动权”,例如服务器执行脚本、故障自愈执行,风险也随之增加。 在推行 AI Agent 时,需要强调安全管控与治理。
06 此刻评估:现状认知与未来判断
真正意义上的「无人值守运维闭环」(Lv.4)距离大规模落地还有相当距离。核心挑战在于:
AgentOps 不是一场「押注未来」的赌博,而是一次「补齐当下」的务实投资。从效率工具开始,把数据做好、把工具接口做通、把知识沉淀下来 —— 这些今天看来「基础」的工作,恰恰是三年后规模化 Agent 自治的真正护城河。
100+案例淬炼:应用投产变更管理最佳实践
2026-02-09
查看详细
嘉为蓝鲸DevOps|业务人员跨界修缺陷?AI 打通DevOps全链路,提效超乎想象!
2026-02-09
查看详细
【运维自动化规划】自动化作业设计:从原子操作到流程编排的工程化实践
2026-01-09
查看详细
嘉为蓝鲸DevOps研发测试一体化:从信息孤岛到双向穿透,构建高效协同新范式
2026-01-09
查看详细
嘉为蓝鲸DevOps缺陷管理协同中枢:破解 “单测多研” 质量困局,打造高效协同新范式
2025-12-26
查看详细
【运维自动化规划】自动化场景设计:从组件级到混合场景的全链路自动化构建
2025-12-26
查看详细
申请演示