各类项目延迟各自稳定:直连项目长期 ~5 分钟、Openclaw 长期 ~20 分钟,组内基本横住、无真实提速。 之前看到的「整体 P90 从 10.4 降到 7.5」经独立源复核无法复现——真实只在 6~8 分钟窄带内波动,那次「下降」是只统计了 2 天的残周造成的假象。汇报时不应宣称「平台更快了」。
做干净的「切前(直连)→ 切后(agent)」对比(已剔 5/17、5/18、6/4、6/14 偶发故障日;P90 取看板每日中位):响应时间普遍涨约 2–3 倍(从 ~2–3 分钟到 ~4–7 分钟,仍是个位数);失败率基本持平或更低,文脉、自然科学还明显改善,只有经济金融升高。
| 项目 | 失败率 直连→agent | P90 直连→agent(分) | 失败率 / 速度 |
|---|---|---|---|
| 文脉计划 | 8.9% → 1.7% | 14.7 → 8.1 | 失败↓ 更快 |
| 领航·自然科学 | 12.5% → 2.7% | 3.3 → 5.8 | 失败↓ 略慢 |
| 领航·医疗 | 3.5% → 1.5% | 2.0 → 4.3 | 失败↓ 变慢 |
| 领航·法律 | 1.6% → 2.0% | 2.2 → 4.7 | 失败持平 变慢 |
| 领航·工业 | 1.0% → 1.0% | 2.4 → 5.0 | 失败持平 变慢 |
| 领航·法律川大 | 0.0% → 0.8% | 1.4 → 4.4 | 失败持平 变慢 |
| PDF Text | 0.7% → 2.2% | 4.2 → 5.3 | 失败↑ 略慢 |
| 领航·经济金融 | 0.7% → 4.6% | 2.3 → 6.6 | 失败↑ 变慢 |
结论:切 agent 的项目用约 2–3 倍响应时间(仍是个位数分钟)换来复杂任务能力,稳定性没有牺牲——失败率持平或更低,文脉/自然科学还明显改善;只有经济金融升高(见下)。对这些项目,这笔投资值得。
直连时代,重任务常被 60 分钟硬超时砍掉(走「全局超时/取消」);切 agent 后这类超时基本消失。全平台超时率 0.43% → 0.17%(减半还多),两个超时桶基本互斥(直连只走 timeout_cancel、agent 只走 agent_timeout)。
| 项目 | 直连·全局超时/取消 | agent·超时 | 变化 |
|---|---|---|---|
| 文脉计划 | 6.04% | 0% | 基本消除 |
| 领航·自然科学 | 2.13% | 1.22% | 下降 |
| 领航·医疗 | 0.15% | 0.09% | 下降 |
| 领航·经济金融 | 0% | 2.74% | agent 新增(偶发) |
有超时痛点的重任务项目(文脉、自然科学)切 agent 后都被治好或减轻;经济金融是唯一切 agent 后超时不降反升的,也就是它那个偶发超时(见下)。