AI 产品的双螺旋困境：当功能迭代跑赢效果优化

一个逐渐清晰的问题#

最近在做一个基于 Agentic 架构的 AI 写作产品。整个产品建立在一个 Agentic 核心上——并行生成、记忆管理、工具调用、多步规划，所有上层功能都长在这个核心上面。

功能迭代很快。研发借助 Claude Code、Codex 等 AI 辅助工具，Agentic 核心几乎每天都在进化。新功能从想法到上线的周期被大幅压缩，这在过去是不可想象的。

但我逐渐注意到一个现象：产品的功能在变强，效果优化的推进却在变慢。

起初我以为是效率问题，后来才意识到这是一个结构性矛盾——功能和效果这两条线，天然就跑在不同的速度上，而且功能跑得越快，效果这边的处境就越难。

为什么速度差是结构性的#

功能开发是并行的、可堆叠的。一个 Agentic 核心可以同时推进多个模块——记忆、工具、并行生成——各自独立开发，最后集成。在 AI 辅助编码的加持下，一个开发者一周能推进过去一个月的工作量。功能的产出速度已经被工具从根本上改变了。

效果优化是串行的、需要深挖的。每一个效果问题都要经历「修改提示词 → 等模型执行 → 观察输出 → 分析问题 → 再调整」的循环。AI 可以帮你写提示词，但这个循环里最耗时的部分——等待执行和观察分析——是压缩不了的。你总得看看模型实际输出了什么，才知道改得对不对。而且很多效果问题需要反复迭代，一轮调不到位就要再来一轮。

arXiv 上有篇研究 Cursor 的论文（Speed at the Cost of Quality）量化了一个类似的现象：AI 辅助编码让开发速度大幅提升，但代码质量的回归率也显著上升。工具加速了「做」的速度，但「做好」的速度没有同比提升。

我觉得这个结论可以直接平移到 AI 产品开发上。功能的速度被工具改变了，效果的速度被本质决定了。 这个差距不会因为团队更努力就消失，它是由两件事的内在性质决定的。

功能迭代在制造效果的问题#

如果只是速度差，问题还不算太严重——效果慢一步，追着赶就是了。

真正让我觉得棘手的是另一件事：功能迭代本身在不断扩大效果的问题空间。

每加一个新功能，就多一个可能影响效果的变量。加了记忆模块，写作风格可能因为历史上下文的引入而漂移。加了并行生成，多路输出之间的一致性可能下降。加了工具调用，输出格式可能因为工具返回结果的差异而变得不可预测。

而且这些影响不是孤立的——它们互相叠加、互相耦合。记忆 + 并行的组合可能产生记忆单独不会有、并行单独也不会有的新问题。

更隐蔽的是，不需要大版本上线才出问题。一个小的功能改动就可能引发效果漂移，而且这种漂移经常是滞后发现的——测试的时候没看出来，上线跑了一阵子才在某些边界场景暴露。

大模型厂商自己也深受其害。ChatGPT 和 Claude 每次模型更新，用户社区就会出现一波「变笨了」的投诉。Anthropic 去年 9 月公开承认过 Haiku 3.5 和 Sonnet 4 在某段时间出现了质量下降，但他们强调「从未故意降低模型质量」——言下之意，漂移是底层变更的副作用，不是主观选择。Search Engine Land 的基准测试进一步验证了这个问题：新模型在通用能力上更强了，但在 SEO 这类特定任务上准确率反而降了。

底层变了，上层的效果就不可预测。 这个规律在模型层成立，在应用层同样成立。对我们来说，Agentic 核心就是「底层」，写作效果就是「上层」。核心每变一次，效果团队就面对一个新的、未知的环境。

所以效果团队面对的不只是「追赶速度差」，而是在一个不断膨胀的问题空间里，用一个天然更慢的方法论去工作。

被稀释的效果工作#

理论上，效果团队的工作应该很纯粹：分析 badcase，调优提示词，提升输出质量。

但实际情况要复杂得多。

因为 Agentic 核心迭代快，功能稳定性本身就是个变量。效果团队在测试的过程中，会频繁撞到功能 bug——不是偶尔，而是常态。工作流变成了「测效果 → 撞到 bug → 判断归因 → 记录反馈 → 绕过去 → 继续测 → 又撞到 bug」的循环。

不会停下来等研发修 bug，但每次「撞→判断→绕」都有上下文切换的成本。更重要的是，归因本身就是一件很耗精力的事。

对 AI 理解深的人，可以比较快地判断「这是功能链路断了」还是「这是提示词的问题」。但团队里不是每个人都有这个判断力。特别是对 AI 了解不深的产品经理，他们面对的是一个包含意图理解、记忆检索、多步规划、并行生成、结果合并的复杂链路——当最终输出「不太对」的时候，到底是哪一步出了问题，很难靠直觉判断。

于是就会出现两种归因错误：

把 bug 当效果问题。 反复调提示词，怎么调都不对，折腾很久才发现根本是功能链路的问题。提示词没有任何问题，是数据没有正确传递，或者某个工具调用返回了异常结果。

把效果问题当 bug。 提给研发，研发排查半天回复「功能正常，这是模型行为」。双方都花了时间，问题还在原地。

这不是谁的能力问题。Agentic 系统的复杂度让「这到底是哪的问题」变成了一个需要跨领域知识的判断——你得同时理解功能链路和模型行为，才能准确归因。而在一个快速迭代的团队里，不可能要求每个人都具备这种跨领域的判断力。

结果就是，效果团队在「优化效果 + 区分归因 + 反馈 bug」三件事之间反复横跳。 真正用于深度效果优化的时间被持续压缩，而三件事的总量还在随着功能迭代持续增长。

一个还没爆发的风险#

还有一个问题我觉得值得提前想。

功能上线是显性的——新功能、新界面、可以 demo、可以写进周报。效果优化是隐性的——「这批 case 的风格更自然了」或者「指令遵从度提升了 5%」，很难让没有直接参与的人产生直观感受。

当效果出了问题，因为归因困难，效果团队容易成为先被质疑的对象——「是不是你们的提示词没调好？」但实际上可能是功能变更引入的副作用。

当效果确实改善了，这个改善又很难被量化和展示。「写作风格更自然了」怎么证明？跟谁比？用什么指标？

这形成了一个不对称：出了问题容易被归因到效果，做出改善又难以被看见。 目前这个风险还没有显性化，但如果效果工作的价值持续不可见，资源分配就会倾斜，然后效果就真的追不上了。这是一个自我强化的恶性循环。

一些初步的思考#

问题梳理到这里，我还没有成熟的解法，但有一些方向性的思考。

归因是第一个要解决的问题#

在速度差和问题空间膨胀都难以改变的情况下，降低归因成本可能是杠杆最大的切入点。

Anthropic 的 Agent Eval 文章里提到了 Descript 的做法，给了我一些启发。Descript 做 AI 视频编辑，他们把评估拆成三个层次：

Don’t break things — 功能有没有坏
Do what I asked — 有没有按指令执行
Do it well — 执行质量如何

这个分层看起来简单，但它解决了一个关键问题：让归因有章可循，而不是依赖个人经验。 第一层是 bug，后两层才是效果。如果团队能形成这样的判断习惯——先排除功能是否正常，再讨论效果好不好——归因效率会大幅提升。

更进一步，如果工具层面能自动记录每次请求的执行链路，归因就不再需要人去猜「到底是哪一步出了问题」，看数据就行。把归因能力从人的经验转移到流程和工具上，这是我觉得最值得投入的方向。

功能迭代需要某种形式的「刹车」#

不是说要慢下来，而是需要一种机制，让功能的每次变更对效果的影响是可见的、可控的。

CodeScene 有篇关于 Agentic AI 编码质量的文章，提出了一个观点：在 AI agent 高速迭代的场景下，测试覆盖率应该当回归信号来用，而不是当虚荣指标。当覆盖率下降或行为检查失败，就是漂移的信号。

对应到我们的场景，这意味着需要一组效果基线——核心场景的「正常输出应该长什么样」。每次 Agentic 核心有变更，自动跑一遍，看看有没有搞坏已有效果。不需要覆盖全部场景，先覆盖最高频的就够。关键不是追求完美覆盖，而是建立一个早期预警机制——在效果团队手动发现问题之前，就能知道「这次改动可能有影响」。

同时，效果团队不应该靠自己去发现「底层又变了」。Agentic 核心的每次改动，影响范围应该是可查的、主动推送的。这不是信任问题，而是信息对称问题。

效果优化需要稳定的环境#

有一个很朴素的观察：效果优化本质上是在做实验——改一个变量，观察结果。但如果实验环境本身在不断变化，实验结果就不可信。

这意味着效果优化需要某种形式的「稳定窗口」——一段 Agentic 核心不会变的时间，让效果团队能在一个确定的底盘上做深度调优。具体怎么实现可以有很多方式，核心思想是：不是让功能停下来，而是让效果有一个「底盘不动」的工作环境。

长期看，自动化评估是根本出路#

Descript 的进化路径值得关注——他们从手动评估进化到 LLM-as-judge，用模型对输出做自动评分，定期跟人工校准。这意味着效果的初筛可以交给机器，人只负责深度分析和决策。

如果能走到这一步，效果优化的串行瓶颈就被打破了——不是让「改→等→看→分析」这个循环变快，而是让机器先跑一遍粗筛，人只介入需要判断的部分。

这是一个需要持续投入的方向，短期见效不大，但我觉得它是真正缩小速度差的路径。不是让效果「追上」功能，而是改变效果优化的工作方式。

写在最后#

功能和效果是 AI 产品的双螺旋——缺一不可，但天然存在张力。

用户不会因为你的 Agent 能调用 10 个工具就满意，他们只关心最终拿到手的东西好不好用。但没有功能的持续迭代，效果优化就没有基础——你不可能在一个能力贫瘠的系统上调出好效果。

我目前的判断是：这个矛盾没有银弹，但可以管理。

承认速度差是结构性的，不幻想两条线跑一样快。用工具和流程降低归因成本，用回归测试让功能变更的影响可见，给效果留出稳定的工作环境，长期建设自动化评估能力。

这些思路大部分还在探索阶段，具体落地的效果还有待验证。但至少在问题层面，我觉得已经比较清晰了——先看清矛盾的结构，才能找到管理它的方式。

如果你也在做 Agentic AI 产品，大概率也在面对类似的问题。欢迎交流。

张昊辰 (Astralor) & 霄晗 (🌸) · 2026.03.03

音乐

音乐