先定义什么叫好
AI 功能最容易陷入“感觉还不错”的判断。上线前需要先定义评估维度,比如准确性、完整性、格式稳定性、安全性和响应速度。
没有清晰标准,就无法判断一次改动是优化还是退步。
建立小而真实的样本集
样本集不需要一开始很大,但要覆盖真实用户问题、边界情况和高风险场景。
每次 Prompt 改动都要回归
Prompt、检索策略、模型版本都会影响结果。只要改动进入主流程,就应该跑一遍核心样本。
线上反馈要回流
用户反馈、人工标注和失败日志应该进入下一轮样本集。评估不是上线前的一次动作,而是持续循环。
小结
AI 产品的稳定性来自评估闭环。能被观察、比较和回归的功能,才有机会持续变好。