RAG 系统从原型到可用的几个坑

RAG 原型很容易搭出来，但真正可用需要处理切分、召回、排序、引用和评估。

长Wyman2026 · 04 · 152 分钟阅读AI RAG 后端

原型不等于产品能力

RAG 的演示通常很快：切文档、做向量、召回片段、交给模型回答。但上线后问题会集中出现：答非所问、引用不准、召回遗漏、上下文过长。

这些问题多数不是模型单点能解决的。

切得太碎会丢失上下文，切得太大又会引入噪声。更好的方式是结合标题层级、段落语义和业务对象来切。

向量召回只是第一步。很多场景需要关键词召回、重排序、权限过滤和时间过滤一起工作。

如果回答基于知识库，最好展示来源。引用不仅提升可信度，也能帮助用户判断答案是否适用于当前问题。

RAG 的关键不是把文档塞进模型，而是构建一条可靠的信息检索和证据组织链路。

长

Wyman · 长空

前端与全栈工程师，写关于系统、边界与 AI 工程的手记。相信把复杂的事讲清楚，本身就是一种工程能力。