返回文章列表
2 分钟阅读

RAG 系统从原型到可用的几个坑

RAG 原型很容易搭出来,但真正可用需要处理切分、召回、排序、引用和评估。

原型不等于产品能力

RAG 的演示通常很快:切文档、做向量、召回片段、交给模型回答。但上线后问题会集中出现:答非所问、引用不准、召回遗漏、上下文过长。

这些问题多数不是模型单点能解决的。

文档切分决定上限

切得太碎会丢失上下文,切得太大又会引入噪声。更好的方式是结合标题层级、段落语义和业务对象来切。

召回后还要排序

向量召回只是第一步。很多场景需要关键词召回、重排序、权限过滤和时间过滤一起工作。

引用要可追溯

如果回答基于知识库,最好展示来源。引用不仅提升可信度,也能帮助用户判断答案是否适用于当前问题。

小结

RAG 的关键不是把文档塞进模型,而是构建一条可靠的信息检索和证据组织链路。