原型不等于产品能力
RAG 的演示通常很快:切文档、做向量、召回片段、交给模型回答。但上线后问题会集中出现:答非所问、引用不准、召回遗漏、上下文过长。
这些问题多数不是模型单点能解决的。
文档切分决定上限
切得太碎会丢失上下文,切得太大又会引入噪声。更好的方式是结合标题层级、段落语义和业务对象来切。
召回后还要排序
向量召回只是第一步。很多场景需要关键词召回、重排序、权限过滤和时间过滤一起工作。
引用要可追溯
如果回答基于知识库,最好展示来源。引用不仅提升可信度,也能帮助用户判断答案是否适用于当前问题。
小结
RAG 的关键不是把文档塞进模型,而是构建一条可靠的信息检索和证据组织链路。