后端研发的 AI 突围

作为一名后端研发，开始AI之路已经2年，从Chat QA，到AI Agent的开发，在到Multi-Agent，AI-Native。

今年Q2开始结合保险业务场景，开始全面AI落地。我们的AI Agent的能力已跨过L1（Chatbot），在L2（Reasoner）全面爆发。

我内心是焦虑的，大模型发展的得太快，尤其是在Cursor、JoyCode等产品出来后。我想不止是后端研发，所有的业务研发都会焦虑，因为现在风口不在卷微服务、微前端的架构，全都开始卷AI了。除了AI Infra外，模型开发也一样焦虑吧，单一的Agent也已是过去式。

我的解药是把微服务架构应用到AI上，什么Agent、Planning、RAG、Evaluation、MCP、LLM、Prompt、Memory、MultiModal都安排起来。

保险Eva的RAG架构经历了三个阶段，从基础RAG到Deepsearch，在到混合式检索架构（Graph RAG + DeepSearch + 持续的反思与验证 )

RAG架构

历史：

首先我们回顾下什么是RAG？RAG（Retrieval-Augmented Generation - 检索增强生成）是一种构建基于大模型（LLM）应用的创新技术，通过利用外部知识源为LLM提供相关上下文，从而减少幻觉现象，提高生成内容的准确性和可靠性。最早要追溯到2020年，是由Facebook AI Research（Meta AI）提出的论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》

基础 RAG 架构，朴素的知识管理员

基础 RAG 是所有RAG范式的基础，包括DeepResearch、Agentic RAG、Graph RAG都是在基础RAG上进化出来的。所以我们先熟悉下基础RAG的架构，它包含两个核心组件：生成组件（ETL Pipeline）和检索组件（Retrieval）引入下图为例：

①，②，③，④步骤都是生成组件，它的核心就是文件提取、转换、加载，我们来一步步分析。

文件提取（Extract）：核心文件读取器，常用的有doc、pdf、excel、图片等文件，需要关注对中文支持和Execl单元格的处理。

文件转换（Transform）：文件转换的核心有两个chunk和embedding。

chunk阶段尤为关键是所有RAG范式的核心，就像切蛋糕一样，切之前就已分配好：

常用的分块策略有五种：固定大小分块，语义分块、递归分块，基于文档结构分块，基于大模型分块。

embedding：向量化，向量是为了满足相似性查找的需求，比如表达“今天天气如何？”这类的询问方式有很多，这时我们需要将文本向量化，存入到向量库中：

数据加载（Load）：数据存储，我们用的Elasticsearch8+（ES）进行混合存储，当然也可以其他向量库和关系型数据库来存储。

⑦，③，④，⑤，⑥步骤是检索组件，它分为预处理、检索、后处理

预处理核心是Query：要不要做Query的扩充？扩充多少？带不带原始Query？需不需要对Query转译？预处理偏向于业务处理，根据需求来，相当于基础RAG的一扩展特性，Agentic RAG范式沿用了这一特性。

检索的核心是算法：基础的检索算法“稀疏算法和稠密算法”

稀疏算法可以利用LLM提取关键词，embedding维度设为整个表中所有的关键词的维度，维度上的值是关键词在当前文本块中的TF-IDF值。当用户查询时，系统会将其转化为一个类似的TF-IDF向量，通过计算用户查询向量和所有文本块向量之间的cosine，找到得分最高或最相似的向量块。

稠密算法常用的是BM25，用户输入查询时，系统会使用LLM将查询转化为一个embedding向量，然后在向量数据库中进行cosine计算，找到最相似的向量块。

1. 第③步中用相同的嵌入文本块模型，向量化用户的查询