RAG检索优化四层框架:索引层、查询层、召回层、重排序层
本文将RAG检索优化拆解为四个层次:索引层决定知识怎么存,查询层决定问题怎么转换,召回层决定从哪些路径去找,重排序层决定哪些内容最终进入Prompt。围绕这四层给出方法论、参数建议、评估指标与线上排障路径,并结合Spring AI + Milvus提供可落地实践。
RAG Embedding详解:模型选型、维度权衡与评估调优
本文聚焦RAG中的Embedding环节,系统讲解语义向量化的核心原理、相似度度量方法、主流模型选型思路、向量维度与性能成本权衡,并结合Spring AI给出可落地实现与评估方法,帮助你在面试和工程实践中把“检索质量”讲清、做稳、持续优化。
RAG文档切割(Chunking)策略详解:从固定切分到语义切分
本文聚焦RAG系统中的关键环节——文档切割(Chunking)。从切割目标、常见策略、参数设计到评估与排障,系统讲清“为什么切、怎么切、如何验证切得好”,并以Spring AI为主给出可落地实现思路,帮助你在面试与工程实践中都能稳住这一高频考点。
RAG核心原理与工程落地详解:从Naive RAG到Agentic RAG
本文系统梳理RAG(Retrieval-Augmented Generation)的核心原理与工程实践,覆盖Naive RAG、Advanced RAG、Agentic RAG三种范式,对检索优化、评估指标和常见故障排查给出可落地方法,并结合Spring AI与LangChain4j提供Java生态实现思路,帮助你在面试和实战中都能讲清、做对、调优。
CoT、ToT 与 GoT:大模型推理范式进化详解
本文详细介绍了大模型推理范式的三大阶段:Chain of Thought(CoT)、Tree of Thought(ToT)和Graph of Thought(GoT)。通过对比分析,阐述了它们在推理能力、适用场景和工程实现上的差异,帮助读者理解如何选择合适的推理范式来提升Agent的性能。
Agent记忆压缩方法
Agent记忆压缩方法
目录
一、Agent记忆压缩的本质
二、工业级Agent记忆分层架构
三、记忆压缩的五种核心方法
四、Multi-Agent记忆压缩设计
五、面试级总结
一、Agent记忆压缩的本质
1.1 核心定义
Agent记忆压缩是在有限上下文窗口(context window)约束下,实现信息表达效率最大化,同时尽可能保留关键语义与推理能力。
1.2 关键矛盾
上下文窗口有限 📏
信息持续增长 📈
推理依赖历史信息 🧩
因此需要在以下三者之间做权衡:
信息完整性 🧠
token成本 💰
检索与推理效率 ⚡
二、工业级Agent记忆分层架构
2.1 三层记忆体系
id1短期记忆(ST) → 中期记忆(MT) → 长期记忆(LT)
🟡 短期记忆:当前对话窗口(原始信息)
🔵 中期记忆:摘要后的历史信息
🟣 长期记忆:向量数据库中的语义记忆
2.2 Memory Controller(核心大脑)
Memory Controller 是整个系统的调度中心,负责:
🎯 选择需要注入Prompt的记忆
🧹 控制压缩策略
🔍 决定检索范围
...
Agent记忆机制
本文主要介绍了Agent的记忆机制,包括感知记忆、短期记忆、长期记忆和实体记忆四大类,以及它们在不同Agent范式中的作用和工程实现中的设计要点。
Single-Agent与Multi-Agent
本文主要介绍了Single-Agent和Multi-Agent两种Agent系统的核心区别、适用场景以及设计差异,并分析了一个常见的误区,最后给出了面试背诵版总结。
Agent架构详解
本文从原理到工程实现,全面解析了Agent的核心架构,包括六大核心组件、工作流程以及面试常见问题。
Agent三大范式详解:ReAct、Plan-and-Execute、Reflection
本文主要介绍了Agent开发常见的三种范式:ReAct、Plan-and-Execute、Reflection,并对每种范式的核心思想、优缺点以及适用场景进行了详细分析。