.0
.02
查询管理:接收到查询后,模型优化查询以提升搜索效率; 信息检索:通过算法从外部数据源中寻找相关文档; 响应生成:利用检索到的信息,生成更为精准的答案。
.03
.04
总结长文档 维持长对话的连贯性 处理带有复杂上下文的内容
.05
降低计算成本:通过在简单查询时使用RAG,减少了长上下文LLM的使用频率。 自动调节复杂度:根据查询的难易程度,自动选择合适的解决方案。
何时使用RAG:当查询内容超出模型的上下文窗口且需要外部数据支持时,RAG能够以较低的计算成本完成任务。 何时使用长上下文LLM:在对长文本的总结、延展对话或复杂上下文要求较高时,长上下文LLM是最佳选择。 何时使用自路由(Self-Route):在对成本和性能要求均较高的场景下,自路由是一种兼具效率与效果的平衡解决方案。
.06
参考:
https://www.linkedin.com/posts/sushant-thakur-1a6279265_evolution-of-rag-long-context-llms-to-agentic-activity-7253845332827000832-q1vD