手机也能玩RAG？谷歌EdgeRAG做到了~

科技 2025-01-08 08:03 北京

边缘设备（如手机）因内存和计算能力有限，运行RAG面临巨大挑战；

例如：一个存储了523万条记录的向量数据库的索引大小为18.5 GB，而手机通常只有4-12 GB的主内存。

RAG的Pipeline

因此，谷歌等提出一种EdgeRAG系统：通过选择性存储，不是所有向量都存储，只有在检索过程中真正需要的嵌入向量才会被生成和存储，此外，还采用自适应缓存策略，以减少冗余计算并进一步优化延迟。

EdgeRAG索引过程

数据预处理与聚类：文本语料库被分割成较小的数据块，为每个数据块生成嵌入向量，然后进行聚类。聚类中心被存储在第一级索引中.
嵌入向量的存储决策：对于每个聚类中的数据块，计算生成嵌入向量的成本。如果成本超过预定义的服务级别目标（SLO），则存储整个数据块的嵌入向量；否则，丢弃嵌入向量以优化存储.

EdgeRAG检索过程

查找最相似的聚类中心：首先识别与查询嵌入向量最相似的聚类中心.
嵌入向量的获取：检查是否已预计算并存储了该聚类的嵌入向量。如果存在，则加载这些嵌入向量；如果不存在，则查找嵌入缓存。如果缓存命中，则加载缓存中的嵌入向量；如果缓存未命中，则重新生成嵌入向量并更新缓存.
数据块的检索：查找最接近的匹配嵌入向量，并检索相关的数据块.

EdgeRAG插入与删除

插入过程：新添加的数据块会被分配到最近的聚类中心，并更新相应的索引。如果更新后的聚类嵌入向量的生成成本超过SLO，则重新生成并存储嵌入向量.
删除过程：首先定位相应的聚类，然后移除相关嵌入向量，并更新聚类索引。如果生成嵌入向量的成本低于SLO，则可以删除整个聚类的嵌入向量.

平台与数据集：在Nvidia Jetson Orin Nano平台上进行评估，使用了来自BEIR基准测试套件的六个数据集.

EdgeRAG在时间到第一个标记（TTFT）延迟方面比基线IVF索引平均快1.8倍，对于大型数据集则快3.82倍。同时，EdgeRAG在保持与平面索引基线相似的生成质量的同时（仅有 5% 以内的差异），允许所有评估的数据集适应内存并避免内存抖动.

https://arxiv.org/pdf/2412.21023EdgeRAG: Online-Indexed RAG for Edge Devices

来源 | PaperAgent

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

终于弄懂了《Transformer入门到精通》高清pdf分享

困在“第一学历”里的博士

所有大模型领域学习者必读论文，没有之一！由深度学习三巨头联合撰写！

深度｜Scale AI 95后华裔创始人：AI Agent的分水岭在于产品设计而非技术本身

AMD发布科研Agent，论文自动化评分趋近顶会NeurIPS水平~

微软 Phi-4：小模型的大智慧——技术详解及简单测评

最新中文版大模型书籍《大语言模型从理论到实践》免费pdf分享

GAN归来：模型大幅简化，训练更稳定，逆袭扩散模型，AI社区疯传

DeepSeek创始人专访：中国的AI不可能永远跟随，需要有人站到技术的前沿

Phi-4技术报告解读及简单测评

亲妹控告 Sam Altman 性虐待：将其告上法庭

[送5本]《大模型制造业的构建与实践》制造业人必要破除的AI大模型误区

2024 年度总结 LLM System Research：过去半年的科研心路历程

央国企！入局AI大模型（附66家名单）

让7B千问模型超越o1，微软rStar-Math惊艳登场，网友盛赞

下载10W+深度学习4大神书《深度学习科学》免费pdf下载

叹惜！年仅40岁，985教授离世一年后，成果登上Nature

下载10W+爆火神书《基于LangChain进行生成式AI开发》免费pdf分享

微软Phi-4开源，14B的王~

大厂新年第一裁，微软全部门危！内部员工：客户宁愿跳槽也不想与我们 IT 部门打交道

必看！大模型训练圣经《从头训练大模型》免费PDF分享

突发！长鑫存储、长江存储、中芯等被列入黑名单！

最新中文版大模型书籍《大语言模型从理论到实践》免费pdf分享

深度｜谷歌前CEO：即使美国赢得比赛第一阶段，也有充分理由相信中国最终会赢得这场竞赛，他们能够更快地在大规模产品中采纳技术

deepseek v3训推优化的剖析

英伟达「世界基础模型」诞生，引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

学术顶会变成了“大厂”顶会?

所有大模型领域学习者必读论文，没有之一！由深度学习三巨头联合撰写！

AAAI 2025论文中了：没算法没实验，全靠idea思路好...

Github32k收藏，2025最新《Transformer入门到精通》高清pdf分享

老黄亮出全球最小超算，大模型在家跑！5090惊天问世，惊爆价16499

大语言模型中的查询优化技术：从基础到前沿的全景解析

手机也能玩RAG？谷歌EdgeRAG做到了~

Yann LeCun力荐！Facebook、Meta AI大佬编写《深度学习原理》经典教程书！

痛心！无人机领域顶尖专家张代兵博士去世，年仅47岁！知情人曝光原因…

终于弄懂了《Transformer入门到精通》高清pdf分享

刚刚，奥特曼更新博客：创业第十年，我的反思

TradingAgents：用多Agent框架炒股，多赚6个点收益

计算DeepSeekV3训练的MFU

神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

讣告：沉痛悼念博士生杜梅同学

必看！大模型训练圣经《从头训练大模型》免费PDF分享

DeepSeek-V3技术报告完整解读

LLM中的Attention实现及优化

在字节干大模型，是一种怎样的体验?

突发！SK海力士裁员！赔偿1年薪水！

[送5本]周志华“西瓜书”《机器学习》官方配套习题集

Infra视角下的DeepSeek-V3，到底有多强？

2025，AI Agents爆发元年~

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉