RAG、大模型、Gemini与知识库

文摘 2024-03-17 21:55 上海

大模型基于有限的数据进行训练，具有很大的局限性，特别是对于有时效性的数据更是难于学习。此外，大模型本质上是条件概率模型，在生成过程中存在不可避免的幻觉。而RAG是解决这些问题的一套有效方案。

RAG模型，又称“检索增强生成”，是一种利用外部来源获取的事实来增强生成式人工智能大模型准确性和可靠性的技术。它独特地结合了检索和生成两个环节。首先，RAG利用BERT等模型将问题和知识库内容转换为向量，并基于相似性找到top-k的相关文档。接着，这些文档被提供给基于Transformer的生成式大模型，进而生成答案。这种方法不仅提高了答案的质量，更重要的是，它也为模型的输出提供了可解释性。因此，RAG能够有效解决幻觉、时效性差、专业领域知识不足等阻碍大模型应用的核心问题，已被证明是一种解决大模型幻觉的有效方法。

基本流程如下，其中包含两个主要的流程，数据准备和数据检索，前者是事先完成的流程。

RAG的结构为特定行业大型语言模型的构建带来了巨大潜力。例如，在AI聊天机器人中，RAG技术使得机器人能够为特定领域如医疗、法律和金融提供更准确和有针对性的答案。

RAG技术已为语言模型领域打开了新的大门，其面临的挑战是多方面的。处理超长文本时如何保留其逻辑与语义、确保高质量的检索结果，以及依赖于知识库的质量都是待克服的难题。其中，知识库的建设和维护尤为关键。未来的挑战还包括如何增强模型对复杂查询的鲁棒性和可解释性，确保其在各种应用场景中都能稳定表现。

由于Gemini在处理长上下文方面表现出色，甚至有人高喊“RAG已死”。据爱丁堡大学博士符尧在评价Gemini 1.5 Pro的帖子中写道：“一个拥有1000万token上下文窗口的大模型击败了RAG。但也有很多人认为并非如此，RAG技术的发展才刚刚起步，并且随着大型模型在处理长上下文和遵循指令方面的能力不断提升，RAG技术将持续发展迭代。

更多阅读...

《人工智能安全》

《Python爬虫大数据采集与挖掘》

IntBigData

互联网大数据处理技术与应用

互联网大数据与安全相关的各种技术，包括爬虫采集提取、大数据语义、挖掘算法、大数据安全、人工智能安全、相关技术平台以及各种应用。同时也会分享相关技术研究和教学的心得体会。

最新文章

如何高薪？基于应届生薪资数据采集与分析

我的美餐（诗三首）

计算机相关专业中那些形象有趣的词汇

2024《网络数据安全管理条例》来了，对爬虫设计运营有什么影响？

OpenAI o1来了，值得关注的三个显著变化！

人工智能安全课程讲什么？来看看新版PPT！

从大数据的角度看ChatGPT

为什么现在大多数的大模型都是decoder-only？

口令中竟包含哪些隐私信息，需要在破解中采取隐私保护技术？

程序员们，老板让你抓高德地图数据，你该怎么办？辞职吗？

人工智能安全课程讲什么？来看看新版PPT！

“脆皮大学生”的数据分析与启示

维特根斯坦对【AI未来】的16条启示

全民国家安全教育日|三句话聊安全

郑维民|算力的互联与互通

RAG、大模型、Gemini与知识库

思考|为什么大模型看起来很全能？

奇怪了，上证指数最近走势和这个公众号(IntBigData)关注人数变化的相关性达0.8

网络伦理和社会伦理双重标准分析

OpenAI奥特曼被解雇的背后：人工智能安全与商业赢利之争

CESI：知识图谱与大模型融合实践研究报告

基于大模型的可解释股票收益序列预测

和AI一起创作中秋的诗与图

基于大模型的金融风险预测：画像微调

金融风控大模型：从规则对抗到模型对抗

AlphaTensor的矩阵乘法算法自动化解读

人工智能安全（PPT、Python实例、概要视频）

智能时代必读的《人工智能安全》

爬虫案例: 网络安全顶刊（TIFS/TDSC）十年的热点变化

数字经济的核心技术：数据定价

MIT Technology Review 2022年“全球十大突破性技术”之（口令、权益证明与AI合成数据）解读

元宇宙里还有爬虫吗？

数据分析: 茅台视角下的半导体-国产软件-大数据-网络安全上市公司

自动编码器：DAE、VAE、CoAE、Adversarial AE ...

论文导读：自然语言处理中的后门攻击

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉