基于RAG开发大语言模型

教育 2025-01-18 05:53 北京

当前，人工智能技术发展迅猛，无疑成为新质生产力中最为夺目的黑马。特别是OpenAI推出ChatGPT以来，人工智能在大数据、大算力和大算法方面实现了完美结合，真正让普通人感受到人工智能的“神奇”。

随着越来越多的通用大语言模型（LLM）的出现和发展，如何利用LLM能力实现人工智能应用的落地成为业界努力的方向。

高校的信息化建设有着大量的应用建设需求，基于 LLM的能力和学校信息化建设的结合也是高校智慧校园建设的探索。

本文主要介绍利用RAG（Retrieval Augmented Generation）基于LLM通用大语言模型开发信息化应用的探索。为了既利用LLM的能力，又能够把一些最新的或者内部的知识作用于LLM，使用 Retrieval Augmented Generation（检索增项的生成模型简称RAG）是解决办法之一。

顾名思义，RAG就是通过检索的方式来增强LLM模型的能力。用一个形象的比喻就是RAG相当于是LLM在做一次开卷考试，当遇到不会做的题目的时候就查看已有的答案，然后根据答案再来回答问题。那么这里已有的答案就是提前准备好的最新或者内部的知识文件。

总结来说，RAG就是一种基于深度学习和自然语言处理的技术手段。它可以将检索和生成两个任务有机结合起来，实现了更加智能的信息检索。与传统的检索技术相比，RAG能够更加准确和个性化地搜索结果，同时生成与问题相关的回答或解释，提高了信息检索的效率和准确性。

LLM简介

大模型，全称“大语言模型”，英文“Large Language Model”，缩写LLM。大语言模型具备对自然语言进行理解、生成和处理的能力，并在各类自然语言处理任务中发挥作用，如文本摘要、机器翻译、问答系统等。本文并不对 LLM做过多的介绍，解释一下对话产品和大模型的区别，大模型前面做了简单介绍，而对话产品则是利用大模型能力开发出来提供给用户使用的服务或软件。表1列出了中国和美国部分对话产品和大语言模型。

在LLM应用过程存在的一些局限性问题。

一是LLM知识的实时性问题。目前很多大语言模型训练学习的知识不是实时的，典型的案例就是ChatGPT等。那么如果涉及到一些较新的知识点和事件，LLM将无法准确做出回应。

二是LLM无法知道相关行业或单位内部的知识。例如学校或者行业内部的一些管理规定，LLM是不知道的。那么在使用LLM的时候，相关问题也是无法回答的。

表1 主要的大模型和对话产品

利用RAG搭建智能问答系统

在高校的信息化建设中，智能问答系统是常见的应用系统，用于解答师生提出相关的问题，传统的做法是通过关键字匹配知识库的方式来实现。当师生提出的问题刚好有关键字能匹配上则系统能够正确回答问题；如果师生提出的问题换了个意思相近的词语导致无法匹配关键字，系统则可能无法做出正确的回答。造成该问题的原因是智能问答系统没有真正理解师生提出的问题语义，利用LLM和RAG则可以很好地解决这个问题。

搭建基于LLM的RAG系统主要有四个步骤。

第一步，文档加载及切片。首先我们需要对知识库文档进行切片处理，按照一定的大小进行切片，因为无论是关键字检索还是向量检索都是对文档切片进行的。目前通过很多成熟的软件可以非常方便地完成此项工作。

第二步，文本向量化。文本向量（Text Embeddings）就是将文本转化成一组浮点数组，整个数组则可以对应多维空间的点，即文本向量。在这里做文本向量化的目的是向量化后的文本可以通过相应的数学工具来计算文本之间的关系即向量相似度计算。文本向量化这个工作一般直接使用LLM提供的向量工具来完成。在实际开发过程中使用的就是OpenAI公司的“text-embedding-ada-002”这个工具。

第三步，文档导入检索引擎或向量数据库。我们将切片后的文档导入到相应的检索引擎中用于文档检索。如果导入的检索引擎为elasticsearch则实现的是关键字检索，如果导入的是向量数据库则可以实现向量检索。在这里我们实现RAG功能就是使用的向量数据库检索。在这里我们需要注意的是使用向量数据库是为了对向量数据进行快速检索，向量数据库并不能取代传统数据库的功能；向量数据库本身并不会产生向量数据，向量数据是由向量化工具生成的。

第四步，封装检索接口。 完成前面的工作后，就可以利用LLM接口和Prompt模板完成最终问题回答的工作了。在实际工作中，使用的是ChatGPT3.5提供的API接口。实际的调用流程如图1所示。

图1 RAG工作流程

关键技术点

文本向量的计算。 如图2所示，通过向量化工具可以得到文本的向量，那么如何计算文本的相似度及向量之间的距离。构建相关（正例）与不相关（负例）的句子对比样本和通过训练双塔式模型，让正例间的距离小，负例间的距离大，这里用到的是欧式距离和余弦距离的计算方式。

图2 文本向量化

向量数据库的选择。实现智能问答系统的效率好坏的关键是向量数据库的检索能力，目前业界有着非常多的向量数据库的选择，具体见表2。

表2 主流向量数据库功能对比

RAG的不足

RAG模型结合了检索模型和生成模型的优势，能基于更广泛的知识库进行生成文档，从而提高生成结果的准确性和信息丰富程度，但依然存在着一些不足。

首先，依赖外部数据库：RAG的运行性能高度依赖于外部知识库的质量和覆盖范围。如果知识库的信息不全或过时，则很有可能影响生成结果的准确性。

其次，技术实施难度：在具体运用RAG模型开发应用的时候，需要整合检索和生成模型特别是向量数据库的部署，这可能需要较高的技术水平和计算资源。

最后，向量检索的不足：有时候会存在最适合的答案在向量检索的结果中不是排名最前，这时可以采用通过召回和重排打分的方式解决；当遇到文档中有很长的专有名词的时候，向量检索可能会不准确，这时可以采用混合检索即关键字检索和向量检索混合使用的方式来解决。

随着计算能力和AI技术的不断提高，LLM的规模和性能将继续增强，未来的应用也将更加广泛，将来会为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。2024年全国将会有一批基于LLM的应用在相关行业中实现落地，那么如何将LLM与高校信息化建设相结合，也需要我们不断去发展和探索。

来源：《中国教育网络》2024年9月刊

作者：李俊峰（江西中医药大学网络与信息技术中心）

责编：陈荣

投稿或合作，请联系：eduinfo@cernet.com

更多资讯

收藏｜《室联网元宇宙de前世与今生》喧嚣时代的持之以恒...室联未来，日新无界！

【MOOC透视】在第300级台阶上的反思与展望：一个可释放数字化学习效能的“互联网÷”时代的正在由室联网元宇宙进行重构...

【MOOC透视】在第200级台阶上的反思与展望

【MOOC透视】在第100级台阶上的反思与展望

【MOOC透视】事当做后方知难：终于完成了一件极其考验耐心的工作！

《在线学习》杂志：教育信息化应走产业互联网之路

了解在线教育，
把握MOOC国际发展前沿，请关注：
微信公号：openonline
公号昵称：MOOC

MOOC

“室联网”理论研究和实践服务者,用室联网将各种学习场联动起来! 室联网光课堂，不仅传授知识，更是培育生长！

最新文章

生成式人工智能赋能学习分析：价值内涵、实践框架及发展路向

吴军其等｜AIGC支持下“双师课堂”协作学习范式构建及应用

以生成式人工智能重塑智慧学习环境：从要素改进到生态重构

基于标准的国家智慧教育平台调优：国际方位与发展路径

“五育融合”抑或“课程整合”——关于当前教育界对新旧“五育”误读的哲学反思

同一性到复数性：智能时代教师发展的行动路向

李晔周娜李辉丨由科层封闭到开源开放：数智时代大学治理选择

俞国良张哲丨数字技术赋能学生心理危机的应对

精神无产阶级化：智能化教育技术的负向反思

张先璐｜审美的“危机”：大学生审美观问题的再省思

冷静等｜生成式人工智能赋能批判性思维测评——基于ChatGPT的应用实验

以技术共生贯通价值共识——把握智能技术红利，推动价值观教育升级

教育国际前沿第12期*：欧盟发布欧洲数字技能证书（EDSC）可行性报告等

袁传明 | 英国研究型大学参与教师教育的现状、历史经验及启示

生成式人工智能何以构成教育奇点*——从深度学习到深度理解

基于RAG开发大语言模型

英发布《AI机会行动计划》，提出到2030年增加数万名AI人才

崔允漷等 | 中国基础教育课程改革学术话语体系的自主建构

乡村学生专递课堂“强交互”学习理论模型研究

让潜能变成现实：以数字化赋能基础教育高质量发展的逻辑理路与推进策略

沈科杰等｜游戏化学习方式如何影响知识保留——基于38项实验和准实验研究的元分析

李云星 | 面向数智时代的教科书概念演进及其重构

【教学研究】吕媛媛，刘振天 | 教育评价改革视角下高校教师回归教学之本的多维影响和对策——基于对39篇文献的系统综述

王天健　杨　创｜“中国教育学”概念的三重意涵：“在中国”“中国化”与“中国创”

学习与发展的紧密结合——UNESCO“农村社区学习中心能力建设项目”20年

人机共创的教学特征：认知发展与角色交互研究

国际前沿｜OECD发布数学课程变革的国际比较报告*

UNESCO发布社会情感学习政策指南报告*

数字领地的兴起与教育学的可能世界

什么样的聊天机器人更能促进学习？——基于 60 项实验与准实验研究的元分析

新质人才培养：核心理念与实践路径

成人学习和教育发展的全球图景及对我国未来发展策略的思考

生成式人工智能对学习分析研究的影响：现状与前瞻——2024年学习分析与知识国际会议述评

人工智能教育大模型赋能综合素质评价：理念、模型与展望

UNESCO发布社会情感学习政策指南报告*

指尖上的学术：移动互联网教育类知识传播的实证研究

“技术赋能”还是“工具依赖”：生成式人工智能对研究生科研创新力的影响研究

智能技术时代情感计算教育应用的隐忧、优化和未来走向

从信息到生态：融入 AIGC 的反馈素养与教学意涵

陈国安 | 教育内卷的反思与破解：教授校长十年的实践探索

【民办与职业教育管理】梁晨：面向中国式现代化：职业教育类型地位确立的逻辑与路向

谢娟｜人工智能与教育融合创新何以“伦理先行”——兼论生成式人工智能教育应用的伦理路径

美国高校在线学习需求持续增长的战略转变——CHLOE 9 报告的要点与反思

赵悦｜如何监管生成式人工智能在科学研究中的应用：风险与策略——基于欧盟和美国人工智能政策的分析

王鑫强,黄旭,毛情红 | 青少年电子产品使用行为异化测评、检出率及干预建议——超越成瘾病理学模式的新视角

王一岩等｜生成式人工智能赋能教育信息科学与技术研究：新机遇、新趋势、新议题

董标 | 教师概念的发明（上）——长时段、大空间的教育学基础知识勘探学试验

董标 | 教师概念的发明（下）——长时段、大空间的教育学基础知识勘探学试验

认知增强 AI 与教育共生：未来教育新生态

生成式人工智能教育应用治理：案例与反思

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

基于RAG开发大语言模型

收藏｜《室联网元宇宙de前世与今生》喧嚣时代的持之以恒...室联未来，日新无界！

王涛：《现代教育报》打造未来教育教学的“蝶变场”

【学习强国】室联网“智慧教室”：打造全新教育生态

中国教育报：“室联网”教育新概念融入智能教室

王涛：从黑板时代到超级屏时代的教育推手

教育信息化规划建设中的“伪需求”辨析系列文章汇编

教育技术发展的新趋势：学习环境设计与室联网的崛起

【MOOC透视】基于室联网场景回归的混合教学模式走在国际前列了……

【MOOC透视】“室联网”已不再是个单纯的理论概念

【MOOC透视】室联网，也许是你与教育的新联接方式

【MOOC透视】首次亮相：今年，这个词儿可能会叫响……

【每日半刻™】隆重上线：古朴又全新的高效学习、幸福生活模式，【每日半刻™】在线写心！

【每日半刻™】之党建篇：传统又创新的党员学习模式，【每日半刻™】邀您在线写心，一起守住初心！