行业落地分享:讯飞科研助手 SparkRA

学术   2024-10-10 18:53   北京  

本文介绍了一个基于大型语言模型(LLMs)的知识服务系统——Spark Research Assistant(SparkRA),它是为了提高科学文献服务的性能而开发的。这个系统建立在iFLYTEK Spark LLM(一个开源的13B参数的大型语言模型)之上,通过在科学文献上的预训练和监督微调。

https://arxiv.org/pdf/2408.06574

SparkRA系统提供在线访问,并具备三个主要功能:文献调查、论文阅读和学术写作。截至2024年7月30日,SparkRA已经拥有超过50,000名注册用户,总使用次数超过130万次。

unsetunset关键步骤和特点unsetunset

如图2所示,系统通过自然语言理解(NLU)、查询、响应生成(RAG)、论文答案、翻译、润色等组件,以及与文献数据库的交互,来实现其功能。

基础模型

  • 选择基础模型:选择了iFLYTEK Spark LLM作为构建科学文献LLM的基础模型。这个模型在多个公共基准测试中名列前茅,显示出其优越性。

持续预训练

  • 预训练的必要性:尽管Spark LLM在语言理解和文本生成方面表现出色,但在没有针对科学领域的特定训练的情况下,可能难以直接提供对学术查询的准确响应。
  • 数据准备:为了增强基础LLM,收集了大量的高质量数据,包括各种学术文献,如论文和专利。特别从arXiv等公开可访问的网站收集了大量的学术论文。
  • PDF解析:使用科大讯飞开发的高级PDF解析工具将PDF转换为文本,同时去除无关元素。
  • 预训练:在科学文献语料库上进行持续预训练,使用下一个词预测任务,以增强模型处理和生成科学文献的能力。

监督微调

  • 监督微调(SFT)的目的:使用标记示例的精心策划的数据集进一步训练预训练模型,以提高其对特定任务或领域的准确性和相关性。
  • 数据准备:构建用于SFT的数据集,每个实例由指令、输入和输出三个元素组成。使用自指导(Self-instruct)和人工编写的双重方法制定指令。
  • 训练:完成SFT数据集的构建后,开始对科学文献LLM进行监督微调。这些经过专家精心制定的实例作为SFT的标记数据,提高了LLM回答查询的能力。

unsetunsetSparkRA 功能介绍unsetunset

文献调查

  • 学术ChatBot:通过交互式自然语言对话,帮助用户加深对特定研究领域和学者的理解。

    • 领域调查:用户可以轻松获取特定研究领域的论文和总结。
    • 学者调查:这个功能可以输出输入学者的论文,并将论文划分到不同的研究领域。
  • 主题搜索引擎:搜索界面支持中英文的研究主题查询。接收到特定主题后,SparkRA从广泛的学术库中检索相关论文,并提供内容的简洁总结。
    • 查询改写:使用科学文献LLM将用户的查询改写为更适合检索的格式,以显著提高系统定位所需文献的能力。
    • 精确检索:改写后的查询通过自然语言理解技术进行信息提取,如命名实体识别(NER),提取信息包括学者、机构、日期、领域和关键词等。基于提取的内容,调用相应的搜索插件接口以获得精确的搜索结果。
    • 文献总结:基于检索结果,科学文献LLM综合发现,包括出版物年份的分布、文献流行趋势、最近的焦点主题和潜在的发展方向。
  • 综述生成:这个功能可以根据选定的论文生成报告,最多30篇。生成的报告有助于快速理解特定领域或个人作者的大量文献。在这个功能中,我们利用了LLM的聚类能力和归纳总结能力。通过聚类数十篇文献论文,模型构建了综述的引言、正文和结论,包括制定相关标题。然后,模型展示了其强大的归纳推理和总结能力。它还能够在分析文本中添加超链接,作为引用,方便在综述结束时进行参考验证,并允许用户验证。

论文阅读

  • 学术ChatBot:通过自然语言交互增强论文理解。问题分为两类:论文内的问题,SciLit-LLM使用输入的论文单独回答;论文外的问题,需要搜索引擎插件检索相关信息。对于后者,通过使用SciLit-LLM的检索增强生成来生成答案。
  • 多文档比较:允许比较两到五篇论文。对于每篇选定的论文,SparkRA分别提供摘要和贡献。它还生成一个比较分析表,突出每篇论文提出的方法和优势。SparkRA能够识别并输出选定论文之间的相似之处和差异。

学术写作

  • 论文润色:这个功能用于协助学者和学生润色学术论文草稿。我们基于大量写得很好的学术论文构建了一个需要润色的文本语料库,使用少量学习(few-shot learning)和思维链(chain-of-thought, COT)提示方法,然后通过监督学习进行指令微调。
  • 学术翻译:为了准确翻译特定领域的术语,我们实施了一种动态感知提示方法,以指导模型完成翻译任务。根据用户的输入提示,我们从知识库中的术语翻译词典中获得带有专业术语翻译的提示,然后将这些提示输入到大型语言模型中。

unsetunsetSparkRA性能对比unsetunset

实验中使用的基线模型包括:

  • Llama:由Meta开发的大规模语言模型,比较了三个版本:Llama2-7B、Llama2-13B和Llama3-8B。
  • **ChatGPT (GPT-3.5)**:由OpenAI开发的人工智能领域的大规模语言模型。
  • GPT-4:作为基线模型,其在一系列自然语言处理(NLP)任务中表现优异。

性能评估使用1到5的量表进行平均意见得分(MOS),每个任务由五名以上的评估者进行评估。对于机器翻译任务,还使用了BLEU指标进行模型评估。

为了评估论文阅读性能,使用了以下两个指标:

  • 事实性(Factuality):评估系统对事实信息响应的准确性。
  • 信息量(Informativeness):评估系统响应的完整性。

对于论文润色和学术翻译性能的评估,使用了以下三个标准:

  • 流畅性(Fluency):评估模型输出的语言连贯性。
  • 忠实度(Fidelity):衡量内容对原文的忠实度。
  • 学术性(Academic):评估对学术语言标准的遵循程度。

论文阅读任务的结果如表1所示。SparkRA在所有指标上都优于其他模型。在事实性方面得分最高,为4.68,超过了最接近的竞争对手GPT-4(得分4.67)。在信息量方面,SparkRA得分4.45,再次领先于GPT-4(得分4.43)。总体而言,SparkRA的平均得分为4.57,显示出比其他模型如Llama3-8B更优越的性能。这些结果强调了SparkRA在产生事实准确和信息丰富的文本方面的有效性,确立了其作为论文阅读任务中的最先进模型的地位。

表2显示了论文润色任务的结果。尽管Llama2-13B生成的文本连贯性较好,但在忠实度方面存在不足。尽管Llama3-8B在任务中表现良好,但SparkRA模型在科学文献上进行了预训练,并经过130亿参数的微调,显示出更大的改进。SparkRA在所有评估指标上都取得了与广泛使用的LLMs如GPT-3.5和GPT-4相比的最先进结果,特别是在学术相关性方面表现突出。

表3展示了学术翻译结果。SparkRA在忠实度得分最高(4.91),学术质量排名第二(4.75),展现了其在保持意义和产生上下文适当翻译方面的优越能力。此外,SparkRA的BLEU得分为0.198,反映了其在人工和自动评估中的稳健性。尽管与GPT-4相比,人类评估得分较低,但SparkRA的130亿参数大小提供了灵活性、易训练性和成本效益。

 学习大模型 & 讨论Kaggle  #


△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 36000+来自竞赛爱好者一起交流~

Coggle数据科学
Coggle全称Communication For Kaggle,专注数据科学领域竞赛相关资讯分享。
 最新文章