背景
通用大模型的尴尬
垂直大模型产品
垂直大模型基本套路
Continue PreTraining: 一般垂直大模型是基于通用大模型进行二次的开发。为了给模型注入领域知识,就需要用领域内的语料进行继续的预训练。 SFT: 通过SFT可以激发大模型理解领域内各种问题并进行回答的能力(在有召回知识的基础上) RLHF: 通过RLHF可以让大模型的回答对齐人们的偏好,比如行文的风格。
继续预训练
重要的一步
混合数据
要不要从零训
领域微调数据构建
步骤
分析
数量够大:仅基于175条种子数据可以扩充8.2万条新数据 足够多样:分类和生成指令的占比大概4:1;指令的动作也非常多样,包括写作,设计,创造等;指令之间的相似度也不高,长度分布也较合理 质量可接受:采样标注生成的数据可以发现92%的指令都有意义,尽管输入和输出的质量不是很高,但是大部分还是格式正确或者部分正确的,这也能对训练模型遵循指令有一定的帮助。
多轮
Self-QA
Self-KG
减缓幻觉
Generate with Citation
Factual Consistency Evaluation
知识召回
DPR
GTR
Keyword LLM
Context Rewriting
text
User:"中国的首都是哪里?"
Bot: "中国的首都是北京"
User: "那里有哪些景点?"
Knowledge Selection
思考
如何拒识领域外的问题?如果不能回答,如何优雅的失败? 对于长文档的切分,太长的文本编码效果比较差,太短就需要能召回多个文档块,如何选择? 当前是基于文档的来生成答案,答案中很多内容都是从文档中直接COPY,能否对这种COPY类生成进行加速? 领域内一般有自己专业的工具,例如制造业中的工程计算软件,大模型如何与这些工具打通? 如果一句话中有多个问题要怎么召回?例如:"自闭症有哪些症状?跟遗传有关吗?能被治愈吗?" 大模型确实容易产生幻觉,但是如果“幻觉”出来的内容是对的,就会很惊喜,我们更愿意称之为模型的“泛化”能力。如果一味减缓幻觉是不是也会让模型丧失泛化的能力?
扫描二维码添加小助手微信