.01
.01
.02
明确目标:在收集数据之前,要先明确应用目标和期望输出。只收集与任务相关的数据,避免数据过于庞杂。 质量优先:相比于海量的低质量数据,一个小而精的高质量数据集往往效果更好。 去除噪声:清理数据集,剔除无关或错误的条目。对于缺失值,可以采用插补方法填补,或者直接删除不完整的记录,以保持数据的完整性。 数据增强:通过数据增强技术,不仅可以扩充数据集的规模,还能增加数据的多样性,同时保持数据的质量。
.03
GPT:属于解码器(Decoder-only)架构,擅长文本生成任务,适合用于对话生成、创意写作等场景。 BERT:属于编码器(Encoder-only)架构,更多用于文本分类、命名实体识别等任务,擅长理解上下文信息。
学习率(Learning Rate):这是影响模型更新速度的关键参数。通常,微调时的学习率设置在1e-5到5e-5之间为宜。如果数据集较小,可以考虑适当调整。 批量大小(Batch Size):批量大小决定了每次训练时处理的样本数。较大的批量可以加速训练,但对内存要求较高;较小的批量则能让模型更细致地处理每一条记录。 热身步骤(Warmup Steps):通过逐步增加学习率的方式来帮助模型在初期稳定训练。 训练轮次(Epochs):LLM微调通常只需1到3个训练轮次,避免过度训练导致过拟合。
.04
.05
全量微调(Full Fine-Tuning):在这种方法中,所有的模型参数都会进行调整,适用于需要深度理解新任务或新领域的情况,但会消耗大量的计算资源。 参数高效微调(Parameter-Efficient Fine-Tuning, PEFT):相比于全量微调,PEFT只更新部分模型参数,能够大大减少训练所需的计算资源。LoRA等技术通过减少训练参数的数量,使内存需求大大降低,适合在资源受限的硬件上进行训练。 模型压缩方法:包括剪枝、量化和知识蒸馏等技术,可以使模型变得更加高效,减少计算负担。例如,剪枝可以去除不重要的参数,量化则通过将参数转换为低精度格式来减小模型体积。
.06
数据漂移(Data Drift):指的是输入数据的统计特性随着时间发生变化。 模型漂移(Model Drift):指的是模型输入与输出之间的关系发生变化。
.07
数据偏见:如果训练数据没有代表真实世界的多样性,可能导致模型产生偏见。比如,如果某个群体在数据中被低估,那么模型在处理该群体的任务时就可能表现不佳。 算法偏见:在训练过程中,模型可能过度关注某些特征,从而影响预测结果的公平性。
公平算法:开发能够确保模型在不同群体间公平决策的算法,如平等机会算法(Equal Opportunity)和均衡错误率算法(Equalized Odds)。 数据增强:通过增加多样化的样本,特别是那些代表性不足的群体,来增强数据的代表性。 去偏见技术:包括重新加权、训练过程中的去偏见以及后处理阶段的去偏见方法。
.08
参考:
https://www.exxactcorp.com/blog/deep-learning/finetune-vs-use-rag-for-llms https://www.exxactcorp.com/blog/deep-learning/gpt-3-vs-bert-llm-comparison