微软AI研究院发布100万条涵盖不同能力的综合指令对|数据集

文摘   2024-11-27 07:45   福建  

AgentInstruct-1M-v1是一个包含约100万个指令-响应对的子集,源于一个约2500万对的更大数据集,后者在Mistral-7b模型的后训练中发挥了重要作用,最终形成了改进版的Orca-3-Mistral模型。该数据集通过合成方法解决了规模和多样性的问题,为提升大型语言模型(LLM)的性能提供了坚实基础。AgentInstruct框架通过处理网络文本种子生成指令-响应对,确保了可扩展性和多样性,从而显著提高了模型在多个基准测试中的表现。

参考:

  1. https://huggingface.co/datasets/microsoft/orca-agentinstruct-1M-v1



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章