最新开源:「天工大模型4.0」o1版来了!科研神器 OpenScholar 来了!

文摘   2024-11-28 13:55   广东  

PART

01
昆仑万维发布 Skywork o1,国内首款中文逻辑推理能力o1模型

11月27日,昆仑万维公司宣布正式推出其最新研发成果——“天工大模型4.0”o1版(Skywork o1)。

Skywork o1 国内首款具备中文复杂推理能力的o1模型,具备自我反思思考链技术,能模仿人类的思维过程,显著提升逻辑推理和复杂任务解决能力。

  • 申请地址:www.tiangong.cn

  • 开源地址:https://tinyurl.com/skywork-o1

此次发布的 Skywork o1 包括三款模型,既有回馈开源社区的开放版本,也有能力更强的专用版本:

  • Skywork o1 Open:一款基于 Llama 3.1 8B 的开源模型,该模型在同生态位开源模型中评测指标大幅提升达到 SOTA 水平,并解锁了许多轻量级模型无法解决的复杂数学任务。

  • Skywork o1 Lite:该模型具备完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在数学、中文逻辑和推理类问题上表现突出。

  • Skywork o1 Preview:这款模型是本次完整版的推理模型,搭配自研的线上推理算法,对比 Skywork o1 Lite 有着更多样和“深度”的思考过程,更完善和更高质量的推理。

Skywork o1 模型以其独特的慢思考推理能力脱颖而出。与当前市场上基于OpenAI o1模型的复现工作不同,Skywork o1 不仅在输出结果上展现了深度的思考、规划及自我反省能力,而且在标准测试集中的表现远超常规模型,实现了推理性能的显著提升。

Skywork o1 的实战效果如何?

图:在比较 13.8 与 13.11 孰大孰小时,Skywork o1 Lite 给出了完整的思维链路,找出解题的关键在于小数位大小。

图:在求解组合(从 10 人中选出 3 人组成一队,共多少种选择)问题时,Skywork o1 Preview 在全链路思考过后,答案正确。


PART

02
开源科研神器 OpenScholar 来了!能检索4500万篇论文,科研效率提升10倍!超越GPT-4o!

  • 论文地址:https://arxiv.org/abs/2411.14199

  • 官方博客:https://allenai.org/blog/openscholar

  • 代码地址:https://github.com/AkariAsai/OpenScholar

  • Demo地址:https://openscholar.allen.ai/

最近,华盛顿大学NLP实验室和Ai2、Meta等机构合作,开发了专门服务科研人的学术搜索工具 OpenScholar

OpenScholar 还是首个从论文到数据集、模型检查点都完全开源的科研助手模型

本质上,OpenScholar 是一个进行过检索增强(retrieval-augmented)的语言模型,外接一个包含4500万篇论文的数据库,性能可以优于专有系统,甚至媲美人类专家。

随着每年数百万篇论文的发表,科学家们越来越难以找到所需的信息或跟上单个子领域的最新发现。OpenScholar 通过首先搜索文献中的相关论文,然后生成基于这些来源的回答,来回答用户的查询。

图1. OpenScholar 概述、ScholarQABench 概述和自动化&人类专家评估结果

为了方便自动化评估,研究团队还推出了全新的大规模基准 ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。

图3. SchlarQA-CS 的数据样例和评估概述

具体的评估结果如下表所示:

+OSDS 表示外接了数据库 OpenScholar-DataStore 并检索到 top N 段落拼接到原始输入中;
OS-8B 模型经过重新训练,OS-70B 和 OS-GPT-4o 仅仅使用了团队自定义的推理pipeline。

总体而言, OpenScholar 实现了SOTA性能,大大优于 GPT-4o 和相应的标准 RAG 版本,以及 PaperQA2 等专用的文献综述系统。

  • 单篇论文任务中, OpenScholar 始终优于其他模型。无论是否有检索增强,OS-8B 和 OS-70B 均优于原来的 Llama 3.1 模型,OS-70B 在 PubMedQA 和 QASA 上甚至可以对打 GPT-4o。

  • 多论文任务中,OS-8B、OS-70B 和 OS-GPT4o 表现出强大的性能,OS-GPT4o 在Scholar-CS 中比单独的 GPT-4o 提高 12.7%,比标准RAG版本提高了 5.3 %。OpenScholar-8B性能远远优于 GPT-4o、Perplexity Pro 和PaperQA2


搜索的可靠性方面,OpenScholar 更是远超 GPT-4o

  • GPT-4o 在 90% 以上的情况下都引用了不存在的论文,而 OpenScholar 的结果都是来自确定来源。

  • 信息覆盖率、实用性、相关性等多个维度方面,OpenScholar撰写的结果都优于 GPT-4o



PART

03
Tülu3:首个发布后训练配方的开源模型,性能超越Llama3.1

  • 论文地址:https://arxiv.org/abs/2411.15124

  • 模型下载:https://hf.co/allenai/Llama-3.1-Tulu-3-70B

  • 代码地址:https://github.com/allenai/open-instruct

  • Demo地址:https://playground.allenai.org/

与普遍认知不同,基础语言模型在预训练后并不能直接投入使用。事实上,后训练过程才是决定模型最终价值的关键环节。正是在这个阶段,模型从一个"无所不知"却缺乏判断力的网络,转变为具有特定功能导向的实用工具。

最近,来自艾伦人工智能研究所和华盛顿大学的研究团队推出了 TÜLU 3,一个完全开放的 SOTA 后训练模型系列,以及它的数据、代码和训练方法,作为现代后训练技术的综合指南。

TÜLU3 设计用于在多样化任务上实现最先进的性能,除了聊天之外,还包括 MATH、GSM8K 和 IFEval。模型开源8B、70B两个版本。

图1. TÜLU 3整体流程

TÜLU3 的这套完整的后训练方案涵盖了从主题选择到数据治理,从强化学习到微调等全方位流程。用户可以根据需求调整模型能力,比如强化数学和编程能力,或降低多语言处理优先级。

主要有四个步骤:

  1. 构建多样,高质量的Prompt

  2. 有监督微调

  3. 偏好优化

  4. 强化学习

TÜLU3 建立在 Llama 3.1 基础模型之上,其结果超过了 Llama 3.1、Qwen 2.5、Mistral 的 instruct 版本,甚至超过了 GPT-4o-mini 和 Claude 3.5-Haiku 等闭源模型。他们模型的训练算法包括监督微调(SFT)、直接偏好优化(DPO)和可验证奖励强化学习(RLVR)。

参考:

https://allenai.org/blog/openscholar


HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章