AI Weekly『11月18-24日』:DeepSeek发布国内首个推理模型,Gemini新模型夺得榜首!

文摘   2024-11-24 10:27   美国  

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

关于AI Weekly

马化腾谈及AI时说:“我们最开始以为这是互联网十年不遇的机会,但是越想越觉得这是几百年不遇的、类似发明电的工业革命一样的机遇,所以我们觉得非常重要。”

AI Weekly回来了!

AI Weekly”是AI领域的前沿资讯周报,每周与你相约,精心筛选并总结过去一周内AI领域最重要、最具影响力的事件。这个专栏致力于打破信息壁垒,帮助你高效掌握最新动态,增强对AI技术及应用趋势的洞察力。

省流版摘要

  1. DeepSeek推出R1-Lite预览版:DeepSeek发布推理模型DeepSeek-R1-Lite,在数学、编程等复杂逻辑任务中表现媲美o1-preview,并超越GPT-4o。模型已开放网页使用,正式版将开源并支持API调用。

  2. 昆仑万维推出中文逻辑推理模型“天工4.0 O1版”:昆仑万维宣布天工大模型4.0 O1版将于11月27日启动邀测,支持思考、计划和反思等能力。官方称这是国内首款中文逻辑推理模型,但发布时间与其他模型相近,实际表现有待验证。

  3. 夸克推出“学术搜索”功能:夸克上线“学术搜索”AI工具,每次回答引用10篇以上文献,支持生成学术大纲和PPT,提升学术研究效率。

  4. OpenAI发布新版GPT-4o :新版GPT-4o提升创意写作能力和文件处理表现,登顶大模型竞技场榜首,但仅领先谷歌一天。

  5. 谷歌发布Gemini-Exp-1121实验版:谷歌推出Gemini-Exp-1121实验版,在代码生成和推理任务上表现优异,再次登顶大模型竞技场榜首。

  6. Mistral推出多模态AI模型Pixtral Large :Mistral发布多模态模型Pixtral Large,在视觉数据、图表理解和数学推理领域超越GPT-4o,适用于研究、教育和商业用途。

1. DeepSeek推出R1-Lite预览版,推理能力媲美o1-preview

2024年11月20日,DeepSeek宣布其全新研发的推理模型DeepSeek-R1-Lite预览版正式上线。该模型采用强化学习训练,推理过程中包含大量反思和验证,思维链长度可达数万字。在数学、编程等复杂逻辑推理任务中,DeepSeek-R1-Lite展现出媲美OpenAI o1-preview的性能,并为用户呈现了o1未公开的完整思考过程。

在美国数学竞赛(AMC)中难度最高的AIME以及全球顶级编程竞赛(Codeforces)等评测中,DeepSeek-R1-Lite超越了GPT-4o等知名模型。值得注意的是,DeepSeek-R1-Lite目前仍处于迭代开发阶段,仅支持网页使用,暂不提供API调用。官方表示,正式版DeepSeek-R1模型将完全开源,并公开技术报告和部署API服务。

感兴趣的小伙伴可以翻看我这篇介绍文章:《国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验!》。

2. 昆仑万维“发布”国内首款中文逻辑推理模型“天工4.0 O1版”

2024年11月18日,昆仑万维(开发天工AI的公司)官方宣布,其新一代具备推理能力的天工大模型4.0 O1版(英文名:Skywork O1)将于2024年11月27日启动邀请测试。作为支持中文逻辑推理的模型,它能够输出包含思考、计划和反思等能力的答案。

虽然昆仑万维强调天工大模型4.0 O1版是国内第一款具有中文逻辑推理能力的模型,但其实这并不是事实。首先,月之暗面(开发Kimi的公司)早在两天前(11月16日)就已官宣了其数学推理模型k0-math。其次,和昆仑万维、月之暗面停留在PPT上的发布不同,DeepSeek(中文名:深度求索)已于2024年11月20日真正发布了推理模型DeepSeek-R1-Lite,该模型在各项基准测试中表现优秀,现已面向所有用户免费开放使用,每用户每天使用数量限制为50次。

3. 夸克推出AI产品“学术搜索”

2024年11月18日,夸克发布AI产品“学术搜索”,旨在提升学术工作中的信息获取、创作和处理效率。该产品依托AI技术和亿级学术文献资源,能够在每次AI回答中引用超过10篇文献内容,实现多维度的信息归纳和知识整理,确保搜索内容的准确性。

在创作写作方面,夸克学术搜索可根据用户提出的学术问题,结合研究背景、市场现状和发展趋势等因素,智能生成学术大纲,并支持一键制作PPT,进一步提高学术工作效率。

4. OpenAI发布新版GPT-4o,重夺竞技场榜首

2024年11月20日,OpenAI官宣了新版本的GPT-4o模型,此次更新主要提升了该模型的创意写作能力,使其生成的文本更加自然、吸引人且相关性更高。此外,模型在处理上传文件时,能够提供更深入的见解和全面的响应。

最新版本的GPT-4o模型在大模型竞技场中重新夺回榜首位置,超越了此前排名第一的谷歌Gemini。

5. 谷歌发布新模型Gemini-Exp-1121,重夺竞技场榜首

2024年11月21日,谷歌发布了最新实验版模型Gemini-Exp-1121,在大模型竞技场中重新夺回榜首位置(直到我写这篇文章时,Gemini-Exp-1121仍为第一名)。此前,OpenAI的GPT-4o模型刚刚登顶,但仅领先一天,详情见上一条信息。

Gemini-Exp-1121在代码生成、推理能力和视觉理解等方面表现出色,尤其在复杂提示词的风格控制下,与o1-previewNew Sonnet 3.5等模型水平相当。在经典的逻辑推理题目中,Gemini-Exp-1121的回答更加全面且详细,展示了其强大的推理能力。

6. Mistral发布Pixtral Large多模态AI模型,超越GPT-4o

2024年11月18日,被网友誉为“欧洲OpenAI”的Mistral AI公司宣布推出全新的多模态AI模型Pixtral Large。该模型拥有1240亿参数,基于Mistral Large 2构建,专注于处理文本和图像数据。在MathVista、DocVQA和VQAv2等多模态基准测试中,Pixtral Large表现出色,尤其在MathVista中取得了69.4%的准确率,超越了GPT-4oGemini-1.5 Pro

Pixtral Large配备了1230亿参数的多模态解码器和10亿参数的视觉编码器,支持128K的上下文窗口,能够处理至少30张高分辨率图像。该模型在视觉数据处理、复杂推理和图表理解方面展现了强大的能力。目前,Pixtral Large已在Mistral研究许可证和商业许可证下提供,适用于研究、教育以及商业用途。



精选推荐

  1. 国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程!
  2. 『AI保姆级教程』无需手机号!三分钟注册ChatGPT账号!2024年最新教程!
  3. 『AI保姆级教程』手把手教你注册Claude账号!建议收藏!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

AI信息Gap
AI信息差,让一部分人先AI起来。
 最新文章