最新开源：国产大模型DeepSeek-V3来了！阿里云开源首个多模态推理模型QVQ！腾讯推出新型翻译模型 DRT-o1

文摘 2024-12-27 20:32 广东

DeepSeek-V3发布，数学代码任务突出，中文性能匹敌GPT-4o

自 DeepSeek-V2.5 于9月6日正式发布，新一代模型 DeepSeek-V3 又于 12 月 26 日上线并同步开源，迭代速速杠杠的快。

DeepSeek-V3 是一个强大的 Mixture-of-Experts (MoE) 语言模型，拥有 671B 总参数，其中每个token激活 37B 参数，在 14.8万亿 token上进行了预训练。

相比 V2.5 版本，DeepSeek-V3 的生成速度提升至 3 倍，每秒吞吐量高达 60 token。

DeepSeek-V3 采用多头潜在注意力和 DeepSeekMoE 架构，经过多阶段的预训练和微调，展现出卓越的性能。

虽然当前版本暂不支持多模态输入输出，但在多语言处理方面表现出色，尤其在算法代码和数学方面。

DeepSeek-V3 在多种标准基准测试中表现优异，尤其在数学和代码任务上表现突出。

DeepSeek-V3 的成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

Hugging Face 模型库： https://huggingface.co/deepseek-ai/DeepSeek-V3

腾讯推出新型翻译模型 DRT-o1，实现文学翻译“信达雅”

12 月 26 日，腾讯研究院最新推出了 DRT-o1 系列模型，包含两个版本：DRT-o1-7B 和 DRT-o1-14B，主要通过长思维链（long chain-of-thought，简称 CoT），更能理解比喻和隐喻等，从而提高文学作品的翻译质量。

DRT-o1 基于 Qwen2.5 进行构建，通过从现有文学书籍中挖掘带有明喻或隐喻的英文句子，设计了一个包含翻译者、顾问和评估者的多代理框架，以合成长链推理的机器翻译样本。

图：DRT-o1设计了一个包含翻译者、顾问和评估者的多代理框架

实验结果显示：

DRT-o1-7B 的 BLEU 得分提高了 8.26 分，COMET 得分提高了 3.36 分，优于其前身 Qwen2.5-7B-Instruct。
DRT-o1-14B 同样表现出色，BLEU 得分提升了 7.33 分，COMET 得分提升了 1.66 分。

这些结果表明，DRT-o1 在文学翻译中的表现超越了现有模型，尤其是其 7B 版本甚至超越了更大的 QwQ-32B 模型。

阿里云通义千问开源多模态推理模型 QVQ-72B-Preview，在数学、物理等领域表现出色

12 月 25 日，阿里云通义千问Qwen团队推出了全新的视觉推理大模型——QVQ-72B-Preview。

作为业界首个开源多模态推理模型，QVQ-72B-Preview 的优势在视觉理解和推理能力，在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。目前，开发者可在魔搭社区和HuggingFace平台上直接体验。

通义千问团队在 4 个数据集上评估 QVQ-72B-Preview，测试结果显示：

QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数，显著超越了此前的视觉理解模型「开源王者」 Qwen2-VL-72B-Instruct。
此外，在剩下的三个专注于数学和科学问题的基准测试中，QVQ-72B-Preview 表现出色，有效缩小了与领先的最先进的 OpenAI o1 模型之间的差距，与 Claude3.5 Sonnet等推理模型相当。

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉