4o-mini只有8B，Claude 3.5 Sonnet有175B，微软论文「透露」了下顶级模型参数

文摘 2025-01-02 18:06 北京

刚刚，X 上的一则推文受到了大家的广泛讨论，浏览量迅速增长。原来，OpenAI 发布的 GPT-4o-mini 居然是一个仅有 8B 参数的模型？

来源丨机器之心

图源：https://x.com/Yuchenj_UW/status/1874507299303379428

事情是这样的。就在前几天，微软和华盛顿大学合作完成了一篇论文《MEDEC: A BENCHMARK FOR MEDICAL ERROR DETECTION AND CORRECTION IN CLINICAL NOTES 》。

论文地址：https://arxiv.org/pdf/2412.19260

这篇论文主要介绍了一个用于检测和纠正临床记录中医疗错误的公开基准测试 MEDEC1，其包含 3,848 个临床文本。论文描述了数据创建方法，并评估了近期的 LLMs（例如 o1-preview、GPT-4、Claude 3.5 Sonnet 和 Gemini 2.0 Flash）在检测和纠正需要医学知识和推理能力的医疗错误任务上的表现。

因为要进行实验，因而在论文实验部分出现了众多模型的参数量，如下所示。

此前，有些模型的参数量都是未知的，也是大家比较好奇的。

此外，在这部分内容底下，微软还列出了一句声明「大多数模型参数的数量是估计的」。

通过这张图，我们不难发现，除了 GPT-4o-mini，大家还发现了其他模型的大小，比如：

Claude 3.5 Sonnet: 175B；
GPT-4: 1.76T；
GPT-4o: 200B；
o1-preview: 300B；
o1-mini: 200B。

结果部分也是将模型参数分为多个等级：

但是在这个推文下面大家讨论的非常激烈，主要围绕微软对模型大小的估计到底准不准确。

前面我们已经提到，模型参数都是估计出来的。因此有网友表示「就算微软确实知道，但并不代表微软 99% 的员工都知道。」「有 98% 的可能性是他们只是微软雇佣的研究人员，但与有权访问 OpenAI 的团队没有任何联系。」

「感觉这些数字只是作者的猜测，因为他们没有解释他们是如何估计的。」不过这位网友强调的这一点，论文确实说明了参数是估计的。

还有网友表示这篇论文将 Claude 3.5 Sonnet 估计为 175B 有点扯。

「Claude 不可能只有 175B，我敢打赌它接近这个数字的两倍。尤其是自 deepseek-v3 发布以来，其内存大小达到 671B，而 Claude 的表现轻松超越了后者。」

「我敢打赌 4o-mini 是一个 MoE 模型，总共有大约 400 亿个参数，可能有 80 亿个激活参数。我发现它比 80 亿个参数的模型拥有更多的知识（当询问事实时），同时速度相当快。」

还有网友认为这是一个合理的猜测。消息毕竟出自微软。

讨论来讨论去，最后的结论依然是没有结论，你怎么看这篇论文给出的数据呢？

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

语音之家

助力AI语音开发者的社区

天工版o1、4o同时上线！实时语音陪聊太上头

通过流匹配实现高效、高质量的文本转音频生成

语音/音频处理学术速递[1.6]

AI语音招聘岗位合集

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

活动报名丨第五届全国人工智能大赛

复旦等提出「中国版GPT-Zero」！毕业论文AI率自查神器｜AAAI 2025

语音/音频处理学术速递[1.3]

AI教父辛顿力挺马斯克，明确反对 OpenAI 的营利化转型。

分享 10 款免费在线 TTS 工具，开启语音新世界大门

4o-mini只有8B，Claude 3.5 Sonnet有175B，微软论文「透露」了下顶级模型参数

高噪声环境下的语音增强技术，在极低信噪比条件下显著提升目标语音的质量

使用知识图谱增强大语言模型生成问答逻辑形式

Ilya布局末日倒计时？奥特曼与谷歌大佬揭秘2025年ASI降临时间表！

ICASSP2025丨语音国家工程研究中心26篇录用论文分享

国产大模型全球“刷屏”，总训练成本557万美元，性能比肩GPT-4o

语音/音频处理学术速递[12.31]

ICASSP2025丨上交大跨媒体语言智能实验室12篇录用论文分享

2024年人工智能年终总结报告｜Artificial Analysis

语音/音频处理学术速递[12.30]

AI语音招聘岗位合集

听见未来，AI+Audio｜2025中国国际音频产业大会（GAS）

长文本+o1？评估LLM在真实世界长文本多任务中的深度理解与推理能力

国产大模型DeepSeek-V3一夜火爆全球，671B的MoE，训练成本仅558万美元

ICASSP2025丨内蒙古大学语音信号处理组5篇录用论文分享

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

全球首个中文安全领域事实性基准评测集发布

音频版ControlNet来了！Adobe推出Sketch2Sound

AI首次自主发现人工生命！人类窥见上帝造物

INFP：照片+音频让蒙娜丽莎秒变播客主理人

语音/音频处理学术速递[12.25]

CultureLLM 与 CulturePark：增强大语言模型对多元文化的理解

ICASSP2025丨人类语言技术实验室（HLT Lab）10篇录用论文分享

o3曝智商高达157，比肩爱因斯坦碾压99%人类！陶哲轩水平AI或出现

语音/音频处理学术速递[12.24]

ICASSP2025丨IMU语音理解与生成实验室3篇论文分享

开源更新丨通义3D-Speaker多说话人日志功能

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

语音/音频处理学术速递[12.23]

AI语音招聘岗位合集

GAS"消费电子科创奖” | 展示消费电子行业突破性成果

WavChat：深入探索语音对话模型的前沿

Interspeech 2025丨首届言语健康挑战赛

一键生成万字专利！中科院发布多智能体框架AutoPatent，含1933个「草稿-专利」数据对

内大语音理解与生成实验室最新视觉语音合成工作分享

语音/音频处理学术速递[12.20]

【AI对话系统新挑战】FutureDial-RAG Challenge详解

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

语音/音频处理学术速递[12.19]

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉