首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
4o-mini只有8B,Claude 3.5 Sonnet有175B,微软论文「透露」了下顶级模型参数
文摘
2025-01-02 18:06
北京
刚刚,X 上的一则推文受到了大家的广泛讨论,浏览量迅速增长。原来,OpenAI 发布的 GPT-4o-mini 居然是一个仅有 8B 参数的模型?
来源丨机器之心
图源:https://x.com/Yuchenj_UW/status/1874507299303379428
事情是这样的。就在前几天,微软和华盛顿大学合作完成了一篇论文《MEDEC: A BENCHMARK FOR MEDICAL ERROR DETECTION AND CORRECTION IN CLINICAL NOTES 》。
论文地址:https://arxiv.org/pdf/2412.19260
这篇论文主要介绍了一个用于检测和纠正临床记录中医疗错误的公开基准测试 MEDEC1,其包含 3,848 个临床文本。论文描述了数据创建方法,并评估了近期的 LLMs(例如 o1-preview、GPT-4、Claude 3.5 Sonnet 和 Gemini 2.0 Flash)在检测和纠正需要医学知识和推理能力的医疗错误任务上的表现。
因为要进行实验,因而在论文实验部分出现了众多模型的参数量,如下所示。
此前,有些模型的参数量都是未知的,也是大家比较好奇的。
此外,在这部分内容底下,微软还列出了一句声明「大多数模型参数的数量是估计的」。
通过这张图,我们不难发现,除了 GPT-4o-mini,大家还发现了其他模型的大小,比如:
Claude 3.5 Sonnet: 175B;
GPT-4: 1.76T;
GPT-4o: 200B;
o1-preview: 300B;
o1-mini: 200B。
结果部分也是将模型参数分为多个等级:
但是在这个推文下面大家讨论的非常激烈,主要围绕微软对模型大小的估计到底准不准确。
前面我们已经提到,模型参数都是估计出来的。因此有网友表示「就算微软确实知道,但并不代表微软 99% 的员工都知道。」「有 98% 的可能性是他们只是微软雇佣的研究人员,但与有权访问 OpenAI 的团队没有任何联系。」
「感觉这些数字只是作者的猜测,因为他们没有解释他们是如何估计的。」不过这位网友强调的这一点,论文确实说明了参数是估计的。
还有网友表示这篇论文将 Claude 3.5 Sonnet 估计为 175B 有点扯。
「Claude 不可能只有 175B,我敢打赌它接近这个数字的两倍。尤其是自 deepseek-v3 发布以来,其内存大小达到 671B,而 Claude 的表现轻松超越了后者。」
「我敢打赌 4o-mini 是一个 MoE 模型,总共有大约 400 亿个参数,可能有 80 亿个激活参数。我发现它比 80 亿个参数的模型拥有更多的知识(当询问事实时),同时速度相当快。」
还有网友认为这是一个合理的猜测。消息毕竟出自微软。
讨论来讨论去,最后的结论依然是没有结论,你怎么看这篇论文给出的数据呢?
永久福利 直投简历
简历投递:join@speechhome.com
扫码关注我们
助力AI语音开发者的社区
语音之家
助力AI语音开发者的社区
最新文章
INTERSPEECH 2025丨ML-SUPERB 2.0 挑战赛:推动多语言语音科技迈向新高度
天工版o1、4o同时上线!实时语音陪聊太上头
通过流匹配实现高效、高质量的文本转音频生成
语音/音频处理学术速递[1.6]
AI语音招聘岗位合集
OpenAI真的开源了!这波「实时语音」操作,让万物开口说话,我爱了
活动报名丨第五届全国人工智能大赛
复旦等提出「中国版GPT-Zero」!毕业论文AI率自查神器|AAAI 2025
语音/音频处理学术速递[1.3]
AI教父辛顿力挺马斯克,明确反对 OpenAI 的营利化转型。
分享 10 款免费在线 TTS 工具,开启语音新世界大门
4o-mini只有8B,Claude 3.5 Sonnet有175B,微软论文「透露」了下顶级模型参数
高噪声环境下的语音增强技术,在极低信噪比条件下显著提升目标语音的质量
使用知识图谱增强大语言模型生成问答逻辑形式
Ilya布局末日倒计时?奥特曼与谷歌大佬揭秘2025年ASI降临时间表!
ICASSP2025丨语音国家工程研究中心26篇录用论文分享
国产大模型全球“刷屏”,总训练成本557万美元,性能比肩GPT-4o
语音/音频处理学术速递[12.31]
ICASSP2025丨上交大跨媒体语言智能实验室12篇录用论文分享
2024年人工智能年终总结报告|Artificial Analysis
语音/音频处理学术速递[12.30]
AI语音招聘岗位合集
听见未来,AI+Audio|2025中国国际音频产业大会(GAS)
长文本+o1?评估LLM在真实世界长文本多任务中的深度理解与推理能力
国产大模型DeepSeek-V3一夜火爆全球,671B的MoE,训练成本仅558万美元
ICASSP2025丨内蒙古大学语音信号处理组5篇录用论文分享
AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优
全球首个中文安全领域事实性基准评测集发布
音频版ControlNet来了!Adobe推出Sketch2Sound
AI首次自主发现人工生命!人类窥见上帝造物
INFP:照片+音频让蒙娜丽莎秒变播客主理人
语音/音频处理学术速递[12.25]
CultureLLM 与 CulturePark:增强大语言模型对多元文化的理解
ICASSP2025丨人类语言技术实验室(HLT Lab)10篇录用论文分享
o3曝智商高达157,比肩爱因斯坦碾压99%人类!陶哲轩水平AI或出现
语音/音频处理学术速递[12.24]
ICASSP2025丨IMU语音理解与生成实验室3篇论文分享
开源更新丨通义3D-Speaker多说话人日志功能
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
语音/音频处理学术速递[12.23]
AI语音招聘岗位合集
GAS"消费电子科创奖” | 展示消费电子行业突破性成果
WavChat:深入探索语音对话模型的前沿
Interspeech 2025丨首届言语健康挑战赛
一键生成万字专利!中科院发布多智能体框架AutoPatent,含1933个「草稿-专利」数据对
内大语音理解与生成实验室最新视觉语音合成工作分享
语音/音频处理学术速递[12.20]
【AI对话系统新挑战】FutureDial-RAG Challenge详解
李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪
语音/音频处理学术速递[12.19]
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉