首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
惊呆网友!微软论文意外“泄密”OpenAI模型参数引热议,GPT-4o mini仅8B?
科技
2025-01-02 19:32
北京
文丨丁灵波
啥?
微软又泄露OpenAI商业机密了?
作为大模型领域的代表,OpenAI旗下各类大模型的参数分别有多少让大家好奇,但由于部分涉及技术机密,如果不是OpenAI官方论文自己披露,外界很难知道确切数字。
令人意想不到的是,在微软日前发表的一篇预印版论文中,被充满好奇心的网友扒到了包括ChatGPT、GPT-4、GPT-4o、GPT-4o-mini、o1-mini以及o1-preview模型的具体参数!这篇所谓的“泄密”论文细节,瞬间引起了广泛热议。
要知道,微软是Open AI最大投资方,累计砸了140亿美元,不仅拥有OpenAI一些核心技术的独家使用权,幕后也为OpenAI提供算力支持,就技术层面来讲可能对其知根知底儿。
尽管论文里强调“大多数所报道的参数数量都是估算值”,但这些参数是否具有参考性变得十分耐人寻味。
事情的来龙去脉
其实,这篇所谓的“泄密”论文,并没有专门针对OpenAI技术深挖什么,而只是一篇关于测试基准的论文,题为:
《MEDEC:
临床记录中医疗差错检测与纠正的基准》。
论文作者来自微软健康与生命科学人工智能部门和华盛顿大学生物医学与健康信息学系。
众所周知,现在大型语言模型(LLM)已能够正确回答一部分专业医学问题,甚至在某些特定医学检查中测试评分超过人类。然而,业内尚未有研究评估LLM验证现有或生成式医学文本的正确性和一致性的能力。
于是呢,这篇论文里研究人员就提出了一个基准方法:MEDEC,这算是第一个公开的临床笔记医疗错误检测和纠正基准,涵盖了五种测试类型,包括诊断、管理、治疗、药物治疗和病原体等。
在论文中,研究人员描述了数据创建方法,并评估了一些热门LLM的性能,例如o1-preview、GPT-4、Claude 3.5 Sonnet和Gemini 2.0 Flash等在检测和纠正需要医学知识和推理能力的医疗错误方面的任务。
研究结果发现,尽管这些LLM在错误检测和纠正方面大有长进,但它们在任务中的表现仍然不如人类专业医生,并对这一差距背后的潜在因素、实验见解、当前评估指标局限性和未来研究方向进行了探讨。
而估算写出OpenAI各类大模型的大概参数,可能纯粹就是技术实验需要或者作者无意为之,而且是局限在这个MEDEC基准实验中做的推算数值。
具体推测了哪些模型的参数?不只OpenAI。
微软自己的Phi-3参数7B;人工智能公司Anthropic旗下的Claude 3.5 Sonnet参数约175B;谷歌的Gemini 2.0 Flash没标出来,但是提到了谷歌专为医疗用途设计的模型Med-PaLM的参数约540B。
剩下的就是OpenAI全家桶:
ChatGPT约175B、GPT-4约1.76T、GPT-4o约200B、GPT-4o mini约8B、o1-mini约100B、o1-preview约300B。
在此知识小普及一下,在大模型中,B和T是用于表示模型参数数量的量级单位,B代表十亿(Billion),T代表万亿(Trillion)。
通过不同大小的模型评测,微软团队发现Claude 3.5 Sonnet在错误标记检测方面的准确率能达到70.16%,在错误语句检测方面的准确率达到65.62%,目前表现优于其他基于大型语言模型的方法。
此外,o1-mini模型在错误标记检测方面达到了第二高的准确率为69.08%,在这套评估基准中,o1系列模型性能要领先于GPT-4模型。
不过令论文作者应该没想到的是,引发热度的不是自己创造的MEDEC基准,而是GPT-4o mini是不是真的只有8B参数?这成为网友们的一大热议点。
业内技术路线其实也在探索在模型大小和性能之间做平衡,能用较小参数的模型做出较强的性能也是一种技术能力。
例如微软在2024年12月发布的Phi-4就是这个思路,当时用了14B参数训练就能在数学推理领域胜过GPT-4o和Gemini Pro1.5,取得规模和性能之间的突破。
在8B这个段位的小模型其实也不少,例如Meta AI发布的Llama-3.1、Mistral AI推出的Ministral 8B、IBM推出的Granite 3.0等,只不过很多模型综合性能上差点意思,只在某些特定领域各有所长。
其实GPT-4o mini本身在OpenAI产品体系里也属于小模型范畴,但是不是完全只有8B这么小就不得而知了,如果是,那可真的有点厉害。
毕竟,4o mini的性能在各种评测中表现出乎意料地好,上下文窗口可达到128K,在许多任务上甚至表现出接近于GPT-4的能力,例如在MMLU测试、衡量数学推理的MGSM测试、衡量编码性能的HumanEval测试、以及MMMU多模态推理测试等,碾压了几乎所有轻量级乃至大几倍的模型。
网友们的讨论
微软这篇论文公布出来的参数靠不靠谱?
你要说没有参考价值吧,它们为啥出现在了这篇技术论文中,而且怎么就单单谷歌Gemini 2.0 Flash的参数没估算值,这让网友们很费解,不过考虑到谷歌使用自己TPU做计算,可能是不好做估计的原因。
网友们表示,很难相信4o-mini只有8B,如果是那就太疯狂了,也有人认为可能只是8B激活参数。
当然,不少网友对该消息持怀疑态度。因为如果是真的,现在就应该从OpenAI官方那里听说这个消息了,如果他们发表一篇技术论文证明训练4o-mini一共只需8B参数,那么创始人Sam绝对会在社交网络上吹嘘一番,但Sam目前并没有对此事做出回应。
也有网友就使用体验分析认为,4o-mini可能是一个总共拥有大约40B参数并且可能有8B个处于活动状态的MoE。
因为它比同类8B模型包含的知识多得多(当询问事实时),而且速度相当快,此外,GPT-4o是MoE,因此它们可能对4o mini采用了相同的架构。
8B个活跃参数这个解释应该是靠谱的,有网友基于API 定价、OpenAI LLM总体进展和个人观点曾做出过6.6B-8B近似的推测。
此外,人工智能顾问艾伦·汤普森 (Alan D. Thompson) 曾对各种AI模型的指标做了个对比表,在他的统计表中,给4o-mini模型标注的也是8B个参数。
或许论文里推算的数值能做个局部参考。有网友认为论文里提到的GPT-4o模型只有200B个参数也不太可能,GPT-4o同时具有原生图像输入/输出、原生视觉、原生语音、文本输出等能力,也许只是文本组件有200B而已。
参数结合应用才是要点
从行业发展来看,除了顶尖大模型探索AGI天花板边界,越来越多性能强悍的小语言模型(SLM)也是比较热门的发展趋势之一,因为能带来遍地开花的很多应用。
大模型和小模型的发展目前是相辅相成的,有竞争也有互补。
大模型提供了强大的基础能力,小模型则能在特定场景下展现出更高的效率和灵活性,大模型在海量数据上进行预训练获得强大的能力后,可以针对特定任务进行微调,得到更小、更快更有性价比的小规格模型。
因此,模型参数不是越大越好,也不是越小越好,需要适配具体应用情况来判断。
未来,大模型和小模型将共同推动人工智能的发展,为我们的生活带来更多便利。
如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,
欢迎私信“投稿”,
添加编辑微信
。
如果您想要获取最新的科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会!
扫描下方二维码,添加头部科技晶总微信!
头部科技
头部科技是技术新世界的记录者、探索者和推动者。我们致力于普及细分场景的科技解决方案,打造科技和人才创新知识图谱。无论你身处技术公司或传统行业,在这里都可以找到智能化、数字化升级的案例和伙伴。在无限的时空中,和你共同探索科技原力是我们的荣光。
最新文章
CES 2025前瞻:AI无处不在
硬碰硬开局!28家美国实体被列入管制管控名单,1600亿基金再砸硬科技!
惊呆网友!微软论文意外“泄密”OpenAI模型参数引热议,GPT-4o mini仅8B?
WAIC创投生态 | 2025 Future Tech项目路演1月9日名单出炉!
一年亏10亿股价反涨406.45%!国产AI芯片的春天要来了?
OpenAI彻底蜕变!摆脱“非营利”标签束缚或为IPO铺路
2025中关村智能网联汽车创新发展论坛震撼来袭
国产之光刷屏AI圈!DeepSeek-V3成当前最强开源大模型
传ChatGPT将拥有全新“无限”记忆功能?!OpenAI的一篇帖子引热议
2025中关村智能网联汽车创新发展论坛即将开幕!
三分之二产品在用中国芯?美国又针对中国传统芯片下手了
3年半亏损2.5亿,“协作机器人第一股”难当第一
红杉:AI为赚钱发愁 搜索成为热点
人才流失!OpenAI资深研究员、初代GPT缔造者Alec Radford离职
涉及20+实验室,打磨2年!华人小伙儿领衔的开源生成式物理引擎Genesis令人惊叹!
国家电网发布国内首个千亿级多模态电力行业大模型
量子计算哪家强?潘建伟、朱晓波等科学家公布“祖冲之3.0”处理器进展对阵谷歌Willow
不服就干!谷歌重磅新品三连发反击OpenAI玩ChatGPT搜索
月付2000美元!OpenAI CFO称博士级AI要来了,能“替代”人类雇员
新能源+数智化浪潮下 ,信息通信创新如何改变电力行业?
OpenAI长文爆料反击马斯克诉讼:“你不能通过诉讼获得AGI”
不甘示弱!微软祭出小型语言模型Phi-4,在数学竞赛上超过GPT-4o和Gemini1.5
12月20日,上海见|梧桐荟 “产·投·研”沙龙 第6期——芯片级散热技术发展应用与投资机会
Sora试用报告:错误不少,一起找茬
黄仁勋:扫过最多厕所的CEO
“Open AI 12天”上新第4弹:Canvas协作工具正式开放,但实际并没想象中那么好?
刚刚,OpenAI Sora来啦!AI视频新纪元已开启
杨植麟响应仲裁风波,起底人性月之暗面
每月200美金订阅,OpenAI 「十二夜」圈钱忙
大厂小厂肉搏,中国大模型进入淘汰赛
NeurIPS 2024最佳论文!
一图一世界,一飞一菩提
ChatGPT问世2年,我们的世界哪里变了
智能体,大模型进化下一站
从Neuralink开始 美国脑机接口研究迎来春天
绿色氢能,零碳飞行
亚马逊向英伟达芯片发起冲锋
AI将进化超级智能,还是逐步崩坏?
为什么能源需要AI? | 2024能源人工智能创新发展大会圆满举办
AI广告,正在不完美中开创新时代
北京今年最大一笔融资诞生,国产半导体乘风而起
储能沙龙 | 新质生产力与储能行业协同发展及投资机遇沙龙成功举办
蘑菇车联新突破:路侧数据上车,赋能多品牌车辆
具身大模型,国内最大融资诞生
Scaling Law遇阻,AI 性能或难再有大提升
共谋AI未来发展,2024 AI创新应用发展交流会成功举办
AI的尽头,是能源
活动预告 | 梧桐荟 “产·投·研”沙龙 第5期——储能产业专场
120亿独角兽,自主工业品牌变身
电力领域出了一个国际级领先技术
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉