论文显示o1-preview模型大小约300B...另外该模型被传在象棋比赛中自发黑掉系统来获取胜利

文摘科技 2025-01-01 10:08 英国

‍‍‍‍‍

大家新年快乐！新年第一天水一贴~在微软和UW最近放出来的论文：MEDEC: A BENCHMARK FOR MEDICAL ERROR DETECTION AND CORRECTION IN CLINICAL NOTES中显示，o1-preview模型大小是300B，o1-mini约100B，还有其他闭源模型如Claude 3.5 Sonnet 175B，GPT-4 1.76T，GPT-o约200B，GPT-4o mini约8B，看这个参数规模，各位同行要加油了hhh

微软透露模型大小看起来老传统了，比如之前在论文CodeFusion: A Pre-trained Diffusion Model for Code Generation里，可以见本号文章“微软将扩散模型用在代码生成任务，还透露了ChatGPT参数量”。

另外还有一则比较震惊体的消息，在一项国际国际象棋比赛中，o1-preview模型被告知对手国际象棋引擎Stockfish很强大时，它发现编辑游戏状态而不是用遵守规则就能取得胜利，它便另辟蹊径通过攻击测试环境的方式，作弊修改了国际象棋位置数据的文本文件，让对手投降从而获得了胜利。

注意到模型并未被显性要求怎么做，可以在thought里看到它说“既然对方这么强，直接的方法可能不够哦，让我来尝试修改一下游戏文件逼迫对方投降好了。”，任何它就把一个txt文件修改掉了，环境：Stockfish resigns。

考虑到没有代码和report，这则消息权当一乐，笔者不给出任何判断，好奇的人可以仔细钻研来龙去脉。

撰文：戴剑波；编辑：戴剑波

未经本公众号授权不得转载，欢迎转发。

SparksofAGI

人工智能前沿论文分享（注意！未关注的朋友我是回复不了您的私信的）

香港科技大学（广州）郭志江老师招收25 Fall全奖PhD/实习生，博士生奖学金每月1.5万！

COCONUT：将推理放在连续潜在空间进行

一种能提升Transformer复杂规划任务表现的训练目标：MLM-U

别教授它，去激励它

现有数据集普遍存在偏差？DART-Math：使用难度感知拒绝调优增强数学问题求解

代码数据在预训练时要训吗？训多少？退火时要放吗？

SELF-GUIDE：让模型自主生产任务特定微调数据

分词器暴露了模型训练数据分布，比如Claude系列模型用了57%的代码数据

可“自主进化”的Agent？首个端到端的智能体符号化训练框架开源了

演进指令方法增强版：自动演进指令

OpenAI危？！Claude已经超越GPT系列了？尤其在代码上...

MIT、清华、剑桥等发布元推理能力评测集：从答题到阅卷，还以MMLU评测大模型你就out了

缩放与评估稀疏自编码器

关注者推荐：当模型在胡说的时候知道自己在胡说吗？

微调真的导致了模型幻象吗？

AGI 的最终挑战（一）：AI for Math

LayerSkip——新的训练与推理范式：层Dropout，早期退出机制与自投机解码结合

仿照计算机系统的权限概念，指令层级帮助大模型防范多种攻击

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉