论文显示o1-preview模型大小约300B...另外该模型被传在象棋比赛中自发黑掉系统来获取胜利

文摘   科技   2025-01-01 10:08   英国  

‍‍‍‍‍





大家新年快乐!新年第一天水一贴~在微软和UW最近放出来的论文:MEDEC: A BENCHMARK FOR MEDICAL ERROR DETECTION AND CORRECTION IN CLINICAL NOTES中显示,o1-preview模型大小是300B,o1-mini约100B,还有其他闭源模型如Claude 3.5 Sonnet 175B,GPT-4 1.76T,GPT-o约200B,GPT-4o mini约8B,看这个参数规模,各位同行要加油了hhh

微软透露模型大小看起来老传统了,比如之前在论文CodeFusion: A Pre-trained Diffusion Model for Code Generation里,可以见本号文章“微软将扩散模型用在代码生成任务,还透露了ChatGPT参数量”。


另外还有一则比较震惊体的消息,在一项国际国际象棋比赛中,o1-preview模型被告知对手国际象棋引擎Stockfish很强大时,它发现编辑游戏状态而不是用遵守规则就能取得胜利,它便另辟蹊径通过攻击测试环境的方式,作弊修改了国际象棋位置数据的文本文件,让对手投降从而获得了胜利。

注意到模型并未被显性要求怎么做,可以在thought里看到它说“既然对方这么强,直接的方法可能不够哦,让我来尝试修改一下游戏文件逼迫对方投降好了。”,任何它就把一个txt文件修改掉了,环境:Stockfish resigns。
考虑到没有代码和report,这则消息权当一乐,笔者不给出任何判断,好奇的人可以仔细钻研来龙去脉。

撰文:戴剑波;编辑:戴剑波

未经本公众号授权不得转载,欢迎转发。

SparksofAGI
人工智能前沿论文分享(注意!未关注的朋友我是回复不了您的私信的)