首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

现实再次给大模型带来沉重打击

学术 2024-10-10 11:55 湖北

论文笔记分享，标题：LLMS STILL CAN’T PLAN; CAN LRMS? A PRELIMINARY EVALUATION OF OPENAI’S O1 ON PLANBENCH

一个偏实验性的文章，这篇文章的主要的结论是。LLMs不擅长规划，LRMs看似有希望，但是希望不大

当故事看把~

规划简单定义就是说，在面对一些较复杂的开放式问题时，需要进行一些搜索以确定最佳的解决方案。这个过程，不仅仅是思考可行的方向，还需要将问题分解成更简单的任务。

当使用目前最牛的LLM来测试这些能力时候，如下图，对于人来说相对容易解决：

但是结果比较糟糕，Mystery Blocks world 基准结果， ChatGPT、Claude、Gemini 和 Llama 的正确问题率为 0% 。

Openai O1目前通过更多的思考，天生就是为了这些复杂的任务而生的，当在相同的数据集上测试， o1 的结果初看确实很惊艳，使第一个简单的数据集达到97.8% 准确率，几乎饱和了。

但是，仔细分析之后，一旦增加计划的步骤数，准确曲线很快就崩溃了，当计划需要 14 个或更多步骤时，准确率会回到 0% 。

当然，必须考虑到成本问题，生成成本比prompt编码成本高很多。所以相比于LLM模型，LRM模型的推理成本达到了恐怖的100到1000倍

另一方面，模型很容易自嗨看下图，要完成一个需要 20 步的计划，模型需要生成 6000 个token。比实际的单词数量超出了1500+~。

成本与效果的权衡，O1真的值得么？2011年就出现的AI算法，FastForward，在这个评测中可以达到100%的准确率，赤裸裸的贴脸开大。并且，FastDownward 运行速度快且成本便宜。比 o1 型号的成本效益高出几个数量级，并且至少具有三倍的性能。

最后，在评估人工智能是否可以承认一个计划，自身是否是无法解决时。o1 表现出，没有能力来评估这个事情。o1-preview 仅在 16% 的情况下将问题识别为无法解决。在很多例子中，模型产生了完全不可行且愚蠢的结果，同时又很能bb。

http://mp.weixin.qq.com/s?__biz=MzkyOTU5NzY1Mw==&mid=2247489483&idx=1&sn=66fa5097df52ff8abe8a6f23faf5f8f4

一手ai news分享 \x26amp; 热点paper解读

最新文章

测试时训练(TTT)太强了！

大模型也能"反悔"了！

Merkle树+RAG，Cursor的秘密曝光!

GraphRAG进化，效率翻倍！

8个月炼出好"钢"，Steel-LLM开源了~

OpenAI发布GPT学习法则~

465次实验炸出大模型量化真相

Qwen2.5.1 Coder系列开源来袭！冲！

一篇大模型RAG最新综述

解密o1，六大推理秘诀大曝光！

GraphRAG 0.4来袭：增量更新+DRIFT，起飞~

Llama 3退位，腾讯Hunyuan强势登顶

文本分块的天花板来了~

三连发！1.7B小模型把大厂干懵了~

给RAG装上眼睛，性能暴涨39%！

AI助攻SCI，这招太强了

KAG来了，RAG慌了！

传统RAG凉凉？多模态RAG带来工业级革命

AutoRAG开源：RAG界的AutoML终于来了！

智谱大气！首个语音到语音国产大模型开源

大模型数学能力翻车实锤！Apple新研究暴露真相~

prompt要自己写自己了！大厂扎堆放大招~

Claude昨夜王炸！新模型暴打o1，还能玩电脑~

RAG遇上知识冲突，Google祭出终极大招~

向o1看齐，google开源RAG推理扩展，提升近60%

微软开源，CPU推理100B模型，速度飞起~

Llama3 太炸裂了！远超过去的体验！

英伟达一夜封神，开源新模型打进全球前三！

忘记社区，lightrag开源graph的又一用法

entropix，终于找到了真正解决幻觉的方法了

是时候更新vllm了，新版吞吐提升2倍

openai今天open了2下，prompt自动生成器、Agent框架开源

手撕LLM+RLHF+VLM+o1推理，我全都要!!!

现实再次给大模型带来沉重打击

cde，世界上最好的 BERT 大小文本嵌入模型

卷疯了！开源社区离openai o1越来越近~

openai突发上架新模型：gpt4t-lu-test

SFT无需指令，响应微调开源~

点赞送书啦！大模型应用落地指南

Meta刚开源llama 3.2多模态，就被打败了~

cot-decoding，谷歌把o1的底裤都开源了

openai终于open了，开源了，别骂了~

免费送！我们出版了首本大模型RAG书籍

如果思维链都满足不了你，那思维图尼？

RL驱动的Reflection炼丹，谷歌开源SCoRe

大模型Agent，如何利用历史经验自我进化？

OpenAI o1时代，RLHF和多模态我全都要！！！

Qwen2.5系列开源来袭！冲！

达到草莓的70%！首个open o1项目开源

疯狂24h后，openai o1有哪些新的秘密？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉