首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

4种提示词格式大PK：JSON最佳，且比Markdown准确率高两倍！

旅行 2024-11-26 09:00 北京

提示词格式对大语言模型（LLM）性能的影响究竟有多大？

最近的一项研究揭示了一个令人惊讶的事实：不同的提示词格式对LLM的性能有着显著的影响。

这项研究由微软和MIT的研究人员共同完成，他们将相同的提示词内容分别以Markdown、Plain text、YAML和JSON四种格式输入到OpenAI的GPT模型中，结果显示，JSON格式的提示词在某些任务中的准确率竟然是Markdown的两倍！

研究团队在多个任务和数据集上进行了实验，包括自然语言推理、代码生成和翻译等，结果表明，GPT-3.5-turbo在代码翻译任务中的性能因提示词格式的不同而变化高达40%。而更大的模型如GPT-4则对这些变化表现出更强的鲁棒性。

独立AI研究员Guilherme(@guilherme_addr)对此表示惊讶：

「JSON的准确率是Markdown的两倍？这太惊人了。」

研究还发现，即使是同一系列的模型，如GPT-3.5-turbo-0613和GPT-3.5-turbo-16k-0613，它们对提示词格式的偏好也有所不同。

这表明，即使是微小的格式变化，也可能对模型的性能产生重大影响。

Maziyar PANAHI(@MaziyarPanahi)指出：

「当我们要求Claude或任何GPT模型优化提示词时，它们总是使用Markdown。我从未见过LLM建议使用JSON。也许我们应该停止依赖LLM来生成提示词。」

此外，研究团队还强调，不同的提示词格式在不同的任务中表现不同，没有一种格式是普遍最优的。这为未来的提示词工程提出了新的挑战和机遇。

0xultrainstinct💢(@0xUltraInstinct)建议：

「我们应该利用这些统计数据，让LLM为我们生成最佳的提示词。」

这项研究不仅揭示了提示词格式对LLM性能的显著影响，还为未来的提示词设计和优化提供了宝贵的见解。随着LLM的不断发展，我们可能需要重新思考如何与这些智能模型进行最有效的交互。

论文地址：

https://arxiv.org/abs/2411.10541

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

http://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453457953&idx=2&sn=c6ec9c4460e6c67740b808e92d063383

关注AGI 的沿途风景！

最新文章

中国生成式AI大会即将登陆上海，50+位嘉宾全解大模型、AI Infra、端侧AI、视频生成和具身智能，分会场完整议程已出炉！

用这一招，3090 轻松运行32B 模型！

Tesla Optimus 机械手升级至22个自由度，比你还要灵活！

全价版o1将定价每月2000美元，谁会为它买单？

重磅突破！ZipNN 可将模型大小压缩50%！

Qwen重磅发布QwQ推理模型，超越OpenAI o1

xAI要开游戏工作室了！马斯克：让游戏再次伟大！

OpenAI首席商务官：2025年将迈向第4、5级AGI！

苹果M4芯片硬刚RTX 3090！

刚刚，软银给OpenAI加注15亿美元，并允许员工套现！

小心！LLM 正偷偷黑进你的电脑！

英伟达发布音频模型Fugatto，可以学狗叫！

揭秘英伟达 A10 与 A10G 性能差异！

重磅！Reka AI 研究科学家Yi Tay正式宣布重返Google DeepMind！

JSON 才是大模型输出的噩梦？！

重磅！OpenAI 因盗用13万部影视训练模型而被诉！

OpenAI 即将带来的圣诞礼物：full o1、Sora还是Orion？

刚刚，苹果携手谷歌遭英国反垄断调查！

凉凉？！苹果计划于2026年启动大模型版Siri

Uber计划收购中国自动驾驶公司股份！

岌岌可危的摩尔定律，正被ASML 的EUV 光刻机续命！

Anthropic重磅发布MCP协议，或许这才是AGI的真正形态！

15分钟！用Windsurf完成markdown转换工具开发

4种提示词格式大PK：JSON最佳，且比Markdown准确率高两倍！

Cursor is AGI！

重磅！OpenAI推理AI霸主地位不保，新玩家纷纷入场

重磅！英伟达发布 H200 NVL！

年轻人们已陷入「AI 哀伤七阶段」

马斯克：人类文明只是宇宙的一瞬，我们必须成为多星球物种！

OpenAI 翻车，Whisper也会产生幻觉！

前谷歌CEO埃里克·施密特：脱缰的AI已近，但普通人尚未做好准备！

FridonAI：用AI驱动的加密货币分析工具！

Cursor 推出 v0.43，自动编程代理来了！

Gradio推出一键添加Logo魔法，开启品牌无限可能！

Grok 全新「专注模式」出炉，背后还隐藏着这些秘密！

FastBinaryEncoding——序列化格式王者来袭：秒杀JSON和Protobuf，性能提升10倍！

星际穿越TARS 开源！你也能拥有一个AI机器人了！

小心，你正在被AI 进行职场监控！

再也不能相信ChatGPT 写的代码了！

你知道吗？Qwen2VL可以一键重标注百万图片数据集

英伟达或成首个10万亿公司！

AI的下一个进化时代——后训练都有哪些开源项目？

ChatGPT 将推出屏幕分享功能！

GPT-4o 代码能力暴跌，开发者集体转投 Claude！

警惕AI投毒！ChatGPT 写的代码导致私钥被盗，损失数万元！

重磅！谷歌Gemini 2.0 将于12月第二周发布！

刚刚，苹果发布AIMv2，再次搅动视觉AI江湖！

DeepLearning.AI放大招：5大AI学习路线图，你的专属进阶之路！

人工智能正在取代人类的就业市场！

刚刚，美国司法部要求谷歌出售Chrome！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉