EMNLP2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

文摘 2024-11-01 18:03 意大利

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

点击 阅读原文 观看作者讲解回放！

这篇论文介绍了AppBench，一个评估大型语言模型在复杂用户指令下规划和执行来自多个应用的多项API的新基准。

论文: AppBench: Planning of Multiple APIs from Various APPs for Complex User Instruction - EMNLP2024
链接: https://arxiv.org/pdf/2410.19743
作者：王鸿儒港中文在读PhD
主页：https://rulegreen.github.io

研究背景

研究问题：这篇文章要解决的问题是如何评估大型语言模型（LLMs）在复杂用户指令下规划和执行来自不同来源的多个API的能力。具体来说，研究了两个主要挑战：图结构和权限约束。
研究难点：该问题的研究难点包括：

图结构：一些API可以独立执行，而另一些则需要依次执行，形成类似图的执行顺序。
权限约束：需要确定每个API调用的授权来源。

相关工作：该问题的研究相关工作有：

API调用评估：如API-Bank和ToolBench等，主要关注单次或有限参数的API调用。
语言代理框架：如Chameleon和WebShop等，主要关注与外部工具的交互。

研究方法

这篇论文提出了AppBench，用于评估LLMs在复杂用户指令下规划和执行多个API的能力。具体来说，

任务定义：给定用户指令和虚拟移动环境中的APP家族，meta代理需要决定一个可执行路径，调用不同APP中的不同API来完成任务。任务的形式为列表，每个列表项表示一个APP及其对应的API调用。
数据分类：根据每个用户指令中使用的APP和API数量，数据分为四种类型：

单APP单API（SS）
单APP多API（SM）
多APP单API（MS）
多APP多API（MM）

数据收集：利用现有的任务导向对话数据集（如SGD），通过LLM和Python脚本生成所需的输入和输出。具体步骤包括：

指令获取：从对话中提取用户和系统的发言，输入到LLM中总结用户需求。
规划路径：编写Python脚本解析多轮对话中的API调用，形成规划路径。
质量评估：使用GPT-4o评分每个指令的流畅性和多样性，确保数据质量。

评估指标：设计了两个F1分数（APP和API）和一个整体成功率，考虑任务的复杂性。公式如下：

APP的F1分数：
API的F1分数：
成功率（Succ）：评估LLMs是否能完全执行用户指令，公式为：

实验设计

模型选择：选择了多个开源和闭源的LLMs，包括Mistral-7B、LLaMa3系列、Qwen系列、GPT3.5和GPT-4o。
实现细节：设置了温度和top-p参数为0.1以减少随机性。开源模型的实验在NVIDIA A100 GPU上进行，闭源模型的实验通过OpenAI的API进行。采用分层提示方法，先提示LLMs识别相关APP，再提供特定APP的API描述。
数据收集：从SGD数据集中收集了约1000个样本，每种类型200个，总共4000个样本。使用这些混合数据集对LLaMA3-8B模型进行了微调。

结果与分析

整体结果：GPT-4o在整体性能上表现最佳，LLaMA3-70B在某些单APP场景中表现优于GPT-3.5。其他模型在所有类型的指令中显著落后于GPT-4o。
依赖结构的影响：随着并行和顺序依赖规模的增加，模型性能下降。MM场景最复杂，其次是MS和SM，SS最简单。
不同提示的影响：分层提示对GPT-3.5的性能有负面影响，而GPT-4o在使用平坦提示时表现更好，表明其长上下文理解能力更强。
错误分析：错误主要集中在时间和空间相关的键值上，模型难以准确识别或处理这些值。
微调和上下文学习的影响：微调在一定程度上提高了APP和API的F1分数，但对成功率的提升不大。上下文学习在简单场景中有一定效果，但在复杂场景中效果不明显。

总体结论

这篇论文介绍了AppBench，解决了复杂用户指令下多个API调用的问题。尽管现有的LLMs在处理复杂规划场景时表现不佳，但通过微调和上下文学习可以取得一定程度的改进。未来的工作将集中在自演化或更有效的微调框架上。

往期精彩文章推荐

论文解读 | ECCV2024 HTCL:用于语义场景补全的分层时序上下文

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了2000多位海内外讲者，举办了逾700场活动，超800万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 观看作者讲解回放！

http://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247528861&idx=1&sn=0dd5e30ab7417b731210821b17947597

AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

NeurIPS 2024 | Diff-eRank: 大模型评估的全新视角与方法

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库，还开源

明天11:00 Meta AI 田渊栋博士开讲｜传统符号推理和大模型推理的融合之路

Efficient AIGC｜清华大学NICS-EFC实验室EffAlg团队专场直播

Meta AI 田渊栋博士开讲｜传统符号推理和大模型推理的融合之路

NeurIPS 2024预讲会113位讲者相聚｜11月13日精彩继续

李国齐：原生类脑脉冲通用智能大模型 | NeurIPS 2024 预讲会特邀报告

NeurIPS 2024预讲会113位讲者相聚｜11月12日精彩启动

NeurIPS 2024预讲会 | 浙江大学软件学院专场直播

Big Model weekly | 第44期

NeurIPS 2024 | 香港浸会大学可信机器学习和推理课题组专场直播

NeurIPS 2024预讲会112位讲者相聚｜2场特邀报告+3个团队专场+7个主题方向

今晚19:00直播 | 上亿Token大放送！如何用大模型做好科研？

上亿Token大放送！如何用大模型做好科研？｜11月7日19:00直播

港大打造 LightRAG：让大模型 RAG 高效又便宜

Big Model weekly | 第43期

AgentReview: 利用 LLM Agents 探究同行评审机制

EMNLP2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

论文解读 | ECCV2024 HTCL:用于语义场景补全的分层时序上下文

多模态模型在抽象图表上堪忧，它能充当合格的智能助手么？

今晚19:00 直播 | SIGCOMM 2024 四位一作分享

港大推出「会说话」的推荐系统大模型XRec，从黑盒预测到可解释

SIGCOMM 2024 四位一作分享 | 10月30日19:00

Big Model weekly | 第42期

大模型越狱攻防三部曲：评估、分析与防御

AI的phone use来了，智谱清言上线情感语音模型GLM-4-Voice

NeurIPS 2024 一作讲者招募 | 报名通道持续开放中

《从提示词入门到智能体创造的奥秘》沙龙活动精彩回顾

CNCC 2024 | CCF-智谱大模型创新基金论坛

论文解读 | ECCV2024 一个通用的视频分割框架

仅一行代码，使LLaMA3在知识编辑任务上表现暴涨35%！您确定不来试试嘛？

Big Model weekly | 第41期

论文解读 | ECCV2024 AutoEval-Video：一个用于评估大型视觉-语言模型在开放式视频问答中的自动基准测试

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月19日精彩继续

造船！一起创造AI大模型的未来|求职人看过来

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月18-19全天直播

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

分布偏移中的监督算法公平性研究 | 五篇顶会论文专题分享

10月16日专题分享 | 分布偏移中的监督算法公平行研究

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

Big Model weekly | 第40期

10名科学家Science联名发文：开源大模型被「误解」了

矩阵略图与流数据机器学习 | 10月15日魏哲巍教授开讲

诺奖或将推动AI“爆炸式”发展，听四位PhD畅谈AI热点及首篇paper背后的故事...

2024年诺贝尔物理学奖｜颁给AI教父！机器学习算物理学？听听诺奖委员会怎么说

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉