改个名字，数倍提升Function Calling准确率！

文摘 2024-12-05 09:07 湖北

❝
Hammer模型提出了一种创新的Function Calling模型训练方法，其中核心思想之一是通过函数和参数命名的调整来增强模型的鲁棒性，减少因命名模糊性或不一致性引发的错误。

你好啊，我是小智，今天我将详细解析Hammer模型如何通过函数名和参数名的修改，数倍提升模型在Function Calling任务中的准确性。

改名提升模型性能，看似玄学也有依据

简洁命名的模糊性

在大多数编程语言中，函数名和参数名都是对功能的抽象表达。通常情况下，简洁的命名规则便于代码阅读与理解，但当这些简洁的命名被直接作为模型输入时，可能会导致一定程度的模糊性。例如，假设我们有一个名为get_data的函数，该函数可能用于从数据库、文件或网络获取数据，但不同的上下文可能会让模型难以判断其真正用途。

特别是在存在复杂功能的情况下，简洁的命名约定可能导致误导。例如，save可能表示保存文件、保存数据，甚至是提交数据库事务。此时，模型仅依赖函数名推断函数目的时，简洁命名反而可能降低准确性。

同名参数的误导性

同样，函数参数名的命名惯例也可能影响模型的判断。在数据集中，不同的函数可能使用相同或类似的参数名，导致模型在推断过程中受到历史数据的干扰。比如，data或input等参数名可能在不同的函数中具有完全不同的含义，但如果模型只依据参数名来推断其用途，可能会引发错误推断。

命名约定的不一致性

在实际开发中，命名约定常常因团队、项目或语言的不同而存在差异。例如，驼峰式命名（CamelCase）和下划线式命名（snake_case）在同一数据集中可能并存。如果训练数据集中的命名方式与测试环境中的不一致，模型的表现可能会受到负面影响。在这种情况下，模型可能无法准确理解不同命名方式的函数或参数，影响其调用的准确性。

Schema描述更加准确有力

Schema描述提供了更灵活的自然语言解释，往往更准确和详细，并通常包含函数和参数名称旨在传达的信息"。

函数和参数名称的简洁和简洁格式可能会导致歧义，并误导模型的理解，特别是在存在复杂功能的情况下。相比之下，描述提供了对函数作用和预期行为的更全面的视角，超越了函数和参数名称所能传达的内容。通过关注描述而不是名称，模型可以更准确地把握函数的意图，并避免训练数据中特定命名模式引入的陷阱。

如何实现改名后的模型训练

增强数据集：微调与多样性提升

为了提升函数调用准确率，Hammer模型采用了增强数据集的策略。在此方法中，模型通过对数据集进行扩展，尤其是在xLAM-function-calling-60k数据集上增加了7,500个实例，这些实例专注于检测无关性，从而使得模型能够更好地区分相关和无关的函数调用。

通过这种增强方式，模型能够更好地处理在训练集和测试集之间存在的命名不一致性。对数据集的微调不仅提高了模型对函数名的敏感度，也让模型学会了如何忽略无关的参数和函数。

函数屏蔽：减少对名称的依赖

Hammer模型采用了函数屏蔽技术，在训练过程中随机将候选函数名称替换为随机字符串。这一策略的核心思想是使得模型更关注函数的功能描述，而非函数名称。这种方式迫使模型理解函数的功能，而不仅仅是通过名称来推测其目的。

具体来说，模型通过仅仅理解函数的输入输出及其描述来进行函数调用，而非依赖可能模糊或误导的名称信息。例如，在训练过程中，模型可能会遇到如下两种情况：

原始命名： get_user_data(user_id)
屏蔽后的命名： function_1234(arg1)

在屏蔽后的训练过程中，模型不会通过get_user_data来猜测其功能，而是通过函数描述或参数来推断其功能。

函数描述的优化

除去函数名本身，函数描述也是模型理解函数目的的重要线索。通过增强训练集中的函数描述，并将这些描述与输入输出匹配，模型能够更好地学习到函数的实际功能。这一过程涉及到对数据集的精细化处理，使得每个函数都附带一个尽可能详细的描述。

这种优化策略，结合函数屏蔽和增强数据集的手段，能有效提升模型对函数调用的准确性和鲁棒性。

启发

高质量数据是金矿

在任何机器学习任务中，高质量数据都至关重要。而数据的质量不仅仅体现在标注的准确性，还包括数据的多样性和丰富性。Hammer模型的成功不仅仅在于使用了大规模的数据集，更在于对已有数据进行了精细化的改造和优化。作为AI工程师，我们应该从数据源的多样性和质量上投入更多精力，而不仅仅关注模型的复杂度。

从人的角度出发

大多数工程师在设计函数时，往往是从功能描述出发，而非仅依赖函数名称。这一思维模式实际上与模型的思维方式存在类似性。通过从人的角度理解模型如何处理函数调用，我们可以发现许多潜在的优化空间。例如，考虑到工程师在编写函数时会根据其功能来定义参数，而不仅仅依赖参数名本身，模型也应该更多地关注函数的功能描述。

今天的内容就到这里，如果老铁觉得还行，可以来一波三连，感谢！

参考链接：

[1][2410.04587] Hammer: Robust Function-Calling for On-Device Language Models via Function Masking

AI小智

AI认知架构师，让我们一起用AI改变世界！

最新文章

LangChain 2024年人工智能发展报告

《一书解决几乎所有机器学习问题》.PDF下载

AI 打工我躺平｜大厂前端摸鱼指南

大模型面试实战！Prompt调优

改个名字，数倍提升Function Calling准确率！

如何生成Function Calling微调数据？

又一本开源免费的大模型书来了，449页pdf！

作为开发者，我如何提高任务型大模型应用的响应性能

总算有人把智能体记忆说清楚了

军用大模型现世，AI战争新时代

AI创造者计划,通义开启电影创作新时代

探索LLM推理全阶段的JSON格式输出限制方法

小米SU7智能举报不用等，我用智谱的GLM-4-Plus搞定了！

AI最大的应用是什么，如何成为初代AGI产品经理？

光与AI：视障玩家的《黑神话：悟空》挑战

必须为孩子存下来的提示词，像玩黑神话游戏一样学习

LangChain百万代码全解析：这个模型胃口很大！

可信Agent构建之道：AI如何重塑工作流？

AI界的新宠：揭秘Llama 3.1如何革新AI合成技术

LLM工具调用破局：Few-shot Prompting

如何改进Agents的推理与规划?

Agent智能体？我们要的到底是什么

难倒吴恩达的LLM评估，有解吗？

全新发布：LangGraph开启认知架构新纪元

探索GLM4-ALLTools：全能AI工具箱，释放开发者潜能

大模型能力分水岭数学考试，文心一言超gpt4o排名第一

吴恩达揭秘：编程Agent如何革新软件开发行业

全网爆火的AI狼人杀：开源了

Hugging Face全面拥抱LangChain：全新官方合作包

无需魔法,无需插件,国内网络即刻愉快的使用搭载GPT4的Newbing!

AI办公自动化｜使用New Bing和Python实现Word转Excel

无网络限制人人可用的ChatGPT-Claude

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉