NICE42期 | 语言模型不听话怎么办？关于格式忠实性的探索

教育 2025-01-01 19:39 江苏

1. 主题

语言模型不听话怎么办？关于格式忠实性的探索

2. 时间

2025.1.3 20:00-21:00

3. 引言

遵循给定的格式要求生成结构良好的文本是大语言模型的一项基本功能。然而，语言模型往往不能充分满足这些要求。我们将这一功能称为“格式忠实性”，并对其展开研究。通过对格式相关问题的广泛考察，我们提出了以模型为中心的格式忠实性衡量基准。通过对格式相关问题可识别性的认识，我们提出了基于强化学习的语言模型适配方法。

相关研究形成的论文收录于AAAI2025。

论文：ReFF: Reinforcing Format Faithfulness in Language Models across Varied Tasks
链接：https://arxiv.org/abs/2412.09173

4. 大纲

格式忠实性的概念
FormatBench：格式忠实性的评估
ReFF：格式忠实性的提升

5. 个人介绍

姚嘉树，北京理工大学博士生，本科毕业于北京理工大学。曾在 ACL、AAAI 以第一作者身份发表论文。研究兴趣包括机器翻译、大模型安全、具身智能等。

入群

欢迎加入NICE每周分享交流群，可与NICEer唠嗑，以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证，群内无广告。

深度学习自然语言处理

一个热衷于深度学习与NLP前沿技术的平台，期待在知识的殿堂与你相遇~

最新文章

聊聊PRM（过程奖励模型）

2024 年度总结 LLM System Research：过去半年的科研心路历程

强大推理背后的危机：PRMBench 揭示过程级奖励模型的潜在缺陷！

Virgo：类o1多模态大模型的初步探索

24届毕业生聊PhD就业，国内or国外、学术界or工业界or创业

清华团队靠强化学习让 7B 模型打败GPT-4o数学推理

博士生罢工、工资上涨、学术头秃：PI生存指南

[vLLM vs TensorRT-LLM]：动态序列长度场景对比

图解Megatron TP中的计算通信overlap

从infra的视角聊聊DeepSeek-V3

手写self-attention的四重境界 self-attention

o1类大模型的过度思考: 2+3=？

2024年RAG：回顾与展望

Building effective agents笔记

微软公布OpenAI闭源模型参数！4o-mini 8B！

NICE42期 | 语言模型不听话怎么办？关于格式忠实性的探索

评价deepseek v3：又一个相信自己比英伟达懂GPU计算并做到了的团队

DeepSeek-V3技术报告解读

《大语言模型》：人工智能时代的知识盛宴，大模型中文书籍震撼发售！

OpenAI-o3 与 Monte-Carlo 思想

NICE41期 | 大模型评估的新视角：理论指标创新与下游任务应用分享

让Agent"少说废话"！打造高效的LLM多智能体系统

游凯超：我与vLLM的2024，很Passion！

最新RAG综述：15种经典RAG框架综述（上）

最新RAG综述：15种经典RAG框架综述（下）

LLM实践--支线：分布式训练框架的编程基础

NICE40期 | 自动生成模型卡与数据卡：迈向负责任的人工智能

刘鹏飞老师组研发PC Agent，让 AI 替你熬夜做 PPT

LLM，一艘方向不对但积重难返的华丽游轮...

o1复现的一点点心得

深度学习工作：从追求 SoTA 到揭示新现象

大模型推理张量并行的4种模式

百度&人大：长文本LLM全排序能力新方法

212页PPT：大模型时代的具身智能

RWKV-7：极先进的大模型架构，长文本能力极强

今天Qwen2.5技术报告发布啦！

Anthropic: 预训练阶段引入人类反馈更安全

图解OpenRLHF中基于Ray的分布式训练流程

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

实践指南: hzwer大佬的模型优化与迭代策略

如何用一个统一的视角，分析RLHF下的各种算法？

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

只要捞"偏门"，篇篇都是顶会顶刊！

圆桌会 | 荣幸邀请到Meta、OSU、哈佛&MIT学者来分享Agent前沿~

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

模仿、探索与自我提升：慢思考推理系统的复现之路

大模型Infra王朝2024

今晚8:30，荣幸邀请到电影导演和LLM科学家一起聊聊对多模态的见解

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

如何增强大模型推理？Meta最新提出《大型概念模型》在句子表示空间中的语言建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉