近日,CVPR 2024 公布录用结果,我组 3 篇论文入选。
IEEE 国际计算机视觉与模式识别会议 (IEEE Conference on Computer Vision and Pattern Recognition,简称CVPR) 是由 IEEE 主办的一年一度的全球学术性顶级会议,会议的主要内容是计算机视觉与模式识别技术。该会议始于 1983 年,与 ICCV 和 ECCV 并称计算机视觉方向的三大顶级会议。
我组中稿论文信息
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
多模态技术是 AI 多样化场景应用的重要基础,多模态大模型展现出了优秀的多模态信息理解和推理能力,正成为人工智能研究的前沿热点。然而,与大语言模型一样,多模态大模型也依然受到“幻觉”问题的困扰,即模型在回答中出现与图片信息不符的内容。经过测试发现,即便是 GPT-4V 也会在 45.9% 的图片回答中出现明显的“幻觉”。为缓解多模态大模型的幻觉问题,清华大学联合新加坡国立大学提出了全新的多模态大模型对齐框架 RLHF-V,从数据和算法层面入手显著减少“幻觉”的出现。应用该方法训练的开源模型 OmniLMM-12B 在多个幻觉指标上取得了接近 GPT-4V 的水平。
作者: 余天予,姚远,张皓烨,何泰文,韩译锋,崔淦渠,胡锦毅,刘知远,郑海涛,孙茂松,Tat-Seng Chua
合作单位: 新加坡国立大学
➤ 论文链接
📑 https://arxiv.org/abs/2312.00849
➤ 项目主页
🌐 https://rlhf-v.github.io
➤ 代码链接
🔗 https://github.com/RLHF-V/RLHF-V
➤ 数据集链接
🗳️ https://huggingface.co/datasets/HaoyeZhang/RLHF-V-Dataset
➤ 模型链接
🗿 https://huggingface.co/openbmb/OmniLMM-12B
➤ Demo
🪧 http://120.92.209.146:8081
Can Vision-Language Models Think from a First-Person Perspective?
目前很多评测工作探究视觉语言大模型在不同维度上的能力,但都忽视了真实世界中非常重要的一点:未来作为智能体或机器人的大脑,多模态模型应当具备从第一人称视角理解世界的能力。针对以上问题,清华大学提出了第一人称视角的视觉问答基准数据集——EgoThink。EgoThink 数据集定义了在真实世界中从第一人称思考时所需的六种核心能力,并评估了十八个主流的视觉语言大模型的表现。评测结果显示,目前阶段的视觉语言大模型从第一人称视角进行思考的能力仍有显著欠缺,即使是GPT-4V模型在所有任务上的平均分也仅为65.5(满分100)。
作者: 程思婕*,郭至诚*,武婧雯*,方科晨,李鹏,刘华平,刘洋
合作单位: 清华大学智能产业研究院,多伦多大学,清华大学致理书院
➤ 论文链接
📑 https://arxiv.org/abs/2311.15596
➤ 项目主页
🌐 https://adacheng.github.io/EgoThink/
➤ 代码链接
🔗 https://github.com/AdaCheng/EgoThink
➤ 数据集链接
🗳️ https://huggingface.co/datasets/EgoThink/EgoThink
Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis
当前,图像合成领域因扩散模型的进步而蓬勃发展。尽管扩散模型已经取得了成功,但它们的计算强度促使人们寻求更高效的替代方案。近期,Non-autoregressive Transformers(NATs)因其快速生成的能力而受到关注。然而,这些模型的一个主要缺点是它们通常被认为在性能上落后于最新的扩散模型。在本文中,我们旨在通过重新审视 NATs 的训练和推理策略设计,重新评估 NATs 的全部潜力。具体来说,我们指出了配置这些策略的复杂性,并指出了现有启发式设计中可能的次优性。基于这一点,我们提出 AutoNAT,一种通过自动框架直接寻找最优策略的方法,其有效推进了NATs 的性能边界,能够与扩散模型取得可比的性能,并具有更低的推理成本。
作者: 倪赞林*,王语霖*,周韧平,郭嘉懿,胡锦毅,刘知远,宋士吉,姚远,黄高
合作单位: 清华大学自动化系
关于我们
清华大学自然语言处理与社会人文计算实验室(TsinghuaNLP)成立于 20 世纪七十年代末,是国内开展自然语言处理研究最早、深具影响力的科研单位,也是中国中文信息学会计算语言学专业委员会及中国人工智能学会因果与不确定性人工智能专业委员会的挂靠单位。实验室在学术总体带头人孙茂松教授及学术方向带头人刘洋教授、刘知远副教授的带领下,围绕以中文为核心的自然语言处理,在语言大模型、跨模态大模型、中文信息处理、机器翻译、知识图谱、智慧教育、社会人文和艺术计算等方面开展系统深入的研究,在国内外具有较大的学术影响。近年来,实验室承担了国家 973 项目、国家重点研发项目、国家社会科学基金重大项目等多项重要研究任务,并与腾讯、华为、搜狗等企业建立密切的学术合作关系。
Website:http://nlp.csai.tsinghua.edu.cn/
Email:thunlp@163.com
GitHub:https://github.com/thunlp
https://github.com/OpenBMB
Twitter:https://twitter.com/TsinghuaNLP
THUNLP 长期开放招聘|含实习
🎓 科研团队:七大研究方向 ➤ 点击阅读原文
模块化大模型
数据-模型孪生技术
工具学习与自主智能体
大模型群体智能
大模型对齐
多模态大模型
大模型训练动力学
💻 工程师团队 ➤ 点击阅读原文
大模型方向研究员
大模型算法工程师
多模态数据工程师
NLP算法工程师
大数据基础架构高级工程师
前端工程师
后端工程师
全栈工程师