POINTS多模态大模型亮相:微信团队打造,高效简洁性能强

文摘   2024-10-28 20:52   江苏  
2022年末,OpenAI推出ChatGPT,引起了业界内的关注,随后推出的GPT-4.0大火让LLM(自然语言大模型)进入到大众视野。经过一年多的发展,人工智能由LLM像向VLM(视觉语言模型)发展,各种闭源与开源模型竞相涌现,这场视觉AI的狂欢也面临着模型透明度不足数据需求量大等几个棘手的问题。

针对这些问题微信团队提出全新的多模态大模型——POINTS

论文地址:https://arxiv.org/pdf/2409.04828
论文源码:https://github.com/WePOINTS/WePOINTS
项目主页:https://huggingface.co/papers/2409.0482


模型结构


POINTS是将现在的开源工作中的动态高分辨率,CapFusion,双视觉编码器,Individual Select等技术进行了整合,并提出一种新的动态分辨率分割方法,得到一个更加稳健和高效的baseline。

POINTS模型结构图
将高分辨率图像提供给视觉语言模型有利于捕捉细粒度细节减少幻觉,因此动态高分辨率方法被广泛用于VLM中POINTS提出的新的动态分辨率分割方法(CATTIY )与目前开源工作中的方法不同的是在对高分辨率图像进行切分时保持了图块的纵横比,避免了图像失真的问题。

动态分辨率方法比较

CATTIY 的具体步骤如下:

  • 首先,预定义图像可以分割成的最大图块数(默认设置为8)。
  • 列出图块数不超过最大图块数的所有整数分辨率组合。
  • 给定一个高度为H和宽度为W的图像,确定与分辨率最近的整数分辨率,乘以编码器的图像尺寸,得到目标图像的高度Hr和宽度W,并通过以下公式将图像大小调整为目标大小Ht × Wt:

为了增强光学字符识别(OCR)能力,POINTS训练了一个单独的视觉编码 OCR ViT,从图像中提取文本特征。
POINTS没有从零构建图文对的训练样本,而是使用PaddleOCR提取的文本结果构建数据集,并在数据集中加入描述自然图像的caption组成完整的预训练数据集,将完成训练的 OCR ViT 通用视觉编码器(通用 ViT)用过加权平均值合并,然后输入到大型语言模型中。


实验结果


除了 OpenCompass 的8个基准外,POINTS论文中增加了ScienceQAMMELLaVA-WildReadWorldQA 更详细地与目前领域内最先进的模型进行比较。

POINTS的性能可与现有类似尺寸的模型媲美,甚至超越更大参数量的模型性能,如 Cambrian-34B。此外,与其他模型相比,POINTS 使用的预训练数据集和指令调优数据集更少且是公开可用的。



总结



POINTS 融合了多项创新技术。它采用保持纵横比的高分辨率动态显示(CATTY)、CapFusion 技术整合图像描述、双视觉编码器架构,并引入了基于 perplexity 的预训练数据筛选策略。POINTS 还利用 Individual Select 方法选择指令调优数据,并创新性地应用 Model Soup 技术来融合不同数据集训练的模型。
这些方法的结合使 POINTS 和目前主流的模型相比取得了优势,同时POINTS也为视觉语言模型领域的发展提供了新的思路和方法,很多组件都是可以复用的,目前代码还没有完全开源,后续开放全部代码可以进行详细的分析和讨论。
槿墨AI
产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求,欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言


[1] https://mp.weixin.qq.com/s/ntg_WXeIOity9BhaUx4LGA

[2] https://arxiv.org/pdf/2409.04828

[3] https://zhuanlan.zhihu.com/p/721170549


槿墨AI
开启探索人类未来命运的旅程,拥抱如槿似墨的无限可能。
 最新文章