针对这些问题微信团队提出全新的多模态大模型——POINTS
论文地址:https://arxiv.org/pdf/2409.04828
论文源码:https://github.com/WePOINTS/WePOINTS
项目主页:https://huggingface.co/papers/2409.0482
模型结构
POINTS是将现在的开源工作中的动态高分辨率,CapFusion,双视觉编码器,Individual Select等技术进行了整合,并提出一种新的动态分辨率分割方法,得到一个更加稳健和高效的baseline。
CATTIY 的具体步骤如下:
首先,预定义图像可以分割成的最大图块数(默认设置为8)。 列出图块数不超过最大图块数的所有整数分辨率组合。 给定一个高度为H和宽度为W的图像,确定与分辨率最近的整数分辨率,乘以编码器的图像尺寸,得到目标图像的高度Hr和宽度W,并通过以下公式将图像大小调整为目标大小Ht × Wt:
实验结果
除了 OpenCompass 的8个基准外,POINTS论文中增加了ScienceQA、MME、LLaVA-Wild 和 ReadWorldQA 更详细地与目前领域内最先进的模型进行比较。
POINTS的性能可与现有类似尺寸的模型媲美,甚至超越更大参数量的模型性能,如 Cambrian-34B。此外,与其他模型相比,POINTS 使用的预训练数据集和指令调优数据集更少且是公开可用的。
总结
POINTS 融合了多项创新技术。它采用保持纵横比的高分辨率动态显示(CATTY)、CapFusion 技术整合图像描述、双视觉编码器架构,并引入了基于 perplexity 的预训练数据筛选策略。POINTS 还利用 Individual Select 方法选择指令调优数据,并创新性地应用 Model Soup 技术来融合不同数据集训练的模型。
结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务
📞若您有相关需求,欢迎点击下方链接与我们沟通洽谈
🗨️也可以在公众号后台给我们留言
[1] https://mp.weixin.qq.com/s/ntg_WXeIOity9BhaUx4LGA
[2] https://arxiv.org/pdf/2409.04828
[3] https://zhuanlan.zhihu.com/p/721170549