今天是2024年12月09日,星期一,北京,天气晴。
今天,我们来看三个有趣的的话题,一个是文档多模态图片embedding表示方案DSE,回顾下之前的系列方案;一个是关于多模态等benchmark类的一些趋势-数据合成以及多模态模型是否理解图表;一个是最近AI搜索应用的一个新风向:从理解转向生成。
抓住热点,跟进前沿,把握方向,供各位参考,多思考,多总结,多实践;
一、文档多模态图片embedding表示方案DSE
关于文档智能进展这一点,我们已经在多模态RAG(https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3724150715762409475)这个专题中做了不少介绍。
而其中一个比较关键的点是,文档截图的Embedding表示,其本质需要解决的事如何在多模态文档检索中实现统一输入格式,避免繁琐的内容提取预处理步骤,并保留文档中的所有信息(如文本、图像和布局)。传统方法在处理多样化的文档类型和内容时效率低下,且会破坏文档的原始外观和布局完整性,例如使用OCR等方法,先将文档图像转换为对应的文本信息,再使用BM25等方案完成检索。
所以,无论是文本路线的BM25,DPR等,图片路线CLIP,DSE等,都可关注,工业界各种应用使用的都是这类模型进行集成。而具有差异性的,就是如何获取一个更好的文档图像类的embedding,可以看看今年6月份的一个工作《Unifying Multimodal Retrieval via Document Screenshot Embedding》(https://arxiv.org/pdf/2406.11251),提出了一个新的embedding方案DSE,利用多模态模型直接对文档截图进行编码,保留了文档中的所有信息(如文本、图像和布局)。可以看看几个核心的点。
一个是架构的设计,DSE采用双编码器架构,分别对文档截图和用户文本查询进行编码,分别是图像的编码和文本的编码两种。文档截图和用户文本查询分别通过视觉编码器和文本编码器编码成密集向量。视觉编码器将文档截图处理成一系列潜在表示,而文本编码器则将文本查询编码成向量。
其中,视觉编码器使用clip-vit-large-patch14-336l作为视觉编码器,将截图转换为336x336像素的图像,并分割成24x24个path,每个patch包含14x14像素。每个patch被展平并通过可训练的线性投影映射到补丁嵌入中。
为了更好地捕捉细粒度的文本信息,采用Phi-3-vision过将截图分割成更小的子图像来生成更多的补丁潜在表示。该模型可以通过裁剪图像生成更多的补丁表示,具体地,将截图分割成(Cx x 336) x (Cy x 336)像素的子图像,每个子图像编码成576个patch潜在表示,并额外生成一个全局patch表示,总共生成(Cx x Cy + 1) x 576个patch潜在表示。
当然,增加补丁数量可以提高检索效果,但会降低计算效率。
最后,在训练方式上,很常规的使用对比学习simcs,使用InfoNCE损失函数优化嵌入模型,计算查询和文档之间的相似度,
整体的效果也不错,可以看看对比结果:
二、关于多模态等benchmark类的一些趋势:数据合成
另外,针对多模态等benchmark类论文写法,核心两点,合成数据,训模型,测大模型,出评估结论。所以合成数据这块也是近期关注的点,很多渲染工具也都用起来了。例如最近也有做表格的合成数据、之前也有图表的合成数据如onechart。
例如,关于数据合成进展,Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models,大模型合成数据的质量、多样性和复杂性及其对下游模型泛化能力的影响,https://arxiv.org/abs/2412.02980,相关的还有《Evaluating Language Models as Synthetic Data Generators》,https://arxiv.org/abs/2412.03679。
但这些其实也一直有个问题,就是,现有的多模态大模型是否真正理解图表【做过不少实验,验证是并不理解的】,有趣是对于化学式等,例如最近的工作《VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information》,https://arxiv.org/pdf/2412.00947,再次印证多模态大模型表现其实并不好。看三张图。
一个是任务情况:
一个是进行的数据合成:
一个是模型的表现:
三、最近AI搜索应用的一个新风向:从理解转向生成
AI搜索应用,本身做的是内容的理解和呈现,但实际上并不够业务端,目前的趋势是往生成上去靠,所以可以看到,腾讯的ima,就是在个人知识管理上做了一个内容创作的切入。
而内容创作,又不单单局限于文本,也会涉及到语音、谁能等,创作,例如,关于智能播客生成,最近纳米搜索引起的博客生成应用,AI Podcast Generator,自动从网络来源抓取新闻内容,生成音频播客,https://github.com/Mustafa-Esoofally/podcast-engine-groq;
类似的还有ClipTurbo短视频生成工具,可自动处理文案、翻译、图标匹配、TTS语音合成等功能:
这些开源的项目也印证了这一趋势。
总结
本文主要看三个有趣的的话题,一个是文档多模态图片embedding表示方案DSE,回顾下之前的系列方案;一个是关于多模态等benchmark类的一些趋势-数据合成以及多模态模型是否理解图表,其中提到的数据合成的总结可以重点看看;一个是最近AI搜索应用的一个新风向:从理解转向生成,其中提到的开源项目也可以试试。
参考文献
1、https://arxiv.org/pdf/2406.11251
2、https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3724150715762409475
关于我们
老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入