【前沿进展】文档多模态嵌入表示方案DSE、数据合成及AI搜索应用新风向

文摘 2024-12-09 10:44 北京

今天是2024年12月09日，星期一，北京，天气晴。

今天，我们来看三个有趣的的话题，一个是文档多模态图片embedding表示方案DSE，回顾下之前的系列方案；一个是关于多模态等benchmark类的一些趋势-数据合成以及多模态模型是否理解图表；一个是最近AI搜索应用的一个新风向：从理解转向生成。

抓住热点，跟进前沿，把握方向，供各位参考，多思考，多总结，多实践；

一、文档多模态图片embedding表示方案DSE

关于文档智能进展这一点，我们已经在多模态RAG(https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3724150715762409475)这个专题中做了不少介绍。

而其中一个比较关键的点是，文档截图的Embedding表示，其本质需要解决的事如何在多模态文档检索中实现统一输入格式，避免繁琐的内容提取预处理步骤，并保留文档中的所有信息（如文本、图像和布局）。传统方法在处理多样化的文档类型和内容时效率低下，且会破坏文档的原始外观和布局完整性，例如使用OCR等方法，先将文档图像转换为对应的文本信息，再使用BM25等方案完成检索。

所以，无论是文本路线的BM25，DPR等，图片路线CLIP，DSE等，都可关注，工业界各种应用使用的都是这类模型进行集成。而具有差异性的，就是如何获取一个更好的文档图像类的embedding，可以看看今年6月份的一个工作《Unifying Multimodal Retrieval via Document Screenshot Embedding》(https://arxiv.org/pdf/2406.11251)，提出了一个新的embedding方案DSE，利用多模态模型直接对文档截图进行编码，保留了文档中的所有信息（如文本、图像和布局）。可以看看几个核心的点。

一个是架构的设计，DSE采用双编码器架构，分别对文档截图和用户文本查询进行编码，分别是图像的编码和文本的编码两种。文档截图和用户文本查询分别通过视觉编码器和文本编码器编码成密集向量。视觉编码器将文档截图处理成一系列潜在表示，而文本编码器则将文本查询编码成向量。

其中，视觉编码器使用clip-vit-large-patch14-336l作为视觉编码器，将截图转换为336x336像素的图像，并分割成24x24个path，每个patch包含14x14像素。每个patch被展平并通过可训练的线性投影映射到补丁嵌入中。

为了更好地捕捉细粒度的文本信息，采用Phi-3-vision过将截图分割成更小的子图像来生成更多的补丁潜在表示。该模型可以通过裁剪图像生成更多的补丁表示，具体地，将截图分割成(Cx x 336) x (Cy x 336)像素的子图像，每个子图像编码成576个patch潜在表示，并额外生成一个全局patch表示，总共生成(Cx x Cy + 1) x 576个patch潜在表示。

当然，增加补丁数量可以提高检索效果，但会降低计算效率。

最后，在训练方式上，很常规的使用对比学习simcs，使用InfoNCE损失函数优化嵌入模型，计算查询和文档之间的相似度，

整体的效果也不错，可以看看对比结果：

二、关于多模态等benchmark类的一些趋势：数据合成

另外，针对多模态等benchmark类论文写法，核心两点，合成数据，训模型，测大模型，出评估结论。所以合成数据这块也是近期关注的点，很多渲染工具也都用起来了。例如最近也有做表格的合成数据、之前也有图表的合成数据如onechart。

例如，关于数据合成进展，Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models，大模型合成数据的质量、多样性和复杂性及其对下游模型泛化能力的影响，https://arxiv.org/abs/2412.02980，相关的还有《Evaluating Language Models as Synthetic Data Generators》，https://arxiv.org/abs/2412.03679。

但这些其实也一直有个问题，就是，现有的多模态大模型是否真正理解图表【做过不少实验，验证是并不理解的】，有趣是对于化学式等，例如最近的工作《VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information》，https://arxiv.org/pdf/2412.00947，再次印证多模态大模型表现其实并不好。看三张图。

一个是任务情况：

一个是进行的数据合成：

一个是模型的表现：

三、最近AI搜索应用的一个新风向：从理解转向生成

AI搜索应用，本身做的是内容的理解和呈现，但实际上并不够业务端，目前的趋势是往生成上去靠，所以可以看到，腾讯的ima，就是在个人知识管理上做了一个内容创作的切入。

而内容创作，又不单单局限于文本，也会涉及到语音、谁能等，创作，例如，关于智能播客生成，最近纳米搜索引起的博客生成应用，AI Podcast Generator，自动从网络来源抓取新闻内容，生成音频播客，https://github.com/Mustafa-Esoofally/podcast-engine-groq；

类似的还有ClipTurbo短视频生成工具，可自动处理文案、翻译、图标匹配、TTS语音合成等功能:

这些开源的项目也印证了这一趋势。

总结

本文主要看三个有趣的的话题，一个是文档多模态图片embedding表示方案DSE，回顾下之前的系列方案；一个是关于多模态等benchmark类的一些趋势-数据合成以及多模态模型是否理解图表，其中提到的数据合成的总结可以重点看看；一个是最近AI搜索应用的一个新风向：从理解转向生成，其中提到的开源项目也可以试试。

参考文献

1、https://arxiv.org/pdf/2406.11251

2、https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzAxMjc3MjkyMg==&action=getalbum&album_id=3724150715762409475

关于我们

老刘，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。

加入会员方式：关注公众号，在后台菜单栏中点击会员社区->会员入群加入

老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

最新文章

大模型用于情报分析时间线生成(TLS)任务：根本问题及两个代表工作

OCR噪声对RAG性能的影响分析：兼谈公众号文章的价值正确定位

60k感知算法岗面试，考察热门Occ算法及难点！

技术实践指引：3个适合练手的开源数据及项目平台

语音处理落地组件全家桶：语音大模型、数字人、语音到文本、文本转语音全集

老刘说NLP社区2024年终演讲：回顾得失，踏实前行

GraphRAG范式的新角度思考及一个很有信息量的总结

大模型4大神书《动手学大语言模型之语言理解和生成》分享

RAG落地端侧场景：EdgeRAG面向端侧RAG优化思路及特定领域多模态探索

2025年开篇：技术及宏观角度回顾2024年大模型发展

老刘说NLP及大模型的2024年终总结—不悲不喜、继续前行

GraphRAG前沿进展：引入本体的OG-RAG及HYBGRAG实现思路

大模型与知识图谱结合之三元组预测及GEAR多跳问答思路

老刘说NLP技术社区共享：围绕知识图谱+大模型+文档智能三驾马车前进

多模态RAG中的图文Embedding模型及8个图文对数据集

Prompt自动优化框架PromptWizard及AI搜索框架Level-Navi Agent实现思路

RAG的4种查询优化思路及用于时序预测的2个工作

又看多模态RAG进展：解读OmniSearch-多模态检索增强生成新SOTA！

大模型用于推荐(LLMERS)范式总结及缓存增强生成（CAG）实现思路

打破记录！“真心建议” 大家读一下这篇《Nature》重磅文章

再看情报分析中的事件名称生成策略：基于最长公共子串思想原理

两个值得一读的技术总结：OpenAI o1模型复现复现思想及多模态大模型用于数学推理

langchain关于Agent的年终统计及文档图片去水印思路

文档智能遇上历史古籍：古籍文档修复及识别开源数据集

再看多模态RAG进展：VisDoMRAG及DocVLM-OCR方案解读

《一书解决几乎所有机器学习问题》.PDF下载

【数字人应用基建】29个文本转语音TTS开源工具

大模型人才的薪资，彻底爆了！

【数字人应用基建】7个数字人生成及24个语音到文本ASR开源项目

RAG常见模式、痛点及最佳实践总结4张图：兼看大模型时代的工程开发工具集合

RAG＆KG＆LLM＆文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG年终总结之12篇综述：从2022到2024看架构、策略、评测及演化

大模型行业，岗位也分三六九等

【RAG 2024时间线回顾】RAG七十二式：2024年度RAG清单索引

卷图不卷图谱-GraphRAG最近趋势：考虑结构性、相似性、相关性等Graph思想实现策略

视觉语言模型新SOTA！性能碾压LoRA，无需预训练，训练显存大大减少！

文档处理之E2M转Markdown工具及BigDocs大规模通用文档数据集

RAG＆KG＆LLM＆文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

【前沿进展】文档多模态嵌入表示方案DSE、数据合成及AI搜索应用新风向

AI生成文本检测数据集及9个工具索引：兼看“磁悬浮老鹰”逻辑陷进测试

RAG用于翻译实现思路及多模态模型用于文档理解的几个核心问题

【文档智能】多模态文档OCR评测CC-OCR及专有模型代表工作

aiops-challenge比赛简单总结

故障分析怎么做？朴素KG方案及LLM+Graph RAG方案实现思路

yyds！哈工大博士的PyTorch笔记火了！！

ChatGPT两周年历程回顾及大模型Text2SQL方案索引

王者归来！白皮书《从头训练大模型最佳实践》开源了。。。

12个开源AI搜索引擎项目及关于Ai搜索的一些思考

AUTO-RAG多轮对话迭代式检索及RAGDiffusion多模态图像生成思路

使用LLM进行标书写作简单开源项目及openai O1实现思路再索引

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉