多模态大模型在表格解析任务上效果如何？亲身经历全是泪！

科技 2024-12-27 00:02 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | NLP工作站

作者｜刘聪NLP

前段时间一直都在尝试用多模态大模型进行落地应用，除了问答之外，那么最容易想到的就是文档解析了。一来多模态大模型本身就有强大的OCR功能，二来知识加工对于大模型落地来说也是重中之重，三来现在很多文档拆解的API或者项目，效果都没有那么理想吧，比如：夹杂公式的文本、复杂表格等。

思路是不是很正，于是乎我就尝试用多模态大模型进行表格解析的任务了。结果就是：全是眼泪！痛，太痛了！

今天此贴主要是分享一下个人的惨痛经历，还有一些实测结果。

懒人版：

多模态大模型做表格解析任务，对于简单表格效果很好，但对于带合并单元格的表格和长表，效果很差；
即使是现在顶尖的闭源模型GPT4-o、Claude3.5的效果也不是好，不可用；
多模态大模型对于表格复杂程度的定义，与传统方法对复杂的定义不同；
多模态大模型输出md格式要比html更好，但复杂表格md根本展现不出来；
训练了10B以下的VLM，效果提升不明显，对于复杂表格效果依旧乱七八糟，也许是2w数据（机器有限）不够？

下面详细介绍测试结果（附各种模型的测试）、个人测试方法说明和一些乱七八糟想说的。

先叠甲，做的时间不是很长，训练也尝试过，效果不理想，也欢迎大家评论区讨论，或给予指点。言外之意，不喜勿喷！！！

各种裸模的测试效果

私下测试的模型和数据比较多，这里主要展示GPT4-o、Claude-3.5、Qwen2-VL-7B、MiniCPM2.6-V、InternVL-2.5-8B、Qwen2-VL-72B。

个人觉得GPT4-o、Claude-3.5可能是闭源上限，而Qwen2-VL-7B、MiniCPM2.6-V、InternVL-2.5-8B是在可本地化部署范围内的模型（虽然依旧很重，但还可以接受），Qwen2-VL-72B是开源模型的上限。

测试1：

你觉得这个表格难吗？从直观感觉上来看，其实是不难的，内容不多，表格规则，主要难点在于有合并单元格。我测试过一些开源的传统模型，有的是可以识别对的，但是在大模型这边，总是有瑕疵。只有Claude3.5-sonnet对了，GPT4-o也没对，7B级别开源模型更是一塌糊涂。

测试2：

这个比上一个有一些难度，主要是字多了一点，然后合并单元的不错有交错（6、7行的2、4列），多模态大模型们全军覆没。

测试3：

这个确实有点难了，我看着都有点眼晕了，依旧全军覆没。

我这里并不是为了证明多模态大模型的效果有多差，而故意贴的效果很差的图，而是在复杂表格和长表上真的很差，我整体测下来，估计也就是20-30%的水平，离可用还有一段距离。

即使是训练了，也不行，当然可能是训练数据不够，也可能是训练的模型不够大，但总之我败了。如果有做过相关任务的同学，欢迎评论区讨论，也可以说出你们的看法。

注意：这里说的是合并单元格以及长表，简单表格，短表前面已经说了，多模态效果很不错，但问题是传统方法也很不错呀，从性价比考虑，多模态大模型还是亏得。

测试细节说明

测试的提示词用的都是相同的提示词，其实也调了比较多，但改善效果并不明显，也欢迎大家尝试修改，有更好的可以留言告诉我。

## Role
你是一位有多年经验的OCR表格识别专家。
 
## Goals
需要通过给定的图片，识别表格里的内容，并以html表格结果格式输出结果。
 
## Constrains
- 需要认识识别图片中的内容，将每个表格单元格中的内容完整的识别出来，并填入html表格结构中；
- 图片中的表格单元格中可能存在一些占位符需要识别出来，例如"-"、"—"、"/"等；
- 输出表格结构一定遵循图片中的结构，表格结构完全一致；
- 特别注意图片中存在合并单元格的情况，结构不要出错；
- 对于内容较多的图片，一定要输出完整的结果，不要断章取义，更不要随意编造；
- 最终输出结果需要是html格式的表格内容。

## Initialization请仔细思考后，输出html表格结果。

GPT4-o、Claude-3.5、Qwen2-VL-72B是直接用API测试的，就不多说了，反正就按照文档调用就行，都大差不差。Qwen2-VL-7B、MiniCPM2.6-V、InternVL-2.5-8B等模型，直接在国信超雄上租的4090利用vllm进行推理测试的。

https://www.superti-cloud.com/home

上面4090价格还可以，1.98元/时，冲得多还可以进一步打折。因为是个新平台，暂时只有4090，不过好在卡多，可以租到8卡的；最重要的是，新用户送20代金券，我整个测试过程没花钱，送的9小时，足够，又白嫖了一波，白嫖使我快乐，哈哈哈哈。还有一点就是4090做推理卡的性价比还是挺高的。

问了客服，后续会增加更多的的卡，暂时推理来说4090性价比还是挺高的。不过，大家理性消费哈，可以白嫖先用用，用的舒服再说。

vllm我用的是0.6.3版本，双卡推理（所以开的时候选两张卡），由于需要torch2.4，但是平台上现场的镜像最高只有torch2.3，所以我又自己重新装了一下torch2.4，装包啥的这里就不说了，也不难，不会就去百度、Google吧。

服务器可以直接ssh链接，用mobax在平台上上传数据啥的就直接拖就行，操作都差不多，也不过多介绍了，也可以无卡操作，节省卡时。

用vllm测试的主要原因，就是简单，接口就是openai接口，目前对各大模型适配的也很好，上手简单，无脑执行命令就行。

以Qwen2-VL-7B为例，直接执行以下命令：

vllm serve  ./Qwen2-VL-7B-Instruct/ --served-model-name Qwen2-VL-7B-Instruct --port 54188 --host 0.0.0.0 --trust-remote-code --gpu-memory-utilization 0.98 --tensor-parallel-size 2

其中，./Qwen2-VL-7B-Instruct/是模型下载的本地路径，也可以用HF的repo，但是会有网络问题；served-model-name表示调用时使用的名称；tensor-parallel-size是多卡并行，显存不够，显卡来凑。

测试代码：

from openai import OpenAI
import base64

api_key = "EMPTY"
base_url = "http://0.0.0.0:54188/v1"

client = OpenAI(
    api_key=api_key,
    base_url=base_url
)

image_path = "test.png"
with open(image_path, "rb") as image_file:
    encoded_string = base64.b64encode(image_file.read())
base64_image = encoded_string.decode('utf-8')

response = client.chat.completions.create(
    model="Qwen2-VL-7B-Instruct",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": f"data:image/png;base64,{base64_image}"
                    }
                },
                {
                    "type": "text",
                    "text": """## Role
你是一位有多年经验的OCR表格识别专家。

## Goals
需要通过给定的图片，识别表格里的内容，并以html表格结果格式输出结果。

## Constrains
- 需要认识识别图片中的内容，将每个表格单元格中的内容完整的识别出来，并填入html表格结构中；
- 图片中的表格单元格中可能存在一些占位符需要识别出来，例如"-"、"—"、"/"等；
- 输出表格结构一定遵循图片中的结构，表格结构完全一致；
- 特别注意图片中存在合并单元格的情况，结构不要出错；
- 对于内容较多的图片，一定要输出完整的结果，不要断章取义，更不要随意编造；
- 最终输出结果需要是html格式的表格内容。

## Initialization
请仔细思考后，输出html表格结果。
"""
                }
            ]
        }]
)

res = response.choices[0].message.content
print(res)

输出结果，表格一般没有格式，看起来可能不方便，可以额外增加下面代码做展示。

<style>
    table {
        border-collapse: collapse;
        width: 40%;
        margin: 0 auto;
    }

    th,
    td {
        border: 1px solid black;
        padding: 8px;
        text-align: left;
    }
</style>
{生成的表格结果}

碎碎念

利用多模态大模型进行表格解析的出发点是因为在RAG场景上，很多是因为文档解析错误导致的最终文档效果不理想。当然很多人可能会觉得用多模态做表格解析是在用大炮打蚊子，但从我目前体验来看，大炮还打不到蚊子。

从训练过程上来看，模型在训练的时候，收敛的很快，但效果依旧不理想；当时也有把一些特殊字符独立化，或者loss计算的时候分区域设置权重等等等，而这些带来了改善，但是效果依旧不明显。但每一次都觉得魔改的思路很正，祈祷成功，哈哈哈哈。大模型时代，已经很少魔改了，要不无脑洗数据，要不无脑加数据，人都麻木了。

一直在思考，再分析，是不是VLM本身tokenizer切块导致对合并单元格天生不敏感，是不是VLM本身基模不够强，整体预训练过程中表格数据不够多，或者说网络上复杂表格不够多，感觉即使够多也很难认真矫正数据的准确性。

并且这个任务多少数据可以达到一定的效果，已经超出了我对纯文本LLM的认知，当然，也许其他任务的VLM也很文本差不多，但这个任务真的好奇怪。

然后也发现了一个多模态大模型做OCR的榜单-CC-OCR，确实在tabel上的效果，也不理想。但上面还是略高，估计并没有区分表格的难度吧。

Title：CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy
Link：https://arxiv.org/abs/2412.02210

写在最后

不过有一说一，VLM最近出了很多模型，其他方面的能力较之前强太多了，这也是我尝试用多模态大模型做一些子任务的根本。

但一个表格解析，让我破了大防，理性探讨，大家觉得多模态大模型做表格解析任务如何？

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步

最新文章

OpenAI研究员、思维树作者姚顺雨专访：人生是一场无限流游戏丨独家

游凯超：我与vLLM的2024，很Passion！

多模态可解释人工智能综述：过去、现在与未来

英伟达年终核弹！全新B300为o1推理大模型打造，RTX5090也曝光了

OpenAI-o3 与 Monte-Carlo 思想

DeepMind最新研究：逆向思维训练LLM可大幅提升AI推理能力

五道送命题，彻底暴露了国内外AI们的情商...

Karpathy力荐博客：写代码的时候，请心疼一下读代码的同事

长文本+o1？评估LLM在真实世界长文本多任务中的深度理解与推理能力

Nature发布，AI 全球100强！

Qwen2.5技术报告解读

多模态大模型在表格解析任务上效果如何？亲身经历全是泪！

香港大学、新加坡国立大学、启元实验室、清华大学等知名学者重磅来袭！

Agent操纵手机/电脑屏幕的全面综述

LLM 又过了一年！！！

我国退步最快的985大学？曾位列全国前十，如今排名连年下降...

o1复现的一点点心得

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

中国工程院院士孙凝晖给正国级、副国级讲课的万字长稿《人工智能与智能计算的发展》

ICLR 2025 多语言大模型相关论文速览

大模型时代的具身智能

颜宁：明年我只参加已经接受了邀请的学术会议，不接受国内任何个人或者单位的邀请做学术报告

对OpenAI o3模型的看法、思考与反思

是时候停止炒作「o3是AGI」了！背后15人安全对齐团队大盘点

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

雷军大学时候的论文，不需要参考文献

OpenAI o1如何炼成？原理逆向工程图解

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

人大教授张鸣：退休之际，讲点废话（这也太敢言了）

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

近期必看的多模态大模型进展：从Qwen2-VL到Pixtral

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

《一书解决几乎所有机器学习问题》.PDF下载

16种新型RAG最新进展

李飞飞：World Labs这样实现「空间智能」

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

OpenAI发布49页长文，讲述o1的安全机制

谷歌Willow量子芯片逆天出世！5分钟颠覆10亿亿亿计算极限，马斯克奥特曼惊叹

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩

今日最佳 AI 论文：简单蒸馏训练，就能超越 o1-preview？

5分钟完成最强超算10^25年工作，谷歌量子芯片重大突破，马斯克、奥特曼齐祝贺

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

LLM不会CoT隐性推理，只会显性推理！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉