在 AI-2.0 时代,OCR 模型的研究难道到头了吗!?
(OCR: 一种将图像中的文字转换为可编辑和可搜索文本的技术)
阶跃作者团队开源了第一个迈向 OCR-2.0 的通用端到端模型 GOT。
用实验结果向人们证明:No~No~No~
上线3天下载量超110k,登上huggingface trending榜单。
Hugging Face 体验地址:
https://tonic-got-ocr.hf.space/
(跳转原文可直达)
GOT 模型效果如何?
话不多说,直接上效果图:
△ 最常用的 PDF image 转 Markdown 能力
△ 双栏文本感知能力
△ 自然场景以及细粒度 OCR 能力
△ 动态分辨率 OCR 能力
△ 多页 OCR 能力
△ 更多符号的 OCR 能力
研究团队称,尽管 GOT 模型表现不错,但也存在一些局限,如更多的语言支持,更复杂的几何图,chart 上的 OCR 性能。
他们说 OCR-2.0 的研究还远的很,GOT 也还有不小提升空间(该项目在数据和算力资源上都是非常受限的)。
正是因为深知 GOT 以及 OCR-2.0 的潜力,我们希望通过开源 GOT 吸引更多的人,再次投向强感知。都说纯 OCR 容易背锅,但也正好说明做的不够 work,不是吗?
GOT: Towards OCR-2.0
通用 OCR 模型须要够通用,体现在输入输出都要通用上。
GOT 的通用具体表现为: 在输入方面,模型支持 Scene Text OCR、Document OCR、Fine-grained OCR、More General OCR 等任务。
△ 通用 OCR 模型须“通用”
输出方面,模型同时支持 plain texts 输出以及可读性强、可编辑的 formatted 文本输出,如 Markdown 等。
模型的结构和训练方法,采用 vision encoder+input embedding layer+decoder 的 pipeline。
Encoder 主体采用带 local attention 的 VITDet 架构,不会让 CLIP 方案的全程 global attention 在高分辨率下激活太大,炸显存。
Encoder 后两层采用 Vary 的双卷积设计方案。整个 Encoder 将 1024×1024×3 的图像压缩为 256×1024 的 image tokens,足以做好 A4 纸级别的 dense OCR。
△ GOT 结构与训练流程图
研究团队将整个训练过程分为三个步骤,没有一个阶段锁 LLM,过程中没有存在图像到文本的对齐阶段,进而导致损害 image token 的文字压缩率。
三个训练阶段分别为:
第一阶段: 高效预训练 encoder,GOT 在整个训练过程中,没有 A100 级别的卡,为了节省资源,该阶段使用小型 OPT-125M 作为 decoder 为 encoder 提供优化方向,快速灌入大量数据。
第二阶段: 联合训练 encoder-decoder,该阶段 GOT 的基本结构搭建完成,为上一阶段预训练好的 encoder,以及 Qwen 团队预训练好的 Qwen0.5B。
研究团队稍稍加大了 decoder 的大小,因为该阶段需要喂入大量 OCR-2.0 的知识,而不少数据 (如化学式的 OCR) 其实也是带点 reasoning 的,不过更小的 decoder 他们未敢尝试。
第三阶段: 锁住 encoder,加强 decoder 以适配更多的 OCR 应用场景,如支持坐标或者颜色引导的细粒度 OCR (点读笔可能会用到),支持动态分辨率 OCR 技术 (超大分辨率图可能会用到),多页 OCR 技术。
该 feature 主要是为了后续 follower 能更好地训练 Arxiv 这种数据,我们的设想是多页 PDF 直接训练,无须再对 .tex 断页而苦恼!
面对整个 GOT 模型设计中最困难的数据工程环节。研究团队为了构造各种各样的数据,还学习了众多数据渲染工具,包括 LaTex,Mathpix-markdown-it,Matplotlib,Tikz,Verovio,Pyecharts 等等。
△ GOT 使用到的数据渲染工具
OCR 的研究才刚刚开始
关于为什么在大模型相互梭哈的时代继续研究 OCR?
研究团队有他们自己的理由:
OCR 一直是离落地最近的研究方向之一,是 AI-1.0 时代的技术结晶。
到了以 LLM (LVLM) 为核心的 AI-2.0 时代,OCR 成了多模大模型的一项基本能力。
在这个阶段为什么还要继续纯 OCR 模型的研究?
为什么要推出 OCR-2.0:
视觉的压缩表征一直以来是团队关注的重要研究方向,即使用多少 token 能够近乎无损的表征一幅图像,OCR 则是测试压缩表征的重要场景之一——通过对图像中密集文字的编、解码,可以非常直观地探索出视觉模型在信息压缩上的能力边界。在 OCR-2.0 项目中,我们惊讶的发现模型只需要 256 个 token 即可准确地编码 4000 字+的 PDF 截图,远低于当前主流方案中依靠上千 tokens 来编解码 PDF 图像的多模态大模型,为未来视觉和多模态模型的研发提供一些新的思路。
阶跃星辰多模态大模型 step-1v 系列 也始终围绕高效视觉表征的思想对视觉与语言模块儿进行联合设计,一方面这符合我们对视觉与语言应该采用不同建模方式的核心理念,另一方面也能够切实节省用户的推理成本,让多模态大模型更易用。在这里也提前预告一下,OCR-2.0 的模型能力,将陆续集成到我们未来的主模能力中。
论文地址:
https://arxiv.org/pdf/2409.01704
https://github.com/Ucas-HaoranWei/GOT-OCR2.0
Hugging Face 地址:
https://hf.co/ucaslcl/GOT-OCR2_0
本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号:
如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系: