社区供稿｜上线即 Trending, OCR-2.0 助力多模态大模型更快更强

文摘 2024-09-19 10:30 广东

在 AI-2.0 时代，OCR 模型的研究难道到头了吗！？
(OCR: 一种将图像中的文字转换为可编辑和可搜索文本的技术)

阶跃作者团队开源了第一个迈向 OCR-2.0 的通用端到端模型 GOT。

用实验结果向人们证明：No～No～No～

上线3天下载量超110k，登上huggingface trending榜单。

Hugging Face 体验地址:
https://tonic-got-ocr.hf.space/
(跳转原文可直达)

GOT 模型效果如何？

话不多说，直接上效果图:

△ 最常用的 PDF image 转 Markdown 能力

△ 双栏文本感知能力

△ 自然场景以及细粒度 OCR 能力

△ 动态分辨率 OCR 能力

△ 多页 OCR 能力

△ 更多符号的 OCR 能力

研究团队称，尽管 GOT 模型表现不错，但也存在一些局限，如更多的语言支持，更复杂的几何图，chart 上的 OCR 性能。

他们说 OCR-2.0 的研究还远的很，GOT 也还有不小提升空间（该项目在数据和算力资源上都是非常受限的）。

正是因为深知 GOT 以及 OCR-2.0 的潜力，我们希望通过开源 GOT 吸引更多的人，再次投向强感知。都说纯 OCR 容易背锅，但也正好说明做的不够 work，不是吗？

GOT: Towards OCR-2.0

通用 OCR 模型须要够通用，体现在输入输出都要通用上。

GOT 的通用具体表现为: 在输入方面，模型支持 Scene Text OCR、Document OCR、Fine-grained OCR、More General OCR 等任务。

△ 通用 OCR 模型须“通用”

输出方面，模型同时支持 plain texts 输出以及可读性强、可编辑的 formatted 文本输出，如 Markdown 等。

模型的结构和训练方法，采用 vision encoder+input embedding layer+decoder 的 pipeline。

Encoder 主体采用带 local attention 的 VITDet 架构，不会让 CLIP 方案的全程 global attention 在高分辨率下激活太大，炸显存。

Encoder 后两层采用 Vary 的双卷积设计方案。整个 Encoder 将 1024×1024×3 的图像压缩为 256×1024 的 image tokens，足以做好 A4 纸级别的 dense OCR。

△ GOT 结构与训练流程图

研究团队将整个训练过程分为三个步骤，没有一个阶段锁 LLM，过程中没有存在图像到文本的对齐阶段，进而导致损害 image token 的文字压缩率。

三个训练阶段分别为:

第一阶段: 高效预训练 encoder，GOT 在整个训练过程中，没有 A100 级别的卡，为了节省资源，该阶段使用小型 OPT-125M 作为 decoder 为 encoder 提供优化方向，快速灌入大量数据。

第二阶段: 联合训练 encoder-decoder，该阶段 GOT 的基本结构搭建完成，为上一阶段预训练好的 encoder，以及 Qwen 团队预训练好的 Qwen0.5B。

研究团队稍稍加大了 decoder 的大小，因为该阶段需要喂入大量 OCR-2.0 的知识，而不少数据 (如化学式的 OCR) 其实也是带点 reasoning 的，不过更小的 decoder 他们未敢尝试。

第三阶段: 锁住 encoder，加强 decoder 以适配更多的 OCR 应用场景，如支持坐标或者颜色引导的细粒度 OCR (点读笔可能会用到)，支持动态分辨率 OCR 技术 (超大分辨率图可能会用到)，多页 OCR 技术。

该 feature 主要是为了后续 follower 能更好地训练 Arxiv 这种数据，我们的设想是多页 PDF 直接训练，无须再对 .tex 断页而苦恼！

面对整个 GOT 模型设计中最困难的数据工程环节。研究团队为了构造各种各样的数据，还学习了众多数据渲染工具，包括 LaTex，Mathpix-markdown-it，Matplotlib，Tikz，Verovio，Pyecharts 等等。

△ GOT 使用到的数据渲染工具

OCR 的研究才刚刚开始

关于为什么在大模型相互梭哈的时代继续研究 OCR？

研究团队有他们自己的理由:

OCR 一直是离落地最近的研究方向之一，是 AI-1.0 时代的技术结晶。
到了以 LLM (LVLM) 为核心的 AI-2.0 时代，OCR 成了多模大模型的一项基本能力。
在这个阶段为什么还要继续纯 OCR 模型的研究？

为什么要推出 OCR-2.0:
视觉的压缩表征一直以来是团队关注的重要研究方向，即使用多少 token 能够近乎无损的表征一幅图像，OCR 则是测试压缩表征的重要场景之一——通过对图像中密集文字的编、解码，可以非常直观地探索出视觉模型在信息压缩上的能力边界。在 OCR-2.0 项目中，我们惊讶的发现模型只需要 256 个 token 即可准确地编码 4000 字+的 PDF 截图，远低于当前主流方案中依靠上千 tokens 来编解码 PDF 图像的多模态大模型，为未来视觉和多模态模型的研发提供一些新的思路。

阶跃星辰多模态大模型 step-1v 系列 也始终围绕高效视觉表征的思想对视觉与语言模块儿进行联合设计，一方面这符合我们对视觉与语言应该采用不同建模方式的核心理念，另一方面也能够切实节省用户的推理成本，让多模态大模型更易用。在这里也提前预告一下，OCR-2.0 的模型能力，将陆续集成到我们未来的主模能力中。

论文地址:
https://arxiv.org/pdf/2409.01704

项目地址:
https://github.com/Ucas-HaoranWei/GOT-OCR2.0

Hugging Face 地址:
https://hf.co/ucaslcl/GOT-OCR2_0

戳『阅读原文』体验 GOT-OCR!

本文由 Hugging Face 中文社区内容共建项目提供，稿件由社区成员投稿，经授权发布于 Hugging Face 公众号。文章内容不代表官方立场，文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号:

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容，以及最新的开源 AI 项目发布，希望通过我们分享给更多 AI 从业者和开发者们，请通过下面的链接投稿与我们取得联系:

https://hf.link/tougao

http://mp.weixin.qq.com/s?__biz=Mzk0MDQyNTY4Mw==&mid=2247492707&idx=1&sn=5c1b18019adf632c15c25b39da65a18c

Hugging Face

The AI community building the future.

为数据集而生的 SQL 控制台

Hugging Face 与 TruffleHog 合作，实现风险预警

社区供稿｜还在 GPT-4o 进行评测么？快来试试开源评价大模型 CompassJudger

顶点着色网格转换为 UV 映射的纹理化网格

使用 Optimum-Intel 和 OpenVINO GenAI 优化和部署模型

社区供稿 | 为什么我们需要 Hugging Face 的 Safetensors？

Hugging Face 与 Wiz Research 合作提高人工智能安全性

更快的辅助生成: 动态推测

现在 Llama 具备视觉能力并可以在你的设备上运行 - 欢迎使用 Llama 3.2

揭秘 FineVideo 数据集构建的背后的秘密

Gradio 5 稳定版正式发布

社区供稿 | 元象发布 XVERSE-MoE-A36B，多快好省！

将 LLMs 精调至 1.58 比特: 使极端量化变简单

HuggingChat macOS 版现已发布

对 LLM 工具使用进行统一

Accelerate 1.0.0

Hugging Face 论文平台 Daily Papers 功能全解析

社区供稿 | Reader-LM: 将原始 HTML 转换为干净 Markdown 的小型语言模型

社区供稿｜上线即 Trending, OCR-2.0 助力多模态大模型更快更强

通过打包 Flash Attention 来提升 Hugging Face 训练效率

社区供稿 | 全球首个多语言 ColBERT: Jina ColBERT V2 和它的“俄罗斯套娃”技术

Falcon Mamba: 首个高效的无注意力机制 7B 模型

LAVE: 使用 LLM 对 Docmatix 进行零样本 VQA 评估 - 我们还需要微调吗？

一次失败的实验 - 无限注意力，我们为什么坚持实验

Docmatix - 超大文档视觉问答数据集

ggml 简介

社区供稿 | 如何让大模型输出 10k+ 字长文？

社区供稿 | 使用 Hugging Face 和 Milvus 构建 RAG 系统

基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型

社区供稿 | 智源千万级指令微调数据集 Infinity-Instruct 持续迭代，Llama3.1 仅微调可接近 GPT-4

社区供稿 | 仅8B，全面对标 GPT-4V ！单图、多图、视频理解端侧三冠王！

社区供稿 | 开源 AI 视频工具，你只需要当导演，Hugging Face 工程师打造

TGI 多-LoRA: 部署一次，搞定 30 个模型的推理服务

XetHub 加入 Hugging Face！

社区供稿 | 面向多样应用需求，书生·浦语 2.5 开源超轻量、高性能多种参数版本

NuminaMath 是如何荣膺首届 AIMO 进步奖的？

SmolLM: 一个超快速、超高性能的小模型集合

Google 最新发布: Gemma 2 2B、ShieldGemma 和 Gemma Scope

在 Hub 上使用 Presidio 进行自动 PII 检测实验

Llama 3.1 - 405B、70B 和 8B 的多语言与长上下文能力解析

在英特尔 Gaudi 2 上加速蛋白质语言模型 ProtST

为视觉语言多模态模型进行偏好优化

微调 Florence-2 - 微软的尖端视觉语言模型

GAIA: 一个严苛的智能体基准

社区供稿 | Jina Reranker v2: 多语言支持、函数调用、代码搜索，超快推理！

Hugging Face 全球政策负责人首次参加WAIC 2024 前沿 AI 安全和治理论坛

Cosmopedia: 如何为预训练构建大规模合成数据集

OpenBMB × Hugging Face × THUNLP，联袂献上经典大模型课

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉