高效、精准、智能：GOT-OCR2.0引领OCR 2.0时代

2024-09-24 16:52 中国香港

前沿科技速递🚀

在信息化时代的快速发展中，光学字符识别（OCR）技术的应用变得愈加广泛。无论是文档数字化、表单自动录入，还是自然场景中的文字识别，OCR 技术都发挥着重要作用。而今天我要为大家介绍的是一款极具突破性的通用 OCR 模型——GOT-OCR2.0。

什么是 GOT-OCR2.0？

GOT-OCR2.0 是阶跃星辰一款新一代的 OCR 模型，致力于解决传统 OCR 系统（OCR-1.0）和当前大规模视觉语言模型（LVLMs）在 OCR 任务中的局限性。作为一款开源模型，GOT-OCR2.0 不仅能够处理标准的文本识别任务，还可以应对复杂的光学字符识别需求，如公式、表格、乐谱、几何图形等复杂结构。通过端到端的统一架构设计，GOT-OCR2.0 实现了更高的精度、效率和适应性。

来源：传神社区

01 GOT-OCR2.0 的功能与优势

GOT-OCR2.0 是阶跃星辰推出的一款高性能通用 OCR 模型，旨在解决传统 OCR 系统（OCR-1.0）和现有大视觉语言模型（LVLMs）在处理复杂 OCR 任务时的局限性。该模型以开源形式发布，不仅支持传统的文本识别，还可以处理如数学公式、化学分子式、表格、图表、乐谱等复杂结构，并且能够输出多种格式如 Markdown、LaTeX、SMILES 等，特别适合处理高难度、多场景的 OCR 任务。

与传统 OCR 系统相比，GOT-OCR2.0 采用了端到端的统一架构设计，通过集成高压缩率的编码器和强大的解码器，实现了对不同字符类型的高效处理。无论是复杂文档识别，还是场景文本识别，GOT-OCR2.0 都展示了卓越的表现。

高精度多语言识别GOT-OCR2.0 支持中文、英文的字符识别，并且可以通过微调扩展到其他语言。这种多语言能力使其在国际化场景中应用广泛，满足不同用户的需求。
场景文本识别
通过先进的视觉编码器，GOT-OCR2.0 能够轻松处理自然场景中的文本识别任务，如街道标志、广告牌上的文字。这使得它在实际应用中拥有极高的适应性和实用价值。
格式化文本输出
GOT-OCR2.0 能够识别文档中的复杂结构并将其转换为多种格式输出，如 Markdown、LaTeX、TikZ 等。这意味着不仅可以提取文本，还可以保留文档的原始格式和排版，极大提升了文档处理的效率。
复杂字符和结构的识别
除了常规的文字识别，GOT-OCR2.0 还能精准识别数学公式、化学分子式、表格、图表等复杂内容，并转换为可编辑的格式，满足科学计算、学术研究等专业场景需求。
动态分辨率与多页 OCR 支持无论是高分辨率海报还是多页 PDF 文档，GOT-OCR2.0 都可以通过动态分辨率技术和多页处理能力轻松应对，大大提高了大文件的处理效率。

02 技术亮点

端到端统一架构
传统的 OCR-1.0 系统由多个独立的模块组成（如文本检测、区域裁剪和字符识别等），容易出现局部最优问题，且维护成本高。GOT-OCR2.0 则采用了端到端的统一架构，通过高度压缩的编码器和长上下文解码器的结合，实现了简洁高效的字符识别。它不仅降低了复杂系统的维护成本，还提升了对各类 OCR 任务的处理能力。
高压缩率编码器
GOT-OCR2.0 的编码器基于 Vision Transformer (ViT)，具备高压缩率，能够将输入图像的像素压缩为更小的 tokens，使得模型在处理高分辨率图像时既能保证准确性，又能降低计算资源的消耗。
长上下文解码器
GOT 的解码器采用了强大的 Qwen-0.5B 语言模型，能够处理长达 8000 个 tokens 的长文本场景，从而在处理多页文档或高密度文本时依然能够生成准确的 OCR 输出。

03 实际应用场景展示

GOT-OCR2.0 已在多种实际应用场景中表现出卓越的性能：

文档数字化：无论是简单的文本文档，还是包含复杂表格、图表、公式的学术论文，GOT-OCR2.0 都能够高效完成文本提取与格式化。

场景文本识别：广告牌、商店招牌、交通标志等自然场景中的文字，GOT-OCR2.0 都能快速识别，并保证高准确率。
学术研究：在处理含有大量数学公式或化学结构式的文档时，GOT-OCR2.0 不仅可以识别出这些内容，还能够生成 LaTeX 格式，方便后续的编辑与计算。

数据可视化：GOT-OCR2.0 支持识别图表并将其结构化为 Python 字典格式，极大提升了科研和数据分析人员的工作效率。

04 模型下载

传神社区：

https://opencsg.com/models/stepfun-ai/GOT-OCR2_0

欢迎加入传神社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加传神小助手

“ 关于OpenCSG

开放传神（OpenCSG）成立于2023年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

加入传神社区

http://mp.weixin.qq.com/s?__biz=MzkxNTYxMjU1Mw==&mid=2247486767&idx=1&sn=5f8fb63a3fbda2eb4cb36a5ea5a1dd81

传神社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

微软OmniParser：一切皆文档，OCR驱动智能操作

从文本到动态视频：Allegro模型让创意更轻松

传神论文中心｜第30期人工智能领域论文推荐

超快速，高性能！Meta发布移动端MobileLLM

DataFlow v202410 版本更新一站式数据处理平台

OpenCSG与传神社区的创新瞬间

OpenCSG传神社区月度功能更新

突破语言壁垒：Cohere 发布多语言大模型 Aya Expanse

Stable Diffusion 3.5震撼发布：三大版本满足多层次AI图像生成需求

OpenCSG携手书生·浦语：InternLM2.5-20B-Chat 正式上线，共建AI未来新生态

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

无需依赖闭源模型！司南CompassJudger为AI评测带来新选择

CSGHub SaaS快速入门指南

Mochi 1视频生成模型亮相：动作流畅，开放源代码

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

传神论文中心｜第29期人工智能领域论文推荐

重磅升级 | OpenCSG开源中文版fineweb edu v2数据集

英伟达推出Nemotron-70B：强大开源语言模型，基准测试中全面领先！

直播预告｜未来视界：多模态AI的创新与挑战

苹果开源Depth Pro：0.3秒实现从2D图像到3D深度图的革命性突破

传神论文中心｜第28期人工智能领域论文推荐

2B参数搞定高质量视频！北大&快手携手打造Pyramid Flow

直播预告｜当A股疯涨挑战经典金额理论，大模型能否作为一个“理性投资人”？

CodeSouler v1.0.8 版本更新

传神论文中心｜第27期人工智能领域论文推荐

OpenCSG传神社区月度功能更新

OpenCSG开源数据集再次登顶HF数据榜

OpenCSG DataFlow：锻造大模型智慧的炼金术，开启数据集Agentic新范式

微软推出GRIN-MoE：开创专家路由新范式

Llama 3.2：轻量级设计与多模态能力

英伟达发布NVLM 1.0：屠榜多模态任务，纯文本性能逆势提升

高效、精准、智能：GOT-OCR2.0引领OCR 2.0时代

传神论文中心｜第26期人工智能领域论文推荐

超越极限！Qwen2.5 助力多领域智能应用

年度巨献 | OpenCSG开源最大中文合成数据集Chinese Cosmopedia

CSGHub开源版本v0.9.0更新

传神论文中心｜第25期人工智能领域论文推荐

Mistral AI再创新高，Pixtral 12B多模态模型强势来袭

CodeSouler v1.0.7 版本更新

重磅发布！DeepSeek-V2.5：融合通用与代码能力的全新开源模型

小而强大！零一万物 Yi-Coder 模型震撼发布！

国产“小钢炮”MiniCPM3-4B：小参数，大能量！

国内独家首发 | OpenCSG开源中文版fineweb edu数据集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉