一个端到端的 OCR 模型,炸裂开源!

科技   2024-09-18 13:00   北京  

GOT-OCR 2.0 是一款革命性的端到端通用 OCR 模型,它能够识别和提取文本,还能处理数学公式、分子式、图表、乐谱、几何图形等多种内容,极大地拓宽了 OCR 技术的应用范围。
模型大小仅 1.43GB,下面列出来在各个场景的效果,感兴趣的往下看。

🚀 项目特点

① 多语言、多模态识别:GOT-OCR 2.0 支持多种语言和模态的文本识别,无论是印刷体还是手写体,都能准确识别。

② 多样化输入输出:支持照片、文档、切片等多种输入格式,输出格式包括纯文本、Markdown、TikZ、SMILES、Kern 等,满足不同场景的需求。

③ 长文本处理能力: 解码器支持 8K 最大长度的 token,能够处理长文本场景,适用于学术论文、法律文件等长文本资料。

④ 高级功能: 包括交互式 OCR 功能、动态分辨率策略、多页 OCR 技术支持,提供更加灵活和高效的 OCR 解决方案。

如下是 GOT 和其他 OCR 模型的对比评分,取得了非常不错的成绩。

OCR 识别效果

公式:

大段文字:
提取文字:
提取某一坐标的文字:
论文:
特殊字符 OCR:
其他语言:
开源地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0
论文地址:https://arxiv.org/pdf/2409.01704

历史盘点

逛逛 GitHub 每天推荐一个好玩有趣的开源项目。历史推荐的开源项目已经收录到 GitHub 项目,欢迎 Star:

地址:https://github.com/Wechat-ggGitHub/Awesome-GitHub-Repo



推荐阅读
1. 最近 3 个 火火火火 的开源项目!
2. 这 3 个开源项目,YYDS !
3. 盘点 8 月份 火火火 的开源项目
4. 这 3 个开源项目 牛逼的飞起!

逛逛GitHub
每天推荐一个好玩的 GitHub 开源项目,给我发消息获取各种项目。
 最新文章