如何使用纯GPT-2解码器进行OCR?

旅行   2024-11-08 12:00   中国台湾  

一个小哥用GPT-2搞定了OCR,这招绝了!

最近,一篇名为「DTrOCR」的短论文在AI圈引起了不小的轰动。这篇由@Swall0wTech单独完成的论文,竟然用纯粹的GPT-2解码器和原始图像块作为输入,就搞定了OCR(光学字符识别)任务。

这听起来简单,但其实里面大有门道。来扒一扒这篇论文的精髓!

数据为王,预训练+微调双管齐下

虽然论文标题重点提到了模型架构,但真正占据大篇幅的,其实是数据管道的设计。这充分反映了现代AI模型对高质量数据的渴求。

研究团队借鉴了PaliGemma的思路,将数据分为预训练和微调两部分:

  1. 预训练数据:主要是合成数据,用于培养模型的三大基本功:

  2. 场景文本识别

  3. 手写文字识别

  4. 印刷文字识别

  5. 微调数据:各种小型、多样化的真实世界数据集

这种方法既能让模型学到广泛的能力,又能在实际应用中表现出色。

合成数据的黑科技

为了生成高质量的合成数据,研究团队可是下了不少功夫:

  • 场景文本:使用MJSynth、SynthText和SynTHIGER

  • 印刷文本:采用TextRender

  • 手写文本:结合TRDG和Alex Graves的模型

这些工具就像是魔法棒,能变出各种各样的文字图像,让模型见多识广。

微调数据收集狂

微调阶段,研究团队简直是开启了「收集狂」模式,搜罗了大量学术数据集。虽然这工作枯燥乏味,但却是提升模型性能的最有效方法。

他们还在众多评估数据集上进行了测试,结果嘛...你懂的,肯定是「SOTA」(State-of-the-Art)啦!

模型结构:简单粗暴却效果拔群

说了这么多数据,终于轮到模型出场了。DTrOCR的模型结构出奇的简单:

  • 输入:8x4大小的图像块,128x32的图像尺寸,总共128个token

  • 模型:预训练的GPT-2-small解码器

就这么简单?

没错,就是这么简单!

不过作者没有提到是否使用了前缀语言模型(prefix-LM)掩码。我赌五毛钱,加上prefix-LM肯定能进一步提升效果。

实验结果:有惊喜,也有遗憾

作者做了一系列实验,结果有喜有忧:

  • 声称不需要编码器,GPT比BERT强。这个嘛...我同意后半句,但前半句有点站不住脚。毕竟人家没用预训练的ViT啊!

  • 预训练、数据增强、真实数据微调都有帮助。这不是废话吗?但验证一下也无妨。

  • 多数据少轮次好过少数据多轮次。这个发现倒是挺有意思的。

  • 模型越大,效果越好。这不是又在说废话吗?

总结:前景光明,但还需努力

总的来说,这是一篇不错的论文,尤其考虑到是单人完成的。不过要真正证明标题中的说法,还需要和预训练的ViT编码器进行对比。

尽管如此,只要我们能解决效率问题,纯解码器模型的未来依然光明。

最后,不得不佩服这位小哥的操作。他用一个简单的想法,就让OCR系统脱胎换骨。

这也确实是创新了一把!


👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章