文档处理之E2M转Markdown工具及BigDocs大规模通用文档数据集

文摘   2024-12-10 11:40   北京  

今天是2024年12月10日,星期二,北京,天气晴。

今天,我们继续来看文档相关的话题,分为两个部分,一个是E2M转Markdown工具,是个集成的思路,一个是BigDocs数据集,可以再次回顾现有的一些文档数据集、相关多模态大模型和训练方式。

抓住热点,跟进前沿,把握方向,供各位参考,多思考,多总结,多实践;

一、E2M转Markdown工具

E2M转换为Markdown的开源工具,支持doc、docx、epub、html、htm、url、pdf、ppt、pptx、mp3、m4a等多种文件类型: https://github.com/wisupai/e2m,看了下实现原理,纯集成产物。

可以看看其对应的格式转换器converter和Parser。

二、大规模通用文档数据集BigDocs

《BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks》,https://arxiv.org/pdf/2412.04626,提出BigDocs-7.5M,一个大规模、开源许可的多模态文档数据集,旨在训练多模态模型以处理文档和代码相关的任务。

有几个数据点值得关注:

一个是现有的文档数据:

一个是针对数据集的处理方式:

一个是最终形成的数据规模与任务细分

一个是BigDocs-Bench,涉及到10个任务。

一个是其中对于流程图解析任务的处理prompt,也是合成GraphVIZ数据集:

一个是基于这类数据集,做的训练,涉及到的几种训练范式:

一个是基于phi 3.5 vision+BigDocs的预测结果:

一个是不同对比模型的实际效果:

参考文献

1、https://github.com/wisupai/e2m

2、https://arxiv.org/pdf/2412.04626

关于我们

老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。

加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入


老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
 最新文章