MinerU：开源高质量数据提取工具，支持PDF/网页/多格式电子书提取

学术 2024-11-16 22:01 北京

文档内容分析一直是计算机视觉中的一个重要研究领域。尽管在OCR、布局检测和公式识别等方法上取得了显著进展，现有的开源解决方案在面对文档类型和内容的多样性时，仍难以始终如一地提供高质量的内容提取效果。为了解决这些挑战，作者提出了 MinerU，一种用于高精度文档内容提取的开源解决方案。MinerU 利用先进的 PDF-Extract-Kit 模型有效地从各种文档中提取内容，并采用精细调整的预处理和后处理规则，以确保最终结果的准确性。实验结果表明，MinerU 在各种文档类型上都能稳定地实现高性能，显著提高了内容提取的质量和一致性。

MinerU稳定版体验：

https://www.modelscope.cn/studios/OpenDataLab/MinerU

MinerU测试版体验：

https://huggingface.co/spaces/opendatalab/MinerU

MinerU论文：

http://mp.weixin.qq.com/s?__biz=MzI2OTQ4OTExOA==&mid=2247502708&idx=1&sn=84a362f4d6d7ad02ef7bfca8a1a34d77

学术之友

\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括：分享科研资讯，总结学术干货，发布科研招聘等。让我们携起手来共同学习，一起进步！

最新文章

(这周开课)第四期VASPKIT团队“机器学习赋能材料研究”专题培训

MinerU：开源高质量数据提取工具，支持PDF/网页/多格式电子书提取

量子材料生成迎来新突破：SCIGEN模型引领创新

如何撰写一篇优秀的综述文章

A100 80GB配置来了

研究生期间靠自己买车买房的都是些什么人？

帝国理工Aron Walsh团队：利用生成式人工智能探索晶体化学空间的新方法

诚征男友！98年妹纸，北大本科，人大硕士，部委公务员，偶尔被夸好看，江浙沪独女

cifkit程序：高通量cif晶体文件分析程序

LAVA程序：基于LAMMPS和VASP计算材料性质的python工具

atomman程序：原子操作工具包

李亚栋院士/李治/刘锦程JACS: 硫中毒钯催化剂升级为单原子催化剂，助力乙炔半加氢反应

重磅！引爆学术界核弹！纯计算已经out了？AI+DFT+MD才是正解！

npj computat. mater.: 深度学习推动晶体结构预测研究

东南大学倪振华吕俊鹏团队招收博士后研究人员

四川大学新型半导体材料与器件课题组招聘博士后和硕博研究生

济南大学化学化工学院国家级人才团队招聘教授、副教授、讲师、博士后(师资)

香港理工大学新型存储器与类脑智能团队招博士、博士后

湖南大学王笑教授招收2025年入学博士研究生

北京理工大学朱博南课题组诚聘第一性原理计算/材料信息学方向博士后

上海大学张统一院士团队发布人工智能晶体生成器CGWGAN

华东师范大学化学大模型ChemGPT-2.0版本发布

最近3篇PRL涉及交错磁性、滑移铁电和离子扩散

通用机器学习势模型排行榜，eqV2再次登顶

A100 80GB配置来了

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

Nat. Commun.: 机器学习加速电子结构预测，推动复杂材料的探索

Nat. Commun.: 范德华电介质的高通量筛选和机器学习分类

2000万构象分子计算数据库

上海交通大学朱虹课题组招聘博士和博士后

ACS Nano: EMGen机器学习框架解密电子材料设计

JCTC: 杨金龙院士团队开发新型机器学习力场框架提升量子化学模拟精度

香港理工大学/牛津大学 Edman Tsang课题组博士后/博士招聘

Nature新闻：中国申请科研经费变得更加困难

QM9star数据库发布：包含两百万个离子和自由基的量子化学计算平衡结构

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

5代Intel 8581C服务器配置，在售最快配置

骆军委魏苏淮等人Nature: 提出免于退极化效应的光学声子软化新理论

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

5代Intel 8581C服务器配置，在售最快配置

新加坡博士后以及博士机会-导师超级Nice

巩金龙/赵志坚最新NC，可解释机器学习双原子

胡培君最新综述，神经网络势+动态催化

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

5代Intel 8581C服务器配置，在售最快配置

方国勇何晓等人JCTC：基于生成对抗网络和数据驱动潜在空间融合的晶体结构预测

ATOMKIT: 科研软件也可以有颜值

MDPI-software征稿启事：计算化学专栏

JACS最新2篇机器学习文章

5代Intel 8581C服务器配置，在售最快配置

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉