AI图像重标注领域迎来重量级更新!
Hugging Face的ML专家Sayak Paul 宣布了一个激动人心的消息:Qwen2VL模型已成功整合进他的图像重标注工具,而且效果出人意料地好!
这可能将改变图像重新标注领域!
要知道,高质量的图像描述对于训练AI模型来说可是价值连城的黄金数据。特别是在当前AI大模型竞争激烈的环境下,优质的训练数据更是成为了兵家必争之地。
强大的技术内核
这个名为「simple-image-recaptioning」的工具可一点都不简单。
它采用了vllm引擎作为核心,这意味着它能够充分利用多GPU资源,实现高效的并行推理。
在数据处理方面,它选择了webdataset作为数据格式。这个选择可不是随意的——webdataset专门为大规模数据集优化,是目前业界处理海量数据的首选方案。
更令人惊喜的是,这个工具还内置了水印检测功能。它在数据加载阶段就会自动过滤掉带水印的图片,确保生成的描述数据质量。为了不影响处理速度,水印检测模块还特意使用了ONNX优化,实现了快速的CPU推理。
使用简单到令人发指
虽然背后的技术很硬核,但使用起来却出奇地简单。只需要一行命令:
python main.py --data_path="https://huggingface.co/datasets/pixparse/cc3m-wds/resolve/main/cc3m-train-0000.tar"
就能开始处理数据集了。如果你想处理完整的CC3M训练集,也只需要稍微修改一下命令:
python main.py --data_path="pipe:curl -s -f -L https://huggingface.co/datasets/pixparse/cc3m-wds/resolve/main/cc3m-train-{0000..0575}.tar"
工具会自动将处理结果保存在sample_outputs
目录下,包含:
原始图片(以哈希值命名)
包含原始描述和新生成描述的JSON文件
惊艳的实战表现
根据Sayak的实测,Qwen2VL的表现客观上优于之前的方案。
这个「客观上更好」背后是实打实的数据支撑,而不是简单的主观感受。
他的合作伙伴ariG23498在使用过程中也给出了极高的评价:「这是一个令人愉悦的工作体验」。这种评价来自一线开发者,含金量可想而知。
贴心的细节设计
工具的每个细节都经过精心打磨:
断点续传功能让你不用担心处理中断。即使程序意外停止,重启后也能自动跳过已处理的图片,继续未完成的工作。
GPU调度非常灵活,无论你是只有一张显卡还是拥有一个GPU集群,都能完美适配。Sayak透露他已经在两台A100和八台H100上成功测试过。
工具还支持自定义批处理大小、工作进程数等参数,让用户能根据自己的硬件配置调整到最佳性能。
对于那些需要处理大规模图像数据集的研究人员和开发者来说,这无疑是一个重磅级的好消息。有了这个工具,处理百万级的图片数据集再也不是难事。
项目已在GitHub开源,感兴趣的朋友可以直接上手尝试。不过要注意,这不是一个库,而是一个可以自由使用和修改的参考实现。
AI图像重标注的未来,正在变得越来越有趣。
相关链接
https://github.com/sayakpaul/simple-image-recaptioning/pull/3
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!