BLIP3-KALE是一个新的开源数据集,包含2.18亿对图像-文本配对,旨在克服早期图像描述数据集的局限性。该数据集使用知识增强的密集描述,结合了网络规模的事实知识和详细的图像描述,通过两阶段的生成流程,提供了更具信息量的图像描述。KALE的数据集在多个视觉-语言基准测试中表现出色,尤其是在视觉问答任务中,展示了其在训练视觉-语言模型方面的重要价值。
参考:
https://huggingface.co/datasets/Salesforce/blip3-kale https://arxiv.org/abs/2411.07461
点个分享、点赞与在看,你最好看~