BLIP3-KALE:包含 2.18 亿个图像文本对的开源数据集,通过知识增强的密集描述转换图像字幕

文摘   2024-11-24 07:45   福建  

BLIP3-KALE是一个新的开源数据集,包含2.18亿对图像-文本配对,旨在克服早期图像描述数据集的局限性。该数据集使用知识增强的密集描述,结合了网络规模的事实知识和详细的图像描述,通过两阶段的生成流程,提供了更具信息量的图像描述。KALE的数据集在多个视觉-语言基准测试中表现出色,尤其是在视觉问答任务中,展示了其在训练视觉-语言模型方面的重要价值。

参考:

  1. https://huggingface.co/datasets/Salesforce/blip3-kale
  2. https://arxiv.org/abs/2411.07461



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章