达摩院开源了一个从在线教学视频中提取的多模态数据集

科技   2025-01-17 00:01   四川  

达摩院开源了一个从在线教学视频中提取的多模态数据集,也可以说是一个视觉-语言预训练的语料库。该数据集包含650万张图片和8亿文本,这些数据是从2.2万小时的在线教学视频中提取的,涵盖了数学、物理、化学等多个基础学科。

参考文献:
[1] https://huggingface.co/datasets/DAMO-NLP-SG/multimodal_textbook


欢迎支持我的知识星球(NLP工程化):Dify源码剖析及答疑,Dify对话系统源码,电子书籍报告下载,公众号所有付费资料。若微信群二维码过期,则加微信buxingtianxia21进群。

NLP工程化知识星球

NLP工程化资料群

NLP工程化
专注于对话系统领域的技术分享,重点写《Dify应用操作和源码剖析》专栏。
 最新文章