该数据集旨在支持开放音频AI模型的开发,包含了1200万条指向YouTube音乐曲目及其相关元数据的链接。该组织仅提供指向公开可用的YouTube视频及其元数据的链接,而非实际的音乐文件,并明确声明对链接内容不承担责任。
LAION解释说,DISCO-12M是DISCO-10M的升级版。他们通过直接从YouTube Music拉取数据,而不是从Spotify,消除了之前需要手动将Spotify元数据与YouTube视频匹配时出现的错误。
此外,他们还通过分析国家排行榜和流派播放列表,将数据集中的艺术家选择范围扩大到了250,516位。
LAION表示,DISCO-12M数据集可以帮助研究人员在多个领域取得进展,如构建更好的音频AI模型、识别关键音乐特征、创建基于内容的音乐搜索以及改进音乐推荐系统。
该数据集以Apache 2.0许可证发布,严格限用于学术研究。LAION明确不鼓励将此数据集用于工业应用或商业产品开发,这与汉堡地方法院最近的一项裁决相符,该裁决认为,当此类数据收集用于非商业科学研究时,是合法的。
LAION于2021年在德国成立,致力于推动开放AI的发展,并因其LAION-5B数据集而闻名,该数据集被用于训练如Stable Diffusion等知名AI模型。
然而,该组织也因某些数据集中包含指向受版权保护材料或未打算用于AI训练的私人内容的链接而受到批评。在一个案例中,LAION不得不从其LAION-5B数据集中删除指向儿童性虐待内容的链接。