ModelScope联手OpenDataLab：直接调用7000+开源数据集，赋能AI模型加速研发

文摘 2024-06-20 17:04 上海

在人工智能的演进历程中，数据和模型的整合是推动技术发展的核心动力。随着AI技术的不断进步，整合各类关键资源，构建一个高效、协同的开发环境，已成为加速创新应用发展的关键。

基于这一理念，OpenDataLab浦数与ModelScope魔搭社区开展深度合作，实现平台底层接口打通，支持在ModelScope平台搜索、查看、下载OpenDataLab平台7000+开源数据集，共同开启一场模型与数据的深度融合，旨在为全球开发者打造更加高效、开放的AI体验。

两大AI社区强强联合

OpenDataLab 浦数人工智能开放数据平台，是上海人工智能实验室在WAIC 2022科学前沿全体会议上发布“OpenXLab浦源”人工智能开源开放体系的核心项目之一。

作为人工智能数据领域的探路者和开源数据社区的倡导者，OpenDataLab围绕大模型数据开展多项前沿技术探索，构建面向大模型研发全流程的数据平台及大模型时代数据管理体系。

全新的OpenDataLab浦数人工智能开放数据平台汇聚了海量的数据资源，包括覆盖800多种任务类型的7,700多个大模型优质、开源数据集，并提供便捷检索和快速下载服务。

ModelScope魔搭作为中国最具影响力的模型开源社区，链接了国内外最优秀的开发者群体，并成为国内外大模型开源的首发平台。围绕平台上开源的5,000多个优质模型，ModelScope通过自身完整的技术体系，服务了超过500万的AI开发者。

你将获得这些新体验：

一站式开发体验

ModelScope社区作为领先的模型开源平台，汇聚了丰富的行业模型和大规模预训练。而OpenDatalab以其高质量、多样化的数据集闻名，此次合作将实现模型与数据的无缝对接，为开发者提供从数据获取、模型训练到部署应用的一站式解决方案，极大提升开发效率。

增强的创新能力

结合ModelScope社区的领先的模型和OpenDatalab的广泛数据集，开发者可以轻松尝试更多的预训练，微调等模型算法，快速验证模型的效果，以及推动模型落地千行百业，降低创新门槛，加速从想法到产品的转化过程。

如何在魔搭社区使用OpenDataLab数据集

下载和加载OpenDataLab数据集

OpenDataLab和ModelScope社区在底层数据存储和交换链路、数据集meta信息表征、数据展现、ToolKit等几个技术层面，实现了互联互通；用户可以在ModelScope社区使用git和sdk的方式，来下载从OpenDataLab迁移过来的数据；同时，对于部分大型数据集，OpenDataLab提供了数据meta信息、数据下载接口，在ModelScope平台上透出。

总的来说，用户可以通过以下三种方式来下载和使用OpenDataLab的数据集：

● 使用git来下载和管理数据集

我们以LAMM数据集为例，其数据卡片参考：https://modelscope.cn/datasets/Shanghai_AI_Laboratory/LAMM/summary，

使用git命令，来实现数据文件的下载和版本管理：

GIT_LFS_SKIP_SMUDGE=1 git clone https://www.modelscope.cn/datasets/Shanghai_AI_Laboratory/LAMM.gitgit lfs pull

（左右滑动，查看全部）

● 使用sdk加载数据

对于符合ModelScope数据集组织结构规范的OpenDataLab数据集，我们也可以使用ModelScope SDK的MsDataset模块来加载数据集，具体使用方式：

# Install modelscopepip install modelscope # Load & manage datasetfrom modelscope.msdatasets import MsDatasetds =  MsDataset.load('Shanghai_AI_Laboratory/LAMM')

（左右滑动，查看全部）

此时，数据集被下载到本地缓存，数据被组织为不同的subset、split（如train、test、validation），支持对ds对象（通常为DatasetDict或Dataset格式）的遍历、filter、map等操作。

● 使用OpenDataLab原生的数据集下载工具

在此种模式下，OpenDataLab数据集的元信息、数据卡片、数据标签等内容会托管在ModelScope平台，而底层真实的数据扔存储在OpenDataLab上，此时可通过OpenXLab命令实现数据集的下载操作：

# Install openxlabpip install openxlab # Download datasetopenxlab dataset download --dataset-repo <dataset-repo>

（左右滑动，查看全部）

使用OpenDataLab数据集微调模型

当OpenDataLab数据集可以使用ModelScope sdk加载时，即可以使用ModelScope SWIFT高效微调工具来训练你的模型。以LAMM数据集为例：

● 训练环境准备

pip install modelscope -Upip install ms-swift -U

这里我们使用LAMM多模态数据集来微调GLM4-V模型，即glm4v-9b-chat；微调框架为ModelScope SWIFT。以下是具体步骤：

获取代码

git clone git@github.com:modelscope/swift.git

数据准备

由于LAMM并未集成到SWIFT数据集中，这里我们走自定义形式。将LAMM数据配置加入到SWIFT dataset_info.json中：

编辑swift/llm/data/dataset_info.json

"opendatalab-LAMM": {        "dataset_id": "Shanghai_AI_Laboratory/LAMM",        "hf_dataset_id": "",        "subsets": ["LAMM_instruct_98k"],        "split": ["train"],        "conversations": {            "user_role": "human",            "assistant_role": "gpt",            "conversations_key": "conversations",            "from_key": "from",            "value_key": "value",            "error_strategy": "delete",            "media_type": "image",            "media_key": "image"        },        "tags": ["multi-modal"]    }

（左右滑动，查看全部）

● 这里subset使用了LAMM_instruct_98k

● conversations_key取LAMM数据集的subset LAMM_instruct_98k中的conversations字段

配置完成后，执行 pip install -e .

执行训练

# Experimental environment: A100# 40GB GPU memory# limit 10000
CUDA_VISIBLE_DEVICES=0 swift sft --model_type glm4v-9b-chat --dataset opendatalab-LAMM#10000

（左右滑动，查看全部）

train loss

eval acc

补充说明

OpenDataLab多模态数据集LAMM介绍

LAMM数据集是上海人工智能实验室开源的一个多模态数据集，包括一个包含 186,098 个图像语言指令-响应对的图像指令调整数据集和一个包含 10,262 个点云语言指令-响应对的点云指令调整数据集。该数据集从公开可用的数据集中收集图像和点云，并使用 GPT API 和自我指导方法根据这些数据集中的原始标签生成指令和响应。该数据有以下特性：

● 添加了更多视觉信息，例如视觉关系和细粒度类别作为 GPT API 的输入

● 观察到现有的 MLLM 可能难以理解视觉任务指令。为了解决这个问题，设计了一种将视觉任务注释转换为指令-响应对的方法，从而增强了 MLLM 对视觉任务指令的理解和泛化

● LAMM-Dataset 还包括用于常识性知识问答的数据对，方法是结合来自 Bamboo 数据集的分层知识图标签系统和相应的维基百科描述。

欢迎大家使用你还有哪些需求或更好的建议，快来OpenDataLab github主页给我们提issue吧

传送门：https://github.com/opendatalab

相关阅读：

赌你一定想要！OpenDataLab首款大模型多模态标注平台Label-LLM正式开源

2024-06-06

浦数 AI Talk 第五季 | 直击前沿：探索多模态AI的无限可能①——详解InternVL，开源多模态大模型“黑马”

2024-06-04

上海AI Lab开源首个可替代GPT-4V的多模态大模型

2024-06-04

浦源大模型挑战赛（夏季赛）·安全可信赛道正式启动！

2024-06-03

OpenDataLab

上海人工智能实验室是我国人工智能领域新型科研机构，开展战略性、原创性、前瞻性的科学研究与技术攻关，目标建成国际一流的人工智能实验室，成为享誉全球的人工智能原创理论和技术的策源地。

最新文章

从入门到“出圈”，书生大模型实战营第4期学员招募中 | 活动预告

DocLayout-YOLO，让多样性文档布局检测更快、更准、更强

免费下载 | 横跨120余年，数亿条学术数据，大规模学术数据库“智创”开源

谁才是你最爱的 AI 数据平台？在线等，急！（有奖调研）

直播预告丨热门开源工具MinerU详解：助力复杂PDF/网页高效解析提取

不是吧？这么好用的开源标注工具，竟然还有人不知道…

AI Spot 第 2 期丨ACL 2024 字节专场直播，与多位研究员在线畅聊

江湖救急：MinerU安装宝典，AI侠客必备

速看！2024 CVPR 上海人工智能实验室专场直播回顾&干货资料包来了

登顶GitHub Trending，开源工具MinerU助力复杂PDF高效解析提取

CVPR 2024 上海人工智能实验室专场直播丨AI Spot 学术分享会

A100算力加持！书生大模型实战营全面升级，趣味闯关等你来

AI考生能被什么大学录取？文科可上一本，理科过二本线

AI Talk直播预告⑤ | 详解MinerU：赋能大模型的高质量网页与PDF数据提取技术及工具分享

周伯文：探索人工智能45°平衡律

WAIC上官宣！大模型语料提取工具MinerU正式发布，开源免费“敲”好用

AI Talk直播预告④ | 详解MAP-Neo：第一个高性能、完全开源透明的双语LLM

ModelScope联手OpenDataLab：直接调用7000+开源数据集，赋能AI模型加速研发

AI Talk直播预告③ | 详解InternVideo2：最新多模态视频基础模型

ACL2024|上海AI Lab, 武汉大学，同济大学联合发布并开源第一个面向大语言模型的中文常识推理测评基准 CHARM !

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉