百度网盘企业版数据快速上云,数据流转平台 CloudFlow 加速大模型训练迭代

文摘   科技   2024-09-19 11:35   北京  


1    项目从何时开始,又是何时结束

一个项目的周期应该如何计算,将计算开始运行作为起点,计算结束运行作为终点?
大模型训练场景中,从 TB/PB 级数据完成收集准备上云,到这些数据被提交至任务开始运行,有时候中间还隔着好几天的时间,GPU 资源将处于空闲状态。在一些案例中,大模型训练任务运行 2 周,数据上传等待好几天。项目真正的起始时间应该提前至数据开始上传的那一刻。
在某些行业中,比如生命科学基因测序等场景,任务结束后结果数据会保存在对象存储中。这些数据需要分发给云下的众多使用者。在一些案例中,高性能计算任务运行 1 周得到结果,再额外等待好几周,全部用户陆陆续续从云上进行数据提取,项目才算真正结束。
数据流转的效率,正在越来越明显地影响项目周期、资源花费,乃至下游生态和客户的使用体验。
2    传统的百度网盘数据上云以及云上数据分发方式
百度网盘已经成为了很多企业进行收集、存储、分发数据的平台之一。
  • 网盘数据上云
为了将收集至百度网盘的数据同步至云端,企业 IT 工程师通常会将网盘的数据下载至本地,然后借助公共网络上传,或者将数据拷贝至移动硬盘并寄送至云厂商的指定地点。
  • 云上数据分发
为了将云上的结果数据分发至不同的下游合作伙伴,企业 IT 工程师将对象存储中的数据 URL 链接交给合作伙伴,或者手动导出后通过移动硬盘和百度网盘进行分发。
以上两种数据流转方式,都不可避免地导致任务周期变长。
3    百度网盘企业版上云和云上数据分发新能力
为了缩短数据流转的时间,减少资源成本,并帮助客户提升对下游合作伙伴的服务体验,百度智能云打通了百度网盘企业版和对象存储 BOS 之间的数据流转链路,数小时就可以完成 10TB 左右规模数据的上传和下载。
借助这个新发布的能力,在大模型业务的数据上云场景里,企业不再需要经过公网传输、快递物流和磁盘对拷等间接方式,网盘中的数据借助数据流转平台 CloudFlow 直接流转至对象存储 BOS。当天就可以开始大模型训练迭代,减少 GPU 算力资源等待时间,缩短了项目的业务周期。
在云上数据分发到云下的场景,可以将对象存储 BOS 中的数据直接分享到百度网盘并同时交付给多个下游客户,为用户提供符合日常使用习惯的数据获取方式。
用户只需要在数据流转平台 CloudFlow 界面配置几个关键参数,就可以让百度网盘的数据流转立即高速运行。在对象存储 BOS 控制台中选择对应目录,将目录中的文件分享至网盘。
4    全面完整的数据流转方式
不止百度网盘企业版和对象存储 BOS 之间的数据快速流转,百度智能云据流转平台 CloudFlow 为企业的数据上云迁移提供了完整的方案,包括跨云在线迁移、离线数据迁移等多种方式。

5    典型案例
某 AIGC 公司将部分收集的原始数据存储在百度网盘中之前会不定期的将数据下载到本地,并借助硬盘寄送的离线迁移方式,将数据上传至对象存储 BOS 中,以便展开大模型训练的迭代升级工作。
在这之前,从百度网盘导出数据至硬盘,再通过快递物流过程需要 1~2 天时间, 4 块 10TB 级别硬盘数据离线上云再需要 1 天左右的时间。现在通过 CloudFlow 将百度网盘企业版数据直接同步至 BOS 中,仅需 10 小时左右的时间。
- - - - - - - - - - END - - - - - - - - - - 
点击阅读原文,了解数据流转平台 CloudFlow 更多内容
传送门

百度智能云技术站
您关心的云技术话题,就是我们想要分享的内容。欢迎大家后台留言,告诉我们您想了解的主题。
 最新文章