建设单位
成都潜在人工智能科技有限公司
(品牌:“行者AI”)
建设背景
高质量数据在人工智能领域中是与计算能力、模型架构并立的三大基石之一,对文娱行业的AIGC创新应用同样重要,对于训练和优化AI模型、提升内容生成质量和多样性具有不可或缺的作用。当前,传统文娱行业在数字化转型中面临数据类型繁多、数据孤岛普遍、跨模态数据难以对齐等关键问题,严重阻碍了数据价值的深度挖掘,导致创新应用推进困难。
解决方案
利用AI等信息技术手段,行者AI建设了高质量、多模态的“行者AI文娱大模型数据集”。该数据集广泛涵盖了“文本、音频、视频”等多种模态数据,包括文章、评论、音乐、音效、对话、图片、视频等媒体内容,覆盖文娱、文旅、教育、城市建设等垂直应用场景,数据集总数达到 100亿规模、总容量高达10PB,是打造自主可控AIGC文娱大模型不可或缺的数据基石。该数据集的建设有效推动文娱行业全链条数据的全面整合,促进数据要素价值的充分释放,为行业创新应用的探索与开拓提供了强有力的支撑。
图 行者AI文娱多模态数据集
创新点
一是推动建立创新型的数字文娱内容生产模式和运营生态,将数据集融入文娱产业上下游,实现内容生产提质、降本、增效。
二是多模态、多主体数据深度整合,加快文娱数据跨领域融合创新,实现资源与创意共享。
应用成效
经济效益方面。以“行者AI文娱大模型数据集”为基石,累积了70余项发明专利、20余项软件著作权和SCI论文等知识产权,入选国家高新技术企业、四川省专精特新中小企业、四川省科学技术厅2024年人工智能领域首批项目、四川省经济和信息化厅人工智能领域攻关任务项目、成都市科学技术局科技成果转化示范项目等,获得政府及行业奖项60余项。目前,行者AI已积累近千家B端客户,服务上亿人次,2024年产值将突破上亿元。
社会效益方面。目前数据集已赋能智慧文娱、智慧文旅、智慧教育、智慧医疗、智慧城市等行业的内容工业化生产;严格符合国内的安全法规和标准打造自主可控数据集资源,有效防止信息泄露、信息滥用;结合中国优秀传统文化,更好地弘扬中华文化,坚定“文化自信”。
专家点评
高质量文娱数据集是AIGC在推动文化娱乐产业创新应用的基础。成都潜在人工智能科技有限公司建立的自主可控、高质量、多模态的“行者AI文娱大模型数据集”,助力跨主体文化娱乐产业数据的融合以及中华优秀文化的传承,能解决文化娱乐产业的同质化问题,促进内容多元化发展,满足观众对深度文化娱乐产品的需求,为促进文化产业链发展、带动相关产业协同,以及提升国家文化软实力的贡献关键力量。