工业领域数据生成技术发展背景
在当今快速发展的数字化时代,生成式人工智能已成为各行业技术革新的核心力量,并正在重塑信息处理和决策的方式。生成式AI的核心能力之一是生成数据,即通过计算机模拟或算法生成数据,用于替代真实数据,以解决数据稀缺、隐私保护和数据共享等问题。
埃森哲(Accenture)、Forrester、CB Insights等研究咨询公司都将生成数据列为人工智能未来发展的核心要素;Gartner预测到2030年,AI模型使用的数据中生成数据将完全超越真实数据。在我国,《数据二十条》、《“数据要素x”三年行动计划(2024-2026年)》等文件出台,推动优质数据供给增加。与此同时,《数据安全法》、《网络安全法》等法规陆续颁布实施,真实数据的获取面临隐私保护、成本高昂和数据稀缺等挑战,生成数据为解决这些问题提供了新途径,将迎来更加广阔的发展空间。
面向工业领域,毕马威 (KPMG) 在调查报告中指出,78% 的受访工业制造高管认为生成式人工智能是“最重要的新兴技术”。一方面,AI技术快速渗透,对数据的需求快速增加,另一方面,工业领域数据面临“严、繁、杂、散”的难题,优质数据供给受限。利用数据生成技术可以有效解决工业领域数据采集难、数量不足、分布不均、多样性差等痛点问题。数据生成技术将成为工业数智化转型必不可少的重要支撑。
数据生成技术概览
根据实现方式的差异,数据生成技术主要包括如下分类:
规则驱动
规则驱动方法基于预定义的条件、关系和约束生成数据,适用于具有明确业务逻辑的场景。常见的规则方法包括逻辑运算、数学运算、文本和日期变换以及数据清理和转换等。规则驱动方法可以生成结构化、半结构化数据,这些数据可用于软件功能及性能测试、财务模拟、流量模式模拟以及机器学习模型训练等场景。
统计方法
统计方法基于统计模型生成具有特定概率分布或统计特性的数据,即生成数据与真实数据具有统计属性上的相似性。常见的统计模型如正态分布、泊松分布、指数分布等模型,可生成结构化数据,应用于设备故障时间模拟、车流量模拟等场景;此外,高斯混合模型可以生成结构化数据或图像,用于金融分析数据模拟、机器学习数据集扩充等场景;隐马尔科夫模型可以生成与时间相关的结构化序列数据以及文本和音频等非结构化数据,可以应用于股票价格模拟、语音信号模拟等场景。
物理仿真
物理仿真利用计算机模型和数值方法,从几何、功能和性能等方面对实体进行精细化建模与跨领域多学科耦合仿真,从而生成代表这些现象和过程的高精度数据。常见的物理仿真方法包括有限元分析、几何建模、多体系统动力学、多物理场建模等,主要用于生成时序、表格等结构化数据,可广泛应用于工程、科学、气候等领域,为产品性能模拟、科学理论验证、自然灾害预测等场景提供数据支撑。
深度学习
深度学习模型基于深度神经网络构建算法模型,通过训练模型来学习和捕捉真实数据的分布特征,从而生成具有相似特征和统计属性的合成数据。常见的深度生成模型包括GAN(Generative Adversarial Network,生成对抗网络)、扩散模型(Diffusion Model)等,可用于生成时间序列、文本、图像、视频等结构和非结构化数据,为数据分析、模型训练提供丰富的数据资源。
GAN由生成器和判别器组成,前者通过随机噪声生成图像, 后者判断输入图像为真的概率。在训练过程中,生成器和判别器的欺骗能力和判别能力相互竞争并提升,最终,生成器根据其学习到的概率分布可生成符合真实数据概率分布的新样本。
扩散模型通过控制噪声信号的逐步变化生成数据样本, 并且支持逆向过程和条件生成,能够产生高质量的样本且具有较高的灵活性和可解释性。
此外,LLM(Large Language Model,大语言模型)、MLLM(Multimodal Large Language Model,多模态大语言模型)等大模型作为最新的前沿技术,正逐渐在数据生成领域中发挥越来越重要的作用。LLM拥有卓越的语言理解和表达能力,以及强大的指令遵循能力,能够生成高质量、上下文相关的文本数据,广泛应用于对话生成、文本总结、代码生成、内容创作等场景;MLLM在大语言模型基础上引入多模态能力,能够进行跨模态数据的生成和理解,可同时处理和生成图像、文本、视频、音频等多种数据类型,这使得MLLM在图文生成、视觉问答、视频分析等应用中展现出前所未有的潜力。
相比而言,传统的基于规则、统计或仿真的方法,受限于原始数据的范围和特征,难以生成高度多样化或具备复杂语境的样本;而基于深度学习的算法,特别是大模型技术,能够额外的引入工业领域特有的机理知识,不仅可以提高生成数据的质量,而且可以创造出更丰富、更贴近真实的数据样本, 进而扩展数据的多样性和覆盖范围,实现模型精度、泛化能力等的提升。
生成技术在工业领域应用实践
新一轮科技革命和产业变革蓬勃兴起,生成式人工智能等技术快速发展,数据生成技术有望正在成为推动工业创新和转型的关键因素。在此过程中,一批先行者已经行动起来,积极探索新理念、新模式,将大模型等技术与工业机理、工业知识库等不断结合,使生成数据与真实数据的相似性进一步提升,应用范围不断扩大。
(一)生成数据为工业图像检测任务提供充足的训练数据,提升检测模型在各种复杂环境和任务中的精度
工业过程的图像采集设备长期处于强干扰环境中,导致图像样本的噪声干扰大、获取和标定存在困难,此外,数据的不均衡分布、多样性不足也是工业视觉任务中的常见问题。针对上述问题,可以基于数据生成技术通过拟合小样本分布以扩充样本数据,或基于多模态的方法补充特定缺失数据,从而提升最终检测模型的适用性和泛化性。
以在缺陷识别和检测场景为例,通过数据生成技术可以模拟工业场景中的各种缺陷图像,如表面划痕、变形、磨损等,从而提高工业视觉模型对不同缺陷的识别精度。国内外已均有此类数据生成产品,如NVIDIA在2021年11月发布的Omniverse Replicator,其作为合成数据生成引擎,允许开发人员通过改变参数(如缺陷类型、位置、环境照明等)的方式来快速生成不同的数据集,以加快工业缺陷检测模型的训练和迭代。在国内,阿丘科技也发了工业级智能图像生成软件AIDG,可快速批量生成高仿真度缺陷图像,并高度还原真实缺陷的纹理、立体度和色彩等细节信息。数据生成技术已应用于汽车零部件表面瑕疵检测、3C电子金属结构件缺陷检测、硅片缺陷仿真等工业视觉检测任务中,快速扩充缺陷样本,从而优化模型的检测性能。
(二)生成数据为工业机器人提供丰富的训练资源,提升机器人的自动化和智能化水平
工业机器人在训练过程中面临诸多挑战,如数据采集困难、场景复杂多样等问题。工业机器人需要在多变的环境中执行复杂任务,如抓取、搬运、装配等,然而现实场景中的数据采集和标注成本高昂,且往往难以覆盖所有的操作场景。特别是在极端条件下,如狭小空间、复杂运动路径或恶劣的外部环境中,采集足够的训练数据更加困难。此外,机器人训练过程中,数据不均衡、特定任务样本不足也会导致模型泛化能力和稳定性下降。针对上述问题,数据生成技术通过合成多样化的模拟数据,可为机器人提供不同操作场景的虚拟数据样本,从而显著提高其适应复杂环境和执行复杂任务的能力。
近来,具身智能、智能汽车等新一轮技术热潮的快速发展,在模拟环境中使用海量数据进行仿真训练正在得到更多关注和应用。如英伟达的Isaac Sim平台允许用户使用合成数据在基于物理的虚拟环境中进行机器人感知、导航及操控等任务的训练、测试,并将训练结果同步到现实世界的机器人身上,大幅提升机器人开发效率。此外,生成数据也广泛应用于自动驾驶领域,如腾讯自动驾驶实验室开发的自动驾驶仿真系统TAD Sim(Tencent Autonomous Driving Simulation),支持自动批量化生成各种车辆、道路、城市等交通场景数据,用于模拟各种驾驶场景,以降低自动驾驶技术的开发成本。
总结与思考
目前来看,数据生成技术已在工业领域已经得到一定应用,并在多个领域展现巨大潜力,但仍存在一些亟待解决的问题:
在算法性能方面,当前生成模型复杂度高,训练和使用成本高,限制了其在资源受限的工业环境中的应用,如何进一步优化核心算法,降低技术门槛,促进生成数据在中小企业的应用,逐渐成为产业界关注的热点方向。
在数据质量方面,数据的多样性和泛化能力有待进一步提升,并且生成数据中可能包含错误或虚假数据,进而影响到下游任务的可靠性。当前产业界已开始在数据生成规范、质量评估框架与指标体系、数据合成模型的准确性及稳定性测试等方面探索可行的路径。
在应用方面,由于不能完全模拟真实环境中的复杂性和变异性,生成数据的有效性和适用性仍有待提高。以行业特色场景为切入点,加强数据生成技术与工业机理的结合,成为一条可行的实践方式。
此外,生成数据可能包含敏感信息,存在数据隐私和安全泄露问题,相关研究有待加强。为生成数据建立监管体系、探索共建共享机制,并引导合理使用,已呈现出一定的发展态势。
可以预见,随着大模型等人工智能技术的快速发展,数据生成技术将步入量质齐升的新一轮快速发展阶段。工业领域基于生成数据的新模式、新业态将不断涌现,乃至对工业应用形成重大创新重构,对工业发展产生深远影响。
【参考文献】
[1]《合成数据关键技术及应用研究》,中国工业互联网研究院,2024
[2] 汤健,郭海涛,夏恒,等.面向工业过程的图像生成及其应用研究综述[J].自动化学报,2024,50(02):211-240
[3]《Getting a head start with generative AI in industrial manufacturing》,KPMG,2023
[4]《Forget About Your Real Data – Synthetic Data Is the Future of AI》,Gartner,2021
[5]《生成式人工智能用例汇编》,德勤数智研究院,2024
[6]《企业生成式人工智能应用现状》,德勤,2024
[7]《工业大模型应用报告》,腾讯研究院,2024
[8]《行业大模型标准体系及能力架构研究报告》,中国信息通信研究院,2023
[9]《工业大模型技术发展与应用报告》,中国信息通信研究院,2023
[10]《工业智能白皮书》,中国信息通信研究院,2022
审稿:杨蕾、郭勐 | 业务研究所
本文作者
免责声明:本公众号平台对分享、转载的内容、陈述、观点判断保持中立,本公众号内容为作者观点,仅供读者参考,本公众平台不承担任何责任。以上声明内容的最终解释权归本公众平台所有,本声明适用于本平台所分享与转载的文章,谢谢您的合作!