利用语料来透析(“哲学思考”) “数字孪生” 上

文摘   科技   2024-10-07 12:33   上海  

祝融

编辑郭嘉

----->更多内容,请移步“鲁班秘笈”!!<-----

在数据要素行业也浸泡多年,在这个领域一个比较难回答的问题是,数据交易包不包括交付,其实仁者见仁,不同的见解演化出不同的路径。目前大致分为软流通和硬流通两种模式。软流通涉及到数据凭证,数据合规,数据安全以及数据资产入表等,硬流通涉及到具体的流通技术,隐私计算区块链乃至起源于欧洲数据空间技术的“变种”数据空间技术。
无论上层如何“你方唱罢我登场”,底层的基础逻辑还是以数据为基础实体。过往各行业的数据流通就像原油,要让数据最大化还需要从原油中进行多次的精炼。而语料将成为这个领域最重要的一环,它不限于服务于大模型,以语料为主体的数据流通将更加的可落地与可执行。
时至今日,在大模型发展趋于稳定的前提下。对于语料的建设日益重要,而语料其实离不开“数字孪生”的话题。从1993年“数字孪生”( Digital Twin,简称“DT“)在《Mirrored World》被提出,到2005年产品生命周期管理的概念提出,整个内容在不断的丰富。这个术语已在制造业、智能城市、建筑与环境、能源、交通、医疗保健等行业领域内被广泛使用,其能力也从静态模型到具有实时数据集成的动态仿真,甚至包括自主能力(如自动驾驶汽车)。但是对于“数字孪生”的概念和术语(包括DT所需组成要素等)尚未有统一的解题答案。

“数字孪生”

ISO/IEC(国际电工委员会) 23247-1:2021:“适合目的的可观察制造元素的数字表示,具有实现元素与其数字表示之间在适当同步速率上收敛的手段”
NASA:“一个已建成车辆或系统的综合多物理、多尺度、概率模拟,它使用最佳的物理模型、传感器更新、机队历史等,来镜像其对应飞行孪生的生命”
“数字孪生”的组成成分在不同的领域有不同的模型,例如:
  1. 制造业的五维参考模型:1)物理实体;2)虚拟模型;3)DT数据;4)服务;5)连接。
  2. 智慧城市的欧洲数字城市DUET模型:1)展示层 ;2)访问控制层;3)服务层;4)业务层;5)数据层;6)基础设施层;7)安全层
  3. ISO/IEC:1)目标实体;2)数字实体;3)数据连接;4)服务;5)基础设施;6)系统方面
每个领域对“数字孪生”的定义、构建元素、开发和支持的组件都大相径庭。虽然现有标准已经能拉通一些基础抽象的共识概念,但尚未有统一的考模型来整合构建“数字孪生”所需的要素及其定义。

从语料透析“数字孪生”

当前部分建筑行业的专家联合AI专家尝试使用NPL和LLMs的技术手段,从15,000篇建筑环境文章语料中提取和分析“数字孪生”的定义(问题1)及其组成要素(问题2)。制定一个数据驱动的、全面的、标准化的数字孪生定义,以捕捉建筑环境中的统一理解。

1. 语料获取
研究人员选择了Elsevier ,最大的科学文献出版商之一,从Elsevier搜索标题、摘要或关键词中包含以下术语的文章:“数字孪生”、“城市数字孪生、“城市数字孪生”、“智慧城市”和“建筑数字孪生”,文章发表年份的范围在2000-2024,共收集了15,353篇文章。并且存储了它们的元数据,包括出版物类型(全文文章、摘要、章节、社论等)、主题、作者、出版日期和关键词。
此外,研究人员还对52位来自不同领域的国际专家,如政府、行业(如公司、咨询公司)和非政府组织(NGO),组成该小组,进行了“什么是数字孪生?”的问卷调查,贡献他们在此主题上的多样背景和经验。
2. 数据准备
收集完语料后,研究人员针对语料做了两部分的信息提炼。第一部分与“数字孪生”的定义相关的数据集,第二部分与数字孪生”的组成要素相关的数据集。
  • 语料1:“数字孪生”的“定义”语料
使用正则表达式,通过提取所有符合“数字双胞胎/双胞胎(是/被/可以/- 可以) (被定义为/被描述为/以...为特征)”的句子来获得DT(数字孪生的缩写)定义。下面对应正则表达式的火星文:
r’\b(?: digital twin (?:s)?)\s +(?: is\s+) ?(?: defined \s+as)\s+.+?(?=\.\ s|\n|$)
然后使用大模型(LLMs)来过滤模糊的或者不完整的定义并进行人工检测。举个栗子:“数字孪生是数字行业的一场革命”
再用Sentence Embeddings和k均值聚类,在每组内应用模糊匹配算法,以确定每对定义的匹配程度,排除模糊重复定义(FDD)。
FDD指的是存在多个相似或几乎相同的定义或描述,但有轻微的变异或差异的情况。
举个栗子: “数字孪生是对真实世界实体和过程的虚拟表示,以特定的频率和保真度进行同步”和“数字孪生是对真实世界实体和过程的数字复制品,以特定的频率和保真度进行同步” 92%的相似度。那么就需要过滤掉前者或者后者其中的一条。

  • 语料2:“数字孪生”的“组成”语料
在语料1提取的定义数据集和问卷调查数据集中提取“数字孪生“相关的术语和短语的出现次数,再参考制造业的五维参考模型、智慧城市的欧洲数字城市DUET模型、ISO/IEC的组成要素,创建出一个有代表性的“数字孪生”的组成部分列表如下:<下面为比较权威的数字孪生组成部分>


根据收集到的语料2的语料,针对每个维度的不同组件进行关联度分析。可以发现这些组件聚集成两类。第一类:云计算、高性能计算(HPC)、安全协议、实时数据、仿真模型和人工智能/机器学习(AI/ML)模型彼此之间高度相关;第二类: 数据表示、数据验证、可视化和政策之间也高度相关。


第1(聚)类其实就是实时大数据动态和可适应的要素,研究人员称之为High-Performance Real-Time(HPRT),其更适用于计算密集型应用,如制造、自驾汽车和航空航天领域。第2(聚)类特点是近实时到远实时的数据管理和可视化要素,称之为Long Term Decision Support(LTDS),其更适用于需要长期决策支持的应用,如城市规划和建筑管理领域。

研究者还做了如下有趣的研究,将语料2的数据集用于检验“数字孪生”的组成要素(下图横轴)与城市、建筑、制造和建筑(下图竖轴)等不同领域内的重要性和相关性分析,这里采用了频率分析和卡方检验的统计学方法,进而统计出”数字孪生“组成要素在不同领域中的分布和显著性,为数字孪生在各个行业的发展和应用提供了重要见解。


从上述两张图可以发现,建筑设计领域(Architecture Domain)与建筑物领域( Building Domain)显著的组成要素类似,侧重于2D/3D数据、数据表示和验证等。而物联网传感器、政策等组件在城市领域(Urban domain)比较显著,却在前两者中反而不那么显著。
同时可以观测到数据表示、可视化相关要素是在三个领域内都有较高的显著性。另外实时数据和AI模型、仿真模型等较为新兴的技术在这三个领域内尚未被重用。

鲁班号导读火热上线!!
------>敬请移步“鲁班秘笈”!<------
------>敬请移步“鲁班秘笈!<------
------>敬请移步“鲁班秘笈!<------

    鲁班模锤
    基于开源技术生态,跟踪与普及人工智能、隐私计算、区块链以及数据空间的最新技术。着力于数据治理自动化,依托语料库构建数据可信流通方案,为所有企业提供平等的数据增益服务。
     最新文章