邬贺铨院士前沿讲解:数据要素的开发与治理
科技
2024-11-20 00:15
上海
10月29日,首届GDTC全球数据技术大会召开,邬院士在全体大会上对数据要素开发与治理做了最前沿的讲解。邬贺铨,中国工程院院士,教授,博士生导师,是中国通信技术领域的权威专家之一。他在中国乃至全球的通信技术发展中扮演了重要角色,特别是在光纤通信、宽带网络以及数据通信领域有着深入的研究和丰富的实践经验。邬院士长期从事通信技术的教学和科研工作,发表了多篇具有重要影响力的学术论文,并获得了多项国内外科技奖项。他的研究成果不仅推动了中国通信技术的快速发展,也为全球通信技术的进步做出了贡献。作为通信行业的领军人物,邬贺铨院士积极参与国家通信技术政策的制定和重大项目的咨询工作。他以其深厚的专业知识和前瞻性的视角,为中国乃至全球的通信技术发展提供了宝贵的指导和建议。邬院士以其清晰的逻辑、渊博的知识和富有启发性的演讲风格而闻名。他的演讲常常涉及通信技术的最新发展、数据治理、网络安全等前沿话题,为听众提供了深入了解行业动态和未来趋势的机会。以下是邬贺铨院士《数据要素开发与治理》演讲详细整理在邬贺铨院士的演讲中,他首先介绍了数据生态的概念,特别强调了数据基础设施的重要性。数据基础设施主要包括算力设施、数据流通运营设施和网络设施。算力设施涵盖服务器、存储设备和高性能计算集群,它们为处理和分析大数据提供必要的计算能力。数据流通运营设施则涉及数据的收集、存储、处理、分析和分发,确保数据能够高效、安全地在不同系统和平台间流动。网络设施,包括宽带网络、移动通信网络和数据中心互联等,构成了数据传输的物理基础,支持数据在全球范围内的快速流通。邬院士进一步指出,未来的互联网必须适应数据基础设施的新需求,以确保服务的高确定性、大带宽、低时延和高可信度。高确定性意味着网络服务的质量、性能和响应时间需要更加稳定和可预测,这对于自动驾驶、远程医疗等关键应用至关重要。随着数据量的激增,大带宽成为必然需求,以支持数据的高速传输和满足大数据分析、云计算等应用的需求。低时延是实现实时应用如在线游戏、虚拟现实和工业自动化等的关键,未来互联网需要减少数据传输的延迟,提高响应速度。高可信度则涉及网络的安全性、可靠性和隐私保护,未来互联网需要提供更加安全的数据传输和存储解决方案,保护用户数据不被未授权访问或泄露,同时确保网络服务的可靠性和稳定性。为了满足这些需求,现有的网络设施需要进行升级和改造,构建一个更加强大、智能和安全的数据基础设施,以支持未来的数据驱动型经济和社会发展。邬贺铨院士深入探讨了人工智能(AI)如何成为数据应用的有力助推器。他首先讨论了行业模型的构建,这是一个将行业特定数据与基础大模型结合以形成定制化解决方案的过程。这种方法虽然能够提升模型的行业适应性,但也伴随着数据泄露的风险,特别是当企业必须将敏感数据共享给外部合作伙伴时。此外,企业也可以选择购买或租用现成的大模型,并利用自己的数据进行微调,以适应特定的业务需求。然而,这种方法可能面临模型透明度不足和协同问题,因为企业可能无法完全理解基础大模型的内部机制。邬院士还强调了数据资源的建设现状和面临的挑战。他指出,当前的数据供给质量不高,流通机制不畅,存储率低,且公开可用的语料库稀缺。这些问题限制了数据的潜在价值和应用范围。特别是在自动驾驶领域,邬院士强调了收集真实道路数据的重要性,以及过度依赖仿真数据可能带来的局限性和风险。在数据标注方面,邬院士提到,数据清洗和标注是一个劳动密集型的过程,需要大量的人工参与。为了降低成本和提高效率,可以通过优化提问词和自动训练大模型来实现部分数据的免标注。这种方法有望减少人工标注的需求,特别是在文本数据上,如ChatGPT所展示的无监督学习能力。然而,对于图像数据,自动标注仍然是一个挑战,需要进一步探索降低人工标注成本的方法。邬贺铨院士深入探讨了数据治理的多个方面,特别强调了公共数据的利用与管理的重要性。他指出,政府开放公共数据不仅能够推动社会进步,还能增强政府的公信力。为了实现这一目标,政府部门在发布数据时必须进行跨部门的协同工作,确保数据的一致性和准确性,避免因数据矛盾而损害政府的信誉。此外,政府数据的开放应当是普惠性的,意味着数据应该免费向社会开放,防止企业利用这些数据进行私利牟取。在数据隐私保护方面,邬院士提到了去标识化和匿名化技术的重要性,这些技术是保护个人隐私的关键手段。特别是在跨境数据流动管理中,通过识别IP地址和个人身份绑定来限制非法访问,确保数据的安全流动。IPv6技术的应用,为跨境数据流动和路由管理提供了支持,通过在IP地址字段插入用户身份标识和信道需求,实现了对数据包的明确管理和路由选择。数据空间的概念也被邬院士提出,它是一个去中心化的数据协作平台,遵循共识管理规则和数据标准,提供安全的数据处理环境。在这个平台上,数据可以通过加密和密钥管理实现可控共享,即使数据被传输到使用方,也能保持加密状态,确保数据的安全和隐私。网络安全与数据保护也是邬院士演讲的重点。他强调了防止数据劫持的重要性,并提出了需要严格的接入验证和访问管理。区块链技术的应用可以保证数据的可追溯性和版本管理,从而防止勒索病毒等安全威胁。最后,数字水印技术被提出用于区分数据来源,防止数据被篡改,确保数据的真实性和完整性。邬贺铨院士特别强调了数据的归属性与资产性挑战,这是一个复杂且日益重要的议题。数据归属性问题涉及到法律层面,需要确定数据的所有权,这不仅关乎数据的来源和使用权,还涉及到数据的控制权。在实际操作中,技术如数字水印和区块链被提出作为解决方案,它们可以帮助标记数据来源,确保数据的可追溯性,从而在一定程度上解决归属权的问题。数据资产性则是指数据作为企业或个人资产的价值。这种价值并不是静态的,而是随着时间、空间和应用场景的变化而变化。数据的价值很大程度上取决于市场的需求,对于某些企业来说,特定的数据可能极具价值,而对于其他企业则可能毫无用处。这就引出了数据交易的问题,包括场外和场内交易的可能性。场外交易通常是指在非正式的市场或私人之间进行的数据交易,而场内交易则是指在正式的数据交易所进行的交易。邬院士提出,为了促进数据的有效交易,需要解决数据资产的标准化问题,这包括数据的定价、质量控制和交易规则等。欢迎添加勇敢姐,交流与合作看完敬请关注、点赞和在看@勇敢姐飙AI
勇敢姐飙AI
一起探索AI赋能千行百业的解决方案、场景和案例。