关于AI和数据的一些讨论

文摘   2024-06-28 22:23   广东  

假设:如果以OpenAI的突破性成果为参考,各大科技公司通过持续发展和优化基于Transformer的模型,在人工智能领域取得了显著进展,那么对于这个时代,数据的价值该如何评估呢?

首先讨论关于数据价值的一些原则:

数据无内在价值:

数据本身并没有固有的价值,其价值来自于能够利用这些数据实现的成果。因此,评估数据价值的首要任务是理解数据的具体使用场景和用户需求。

使用场景决定数据价值:

数据的价值与其应用场景密切相关。不同的使用场景会显著影响数据的实际价值。例如,金融数据对于交易策略至关重要,而广告数据对于市场营销活动非常重要。

用户差异化:

即便是相同的数据集,在不同用户手中,其产生的价值可能天差地别。OpenAI、谷歌、百度等大公司有着强大的计算能力和资源,相比于小公司,它们更能够从数据中挖掘出更多的价值。

数据有着自己的生命周期

数据资产在其生命周期的不同阶段,其价值也会有所不同。早期阶段数据可能不完整、不准确,市场尚未成熟,使用价值有限;成长期数据变得非常有价值,但用户范围仍有限;成熟期数据变得广泛使用,替代品出现,价格下跌;标准化阶段数据成为行业标准,使用普及,价格回升。


也正是因为如此,在没有大模型之前,数据的价值往往是由金融和广告买家决定的,它们更加关注于结构化的数据以及与人有关的数据。对于大模型而言,它们对于数据的需求是怎么样的?

对数据量的贪婪:

AI模型对训练数据的需求近乎贪婪,成为制约其能力进一步增长的关键因素。高质量数据对提升模型效果至关重要,但即使是质量相对较低的数据也能为模型的进化提供助力。

数据量的直接付费:

对于某些数据集,不再过分关注数据的结构、质量和访问权限,而是直接按数据量(如以PB为单位)付费。

合成数据的兴起:

合成数据正在为AI领域带来革命性变化,能够生成无限数量的高质量、始终新颖的训练数据,成本远低于传统的数据采集方式。


在这些的前提下,我们可以发现在模型时代,像微博、知乎等文本数据有了巨大价值,比如以国外的彭博社为例,它利用其多年的高质量金融数据训练模型训练出来BloombergGPT,再比如OpenAI和谷歌买了大量的Reddit的文本数据。

但是这又带来一个问题,对于大模型而言,大模型的训练需要大量的历史数据,但这些数据往往在首次使用后,其价值会显著下降。这是因为模型在初次训练中已经从这些数据中提取了大量信息,再次使用这些数据的边际收益递减。


总结

在大模型时代,数据的价值评估变得更加复杂和多样了。数据的无内在价值、使用场景的决定性、用户差异化和生命周期特性仍然适用,但是又给一部分数据带来了新的价值,例如微博、知乎等文本数据,估值得到了提高,然而对于大模型使用的数据,其边际效用是递减的,如何综合评估其价值又会成为一个问题。

参考链接

  1. 1. https://pivotal.substack.com/p/data-in-the-age-of-ai

  2. 2. https://pivotal.substack.com/p/how-to-price-a-data-asset


鸿的笔记
一个程序猿的读书笔记,与你分享好书、好文章和新鲜的观念。期待碰上有趣的你。