假设:如果以OpenAI的突破性成果为参考,各大科技公司通过持续发展和优化基于Transformer的模型,在人工智能领域取得了显著进展,那么对于这个时代,数据的价值该如何评估呢?
首先讨论关于数据价值的一些原则:
数据无内在价值:
数据本身并没有固有的价值,其价值来自于能够利用这些数据实现的成果。因此,评估数据价值的首要任务是理解数据的具体使用场景和用户需求。
使用场景决定数据价值:
数据的价值与其应用场景密切相关。不同的使用场景会显著影响数据的实际价值。例如,金融数据对于交易策略至关重要,而广告数据对于市场营销活动非常重要。
用户差异化:
即便是相同的数据集,在不同用户手中,其产生的价值可能天差地别。OpenAI、谷歌、百度等大公司有着强大的计算能力和资源,相比于小公司,它们更能够从数据中挖掘出更多的价值。
数据有着自己的生命周期
数据资产在其生命周期的不同阶段,其价值也会有所不同。早期阶段数据可能不完整、不准确,市场尚未成熟,使用价值有限;成长期数据变得非常有价值,但用户范围仍有限;成熟期数据变得广泛使用,替代品出现,价格下跌;标准化阶段数据成为行业标准,使用普及,价格回升。
也正是因为如此,在没有大模型之前,数据的价值往往是由金融和广告买家决定的,它们更加关注于结构化的数据以及与人有关的数据。对于大模型而言,它们对于数据的需求是怎么样的?
对数据量的贪婪:
AI模型对训练数据的需求近乎贪婪,成为制约其能力进一步增长的关键因素。高质量数据对提升模型效果至关重要,但即使是质量相对较低的数据也能为模型的进化提供助力。
数据量的直接付费:
对于某些数据集,不再过分关注数据的结构、质量和访问权限,而是直接按数据量(如以PB为单位)付费。
合成数据的兴起:
合成数据正在为AI领域带来革命性变化,能够生成无限数量的高质量、始终新颖的训练数据,成本远低于传统的数据采集方式。
在这些的前提下,我们可以发现在模型时代,像微博、知乎等文本数据有了巨大价值,比如以国外的彭博社为例,它利用其多年的高质量金融数据训练模型训练出来BloombergGPT,再比如OpenAI和谷歌买了大量的Reddit的文本数据。
但是这又带来一个问题,对于大模型而言,大模型的训练需要大量的历史数据,但这些数据往往在首次使用后,其价值会显著下降。这是因为模型在初次训练中已经从这些数据中提取了大量信息,再次使用这些数据的边际收益递减。
总结
在大模型时代,数据的价值评估变得更加复杂和多样了。数据的无内在价值、使用场景的决定性、用户差异化和生命周期特性仍然适用,但是又给一部分数据带来了新的价值,例如微博、知乎等文本数据,估值得到了提高,然而对于大模型使用的数据,其边际效用是递减的,如何综合评估其价值又会成为一个问题。
参考链接
1. https://pivotal.substack.com/p/data-in-the-age-of-ai
2. https://pivotal.substack.com/p/how-to-price-a-data-asset