首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

关于AI和数据的一些讨论

文摘 2024-06-28 22:23 广东

假设：如果以OpenAI的突破性成果为参考，各大科技公司通过持续发展和优化基于Transformer的模型，在人工智能领域取得了显著进展，那么对于这个时代，数据的价值该如何评估呢？

首先讨论关于数据价值的一些原则：

数据无内在价值:

数据本身并没有固有的价值，其价值来自于能够利用这些数据实现的成果。因此，评估数据价值的首要任务是理解数据的具体使用场景和用户需求。

使用场景决定数据价值:

数据的价值与其应用场景密切相关。不同的使用场景会显著影响数据的实际价值。例如，金融数据对于交易策略至关重要，而广告数据对于市场营销活动非常重要。

用户差异化:

即便是相同的数据集，在不同用户手中，其产生的价值可能天差地别。OpenAI、谷歌、百度等大公司有着强大的计算能力和资源，相比于小公司，它们更能够从数据中挖掘出更多的价值。

数据有着自己的生命周期

数据资产在其生命周期的不同阶段，其价值也会有所不同。早期阶段数据可能不完整、不准确，市场尚未成熟，使用价值有限；成长期数据变得非常有价值，但用户范围仍有限；成熟期数据变得广泛使用，替代品出现，价格下跌；标准化阶段数据成为行业标准，使用普及，价格回升。

也正是因为如此，在没有大模型之前，数据的价值往往是由金融和广告买家决定的，它们更加关注于结构化的数据以及与人有关的数据。对于大模型而言，它们对于数据的需求是怎么样的？

对数据量的贪婪:

AI模型对训练数据的需求近乎贪婪，成为制约其能力进一步增长的关键因素。高质量数据对提升模型效果至关重要，但即使是质量相对较低的数据也能为模型的进化提供助力。

数据量的直接付费:

对于某些数据集，不再过分关注数据的结构、质量和访问权限，而是直接按数据量（如以PB为单位）付费。

合成数据的兴起:

合成数据正在为AI领域带来革命性变化，能够生成无限数量的高质量、始终新颖的训练数据，成本远低于传统的数据采集方式。

在这些的前提下，我们可以发现在模型时代，像微博、知乎等文本数据有了巨大价值，比如以国外的彭博社为例，它利用其多年的高质量金融数据训练模型训练出来BloombergGPT，再比如OpenAI和谷歌买了大量的Reddit的文本数据。

但是这又带来一个问题，对于大模型而言，大模型的训练需要大量的历史数据，但这些数据往往在首次使用后，其价值会显著下降。这是因为模型在初次训练中已经从这些数据中提取了大量信息，再次使用这些数据的边际收益递减。

总结

在大模型时代，数据的价值评估变得更加复杂和多样了。数据的无内在价值、使用场景的决定性、用户差异化和生命周期特性仍然适用，但是又给一部分数据带来了新的价值，例如微博、知乎等文本数据，估值得到了提高，然而对于大模型使用的数据，其边际效用是递减的，如何综合评估其价值又会成为一个问题。

参考链接

1. https://pivotal.substack.com/p/data-in-the-age-of-ai
2. https://pivotal.substack.com/p/how-to-price-a-data-asset

http://mp.weixin.qq.com/s?__biz=MzIyMjU4MjU0MQ==&mid=2247486361&idx=1&sn=76ea8e5c405a8335241ae419d21ff874

一个程序猿的读书笔记，与你分享好书、好文章和新鲜的观念。期待碰上有趣的你。

最新文章

给大模型找到合适的应用场景-开篇

大模型时代的数据基础设施

聊聊 Snowflake 和 databricks 2024 年度峰会

去体验了一次萝卜快跑

关于AI和数据的一些讨论

英伟达目前还没看到破绽

谈一谈新质生产力

简单聊聊对 GPT-4o 的一些感觉

真没想到谷歌云居然删除了800亿基金所有数据

从 Llama 3 开源说起

数据安全漫谈

一个业务系统是如何变复杂的

GPT-4 能做好数据分析师的工作吗？

AI 对数据工程师的影响

尝鲜 Midjourney V5.1 的绘图效果

AI 时代到来前的一些随想

在使用GPT-4一个月之后的想法：探索人工智能的无限可能

进阶版本：使用 chatgpt 完成一个前端小游戏的制作

不用写一行代码，用 ChatGpt 生成并修改一个前端页面

新的时代：不需要动手写一行代码就完成了任务，每个人都将是超人。

感受下 AI 翻译的魅力

也许未来没有程序员了

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉