人工智能遭遇数据荒

文摘 2024-12-14 09:43 四川

互联网是人类知识的汪洋大海，但它并非无穷无尽。过去十年，人工智能（AI）领域的突飞猛进很大程度上得益于不断扩大的神经网络和日益增长的数据训练。然而，一些专家警告说，我们正接近规模扩张的极限，部分原因是计算所需的能源需求不断膨胀，另一部分原因是大型语言模型（LLM）的开发者们快要用尽了传统数据集。

数据集的极限

今年的一项引人注目的研究表明，到2028年左右，用于训练AI模型的数据集典型大小将达到公共在线文本的总估计库存大小。换句话说，AI可能在大约四年后就会用完训练数据。同时，数据所有者，如报纸出版商，开始加强对内容使用方式的控制，进一步收紧了访问权限。这导致了“数据共享”的规模危机。

数据的挑战

尽管专家认为这些限制可能会减缓AI系统的快速改进，但开发者们正在寻找解决方案。一些知名的AI公司，如OpenAI和Anthropic，已经公开承认了这个问题，并暗示他们有计划解决，包括生成新数据和寻找非传统数据源。

数据的增长和限制

过去十年中，LLM的开发显示出对数据的极大需求。Villalobos估计，自2020年以来，用于训练LLM的“tokens”（单词的一部分）数量增加了100倍，从数千亿增加到数万亿。然而，可用互联网内容的增长速度却出奇地慢，而AI训练数据集的大小每年却翻一番。按照这些趋势预测，两者将在2028年左右交汇。

数据获取的挑战

内容提供者越来越多地包含软件代码或完善他们的使用条款，以阻止网络爬虫或AI公司从他们的数据中抓取用于训练的内容。Longpre和他的同事在7月发布的预印本显示，阻止特定爬虫访问其网站的数据显示了急剧增加。在三个主要清洁数据集中，最高质量的、最常用的网络内容中，从2023年的不到3%增加到2024年的20-33%。

数据的未来

如果找不到数据，可以创造更多。一些AI公司支付人们为AI训练生成内容；其他公司使用AI生成的合成数据。这是一个潜在的巨大来源：今年早些时候，OpenAI表示，它每天生成1000亿单词——这大约是每年3.6万亿单词，与当前AI训练数据集的大小相同。而且这个输出正在迅速增长。

结论

尽管OpenAI没有披露其最新LLM模型o1的大小或训练数据集的信息，但该公司强调，这个模型采用了新方法：在强化学习上花费更多时间（模型获得对其最佳答案的反馈的过程），以及在每个响应上花费更多时间思考。观察家说，这个模型将重点从使用大量数据集的预训练转移到了更多依赖训练和推理上。这为扩展方法增加了一个新的维度，尽管这是一种计算成本高昂的策略。

Villalobos认为，所有这些因素——从合成数据、专业数据集、重读和自我反思——都将有所帮助。“模型能够自己思考，并且能够以各种方式与真实世界互动——那可能会推动前沿发展。”

出处

本文内容参考自《自然》杂志网站发布的《The AI revolution is running out of data. What can researchers do?》文章

掌上超声应用

超声科研前沿，行业咨询，陈年掌故

最新文章

2025开年第一收购：Hologic完成3.5亿美元收购

人工智能在卵巢癌检测中最新研究进展

超声拓扑成像技术研究综述

超声探头消毒市场

面向高对比度介质的超声波层析成像技术

乳腺癌的AI助手：深度学习在超声图像中的应用

聚焦超声波治疗难治性强迫症

近红外光声用于甲状腺的研究

超声波治疗阿尔茨海默病的技术转化

超声与光声双模态成像

超声微泡编码光：在散射介质中实现光学聚焦的新方法

MIT利用先进超材料解锁超声波控制

人工智能遭遇数据荒

鱿鱼启发科学家发明无针医疗设备

2024年全球多普勒超声市场分析报告

超声成像技术的新趋势

超声波技术追踪免疫细胞治疗脑癌

超声波引导细胞生长和定向

2024年医疗器械行业八大趋势

超声波精准控制CRISPR技术

福布斯关注：AI技术在胎儿监测领域的应用及其影响

2024年医疗器械行业的关键发展趋势

从自然汲取灵感：蛾眼启发的无反光屏幕涂层

百岁老人长寿的秘密可能是干细胞

美军测试掌超的战场应用

经颅磁共振引导的聚焦超声治疗震颤：一种新的安全有效疗法

超声成像中的纳米气泡

可穿戴超声波传感器革新连续血压监测

聚焦超声波在黑色素瘤治疗中的新应用

超声波在银屑病关节炎诊断中的应用

痛风指南：2020年美国风湿病学会

超声与痛风评分

集成了超声波传感器的长期颅窗

超声精确靶向并刺激特定器官内的神经

腰椎旁肌平面阻滞在发育性髋关节发育不良手术中的术后镇痛效果

超声波聚焦：穿透脊椎

手持超声：埃默里大学医学院急诊医学系的副教授的观点

超声波做镊子——微观世界的操控者

超声引导神经阻滞：急诊疼痛管理的新选择

低强度脉冲超声联合微泡逆转三阴性乳腺癌多药耐药性

手持超声设备

床旁超声在急救医疗服务中的挑战：反对使用掌超的声音

世界首例干细胞移植治疗失明患者

在美国做一个超声技师需要什么？

为何湿狗会抖干自己？神经科学的新发现

超声+微泡增强维生素C输送

超声波触发的压电催化

超声波设备改善上唇老化外观

全自动抽血机器人

超声响应性脂质体纳米疫苗：激活小鼠T细胞免疫反应

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉