🎯AI 大模型发展,数据成关键
在 Scaling Law 的“指引”下,AI 大模型技术不断朝着加大训练数据、加大算力投入、堆积参数等方向前进。
然而,随着发展,如何用更可靠的数据进行训练模型,成为了根本性、长期性的关键要素之一。
外滩大会“从 DATA for AI 到 AI for DATA”见解论坛披露的数据显示,自 2026 年起,人类产生的新数据量将比模型学习的新数据量要少,预估到 2028 年,AI 大语言模型将耗尽人类数据。
这意味着未来基于现有数据技术的模型效果可能出现“瓶颈”,难以实现通用人工智能(AGI)目标。💡提高数据质量至关重要 肖仰华教授指出,当前大模型仍面临“幻觉”、垂直行业信息缺乏等核心挑战,而造成“幻觉”现象的主要原因是大模型缺乏高质量数据支撑。
在一定程度上,数据决定了 AI 大模型“智能水平”的上限,但当前千亿大模型中 80%都是“水分”,即大量语料数据无意义、错误率极高。
所以,提高数据的质量和多样性对于未来大模型技术发展及落地应用至关重要。🌟大模型落地本质是数据工程 肖仰华教授认为,AI 大模型落地的本质仍然是数据工程。
当前大模型发展过程中,对数据的消耗和使用极为“粗放”,使用效率极为“低下”。
如果大模型要走向千行百业,必须解决“幻觉”问题,可运用合成数据、私域数据、个人数据、小模型、知识图谱等技术方法。
📊三种高质量数据模型技术方案 - **合成数据**:
互联网数据虽消耗殆尽,但人类可以在其基础上合成更多数据。
合成数据不仅能缓解数据用光的问题,还能激发大模型的智商和理性能力,因为其中大部分是人类思考过程的数据。
- **私域数据**:
人类更多高质量、高价值的数据在私域(垂直行业)中,用好私域数据可能让大模型变成行业专家。
- **个人数据**:
个人数据用于训练大模型才刚刚开始,未来如何把个性大数据和大模型结合好,为每个人提供服务还有很长的路要走。
❓合成数据引发争议 虽然合成数据被认为对创造下一代大模型有很大帮助,但也存在多样性和丰富度不足的问题。
OpenAI 创始成员安德烈·卡帕蒂承认当前数十亿级参数量的大模型存在很多无用信息,认为数据集没有经过精细化调整。
💭反对“机器取代人类” 肖仰华教授反对“机器取代人类”的观点,认为技术的发展要“以人为本”,没有人的文明是没有意义的。
以大模型为代表的 AGI 的到来,应倒逼人类回归价值本原。
🌅未来展望与挑战 展望未来,这波生成式大模型的泡沫早晚会破,天花板一定会到来。
原因有三:
一是人类产生优质数据的过程缓慢,成为大模型发展的天花板;
二是合成数据质量控制存在技术挑战,且会限制大模型获得本质新颖的知识与能力;
三是即便训练出超级大模型,人类当下的智识水平可能限制我们认识它。
AI 就像一面照妖镜,将摧毁人类社会中没有价值的事情,倒逼所有行业回归价值本原,让人类做真正有价值的事。