“ 大模型的进入到一个新阶段,要从预训练进入到强化学习了,因为网上的天然数据不够用了,所以需要自己跟自己玩,自己去创造很多数据……。”杨分享了他的最新观点,笔者摘要如下
01
—
人工发展的阶段
2020年以前的20年,人工智能发展是主要体现在垂直领域,比如人脸识别,语音识别,自动驾驶等。
给我的感觉,那时候百家争鸣的时代,科研院所、大厂和创业公司很多人工智能创业公司有大量的科研项目,根据市场需求,很多定制化小模型应用于各个垂直领域,费时费力重复造轮子的时代,那时候也是算法工程师就业的黄金时代。
而2020年后从垂直领域的个性化模型进行入了通用模型时代,什么是通用模型呢?
就是一个模型可以用在不同行业不同任务上,就是所谓的泛化,(generalized),泛化后会对全社会的生产力产生影响,可以理解为每个人都可以达到行业专家的水平,
比如说,现在人的社会平均能力是40-60分,部分专家是90-100分,而通过通用模型的AI加持,平均能力可能上升到了90-100分,甚至可能更高到达200分,300分,1000分,这取决于通用模型的的进步速度。
02
—
为什么是现在通用模型爆发
第一、导火索就是2018年《Attention is all you need》论文的正式发表,Transformer横空出世。
最开始是为了解决用于翻译的RNN模型不能并行执行的问题,但是后来发现它的价值远远不止于此,大家意识到Transformer是一个高度通用的架构。不管什么样的数据,不管任务的目标是什么,只要可以数字化表达,就可以用Transformer来进行学习训练。
而且因为其并行运算特征,可以规模化。如果用一个更传统的结构,比如说用循环神经网络或卷积神经网络,可能会发现到了10亿参数或更多的时候,再加参数或再加计算就不会变好。
但是对Transformer来讲,只要一直加就会一直好,而且几乎看不到上限。这样的结构,使得通用学习成为可能。只要不断地把数据放到模型里面去,然后定义你要学习的目标函数。
除了模型算法进步的原因,还有两个要具备前提条件。
第二、20多年开始的互联网积累的大量的线上数据,相当于把人类社会的积累的知识和经验都数字化了到线上了,方便了大模型学习。这个看上去是一个巧合,2000年的各种门户网站和互联网产品想不到他们的创造可以点燃人类下一代的科技树。
第三、是计算机和相关技术的发展,大家看到的英伟达的巨大成功是典型的例子,其实不光是芯片算得快,还要把芯片连接起来,还要有足够大的带宽、有足够大的存储,所有这些技术叠在一起才能产生足够的算力。
人类每一代的新技术都是前面几代的技术组合的结果,但是有些组合往往会导致质变的发生,产生爆炸性的效果,比如20年前的互联网,比如今天的大模型。
03
—
o1发布说明大模型开始新学习路线
之前我有文章说Kimi之类的大模型都是在做接龙的游戏,预测下一个Token(token是大模型的一个重要概念,简单可以理解为英文的一个单词和汉语的一个字),这是到目前为止的pre-training的学习模式,
但是网上的数据被学习完了,虽然互联网的数据积累了20多年,但是也不够大模型学习的,这是一个很大的问题,很多学科,很多领域,都没有数字化到网上,或者说很好的资料数字化到网上,比如数学、工程学。
所以要找新的方式,OpenAI发布的o1就是用新的学习路线进行大模型的深度学习,就是强化学习(Reinforcement Learning)。
以前的文字接龙方式是找线上存在的数据预测下一个是什么,和真实的数据比较,不断完善模型。这个方式可以打下一个基础,后面开始自己和自己学习的方式,生成很多数据,把好的学了,不好的扔掉了。
大家如果去看o1的话,中间会生成很多的思考。这个思考到底有什么作用呢?核心也是生成数据的过程。因为这些数据本身在世界上是不天然存在的,
比如一个很厉害的数学家证明了一个新的定理,或者解了什么样的数学题,或者参加了什么竞赛解了数学题,只会把答案写出来,不会把思考的过程写出来,所以它是天然不存在这样的数据。
但是现在如想让AI把人脑里面本身的思考过程给生成出来,然后通过去学习这个思考的过程,得到更好的泛化。比如现在给一个学生一道很难的题,如果直接去学这道题的解答,其实并不知道在干什么。
其实他需要有人给他讲一下,这一步原来是这样,为什么能得到这个思路其实是有思考的过程。如果能学到思考的过程,下次遇到不太一样的题,他也能做。
这个就也导致Scaling的阶段发生了变化,原来是训练阶段,就是找一堆数据去接龙,现在是推理阶段,就是自己生成思考过程。
预计未来5-10年大模型应用会有巨大市场机遇,一方面大模型纵向的智能水平会继续提升,另一方面视觉和音频的多模态的不断发展,也会横向拓展大模型应用的技能范围,形成一个全面的多场景的能力。
学习AI,投入未来。如果对你有帮助,欢迎点赞,转发,收藏。