Chat GPT发布以来,到底发生了什么?
我花了两周回顾了上千条新闻,把它们梳理出来,并挑选出其中最重要的节点,来跟大家一起见证历史。
因为这个,是可能改变我们命运的真实故事。
不管你现在已经是AI小能手,还是你之前基本不怎么关注AI,文章都会给你带来一些新视角,帮你思考AI到底是风口还是泡沫,而作为普通人的我们,又该怎么办?
让我们一起回到2022年底,重走这魔幻的700多天。时间回到2022年11月30号,2022年刚刚到了尾声,整个世界,其实都处于一个比较低迷的状态。
我记得我在做最后一次核酸检测,那街上的店铺都非常的冷清,手机新闻里也很多不太平的消息,什么佩洛西事件、地震海啸、烧杀抢砸什么的。
科技圈也有非常大的动荡,各大公司都在裁员,亚马逊裁员了1.8万,Meta裁了1.1万,推特被马斯克买了之后,直接就裁员了一半。
国内也是一样,当时比较流行的一句话叫做“降本增效”,打工人应该比较熟悉啊,一听就非常头疼。
就在那天晚上,一家叫Open AI的小公司,他的CEO山姆·奥特曼发了一条推特:试试ChatGPT吧!
就这么一句话,没有什么发布会、新闻稿,他们发布了ChatGPT和它的底层大模型,GPT3.5,引线被点燃了。当时它的影响力有多大呢?
从注册人数来看啊,第一天它就有10万人注册,5天后就有了100万用户,两个月后用户直接突破1亿。
这在互联网产品里面是什么概念?
TikTok是用了9个月才到1亿用户,微信用了433天才到1亿用户,所以ChatGPT,当时是打破了全世界的增长记录的。但是那时候ChatGPT能干嘛呢?
ChatGPT刚发布时候的界面,只有一个功能——打开聊天。
那时候我第一次打开这个界面,问的第一句话就是“你是谁?你能干嘛?
”然后就被它的回答震惊到了,因为我相信,像我和这个世界上的大多数人,在那之前,都肯定没有见过AI给出这么像人的回答。
原来我们看到的都是Siri、小爱,都是很死板的预设好的回答,但这一下AI居然理解语言了,这代表,一种AI的可能性和范式被跑通了,HAL9000真的来了。
当然,整个世界范围内,其实还只是一小部分弄潮儿,在很新奇地去试用这个ChatGPT。
但是另一方面,在科技金字塔顶端的那些人,当时就乱成一团了,全在手忙脚乱地追赶。
甚至在ChatGPT正式发布之前,科技巨头公司里面最顶尖的人才,很多都开始尝试离职创业了。
比如说Open AI的创始人之一,2021年就出来创立了Anthropic,现在是Open AI最大的竞争对手之一。
现在微软的AI负责人,在2022年初也成立了一个叫Infection AI,当时还被认为是最有可能挑战Open AI的模型公司。
谷歌的一个传奇AI研究员,也建立了Character AI,尝试把这个新技术给产品化,当时确实也非常成功,现在都已经卖掉了。另外各大巨头公司们坐不住了。
当时在AI领域最领先的其实是谷歌,他也是最着急的,因为ChatGPT用的大模型架构叫Transformer,是谷歌当时在2017年提出来的。
这就相当于他养的孩子,在跟人家住了两天,突然就长成了两米多高的运动冠军,而且谷歌还非常清楚。
这不是一个普通的聊天机器人,这是可以终结他们搜索引擎的东西,所以谷歌非常的着急,自打创立以来,第一次拉响了红色警报,把已经隐退的创始人拉里·佩奇,也给叫回来了。
然后,他又紧急追投了Open AI的对手Anthropic,自己也赶紧基于原来有的一个叫Llama的模型,发布了Bard,只不过,首秀就翻车了,市值还暴跌了7000亿。
Facebook虽说刚把名字改成Meta不久,他也赶紧放下了元宇宙,宣布全力all in AI。
当时在中国,AI领域最活跃的是百度,他们也非常匆忙地发了一个简陋的通告,宣布要发布中国版ChatGPT。
这才是短短的两个月,这一道惊雷,先让最敏感的神经末梢,引发了非常剧烈的动乱,但这真的只是开始。
2023年3月14号,就在大家都还忙着去搞懂ChatGPT的时候,Open AI又发布了一个新版本GPT4。
它直接考过了律师模拟考试,考美国的高考成绩排在了百分之前十,而且还有了多模态的能力,可以开始看懂图片了。
光3个月就来了这么大一波进步,要按这个速度算,刚出生就能说话,3个月就能考律师资格证,6个月就能当科学家,10个月就上知天文下知地理,那一年两年,那不得统治世界了吗?
当时这方面的言论全部都汇集起来了,什么马斯克、图灵奖获得者、1000多名科学家、科技界大佬、各国的政策专家,就联名发布了一个公开信。
信里面就一个意思:说AI太危险了,咱们必须得先暂停开发AI 6个月,我们得先一起想想,来制定一个策略。但是,天要下雨,AI要发展,显然是谁也阻止不了。
Meta在那个时候,就把自己的AI模型给开源了,起名叫Llama,其实当时的Llama也还不太厉害,也没有完全意识到,这个羊驼未来会成为开源界的霸主,变成全世界AI开发者的“奶爸”。
那国内这边呢,也都开始了“百模大战”。
2023年3月,百度推出文心一言,GLM开源了;
2023年4月,阿里巴巴在阿里云峰大会上,发布了通义千问;
2023年5月,科大讯飞发布星火大模型,并且计划在10月实现中文能力,超越ChatGPT;
2023年6月,腾讯公布大模型进展,加入了竞争行列。
到了6月,行业专家披露了,国内已经发布了79个10亿参数以上的大模型。
那在这个阶段,现在,我们在市面上看到的这些主要玩家,在2023年上半年的这几个月里,也都开始调兵遣将,招兵买马地动起来了。
那资本市场的反应更有意思,卖GPU的英伟达,市值直接突破了1万亿美元,连一直不碰科技股的巴菲特,都忍不住重仓了AI相关的股票,我当时也非常想买啊,但是没有搞定,唉,否则我现在…… 那美国商务部,看这个势头不对,赶紧又加码限制了芯片出口,我们国家的工信部,也开始紧锣密鼓地出台各种AI管理办法。
前脚刚刚呼吁,大家要暂停开发的马斯克,看到这种势不可挡的势头,也火速打脸,成立了xAI,逼着科学家们在连夜追赶。
就连嗅觉灵敏的普通人,也在那个时候有了新生意,倒卖API的、做套壳产品的、做数据标注的,都开始不睡觉了。
那会潜入API倒卖群的我,一不留神就发现,群里999+新消息,变成了我微信里面最活跃的群,大家的想象都推到了极限,从上到下,都进入了一个非常疯狂的阶段,好像AGI随时都会到来一样。
但是幻想总是来的快,破灭的也快,一段时间过去,AI还是没有接管世界,班还是要上,钱还是要赚,那所以世界,还是得先现实一点。
7月13号,好莱坞16万编剧和演员们罢工了,控诉AI偷走他们的工作,抄袭他们的创意,复制他们的表演。
这次罢工,成了好莱坞史上最大规模的罢工,而令人感叹的是,这次罢工,实际上最后真的有数十万人失业了。
AI行业的进展,在2023年下半年也变得写实起来,大家都开始卷两个东西,一个是上下文长度,也就是模型的记忆力,另一个,就是多模态的生成。
ChatGPT的劲敌Claude,当时,虽然没有再出一个飞跃性的大模型,但是又带来了10万token的上下文窗口。
当然我们现在听到什么千万上下文,也已经不奇怪了,但在当时是什么概念呢?
当时的GPT4,只有32K上下文,只能聊天,还聊着聊着就把你忘了,所以Claude直接超过了它3倍多,这意味着AI可以一次性读完一本书,可以理解更长的对话,可以处理更复杂的任务了。
同时,Meta又开源了Llama 2,国内的AI也朝着更大的参数量、更长的上下文狂卷,文心一言也正式发布了GLM-3。
那另一个小趋势,就是微软小模型Phi-1.5的发布,虽然那会,其实根本没有人关注这种小模型,大家都还在等大的。
直到一年后的今天,小模型才成了全村的希望之一。
各个大厂也开始抢人才,只要岗位带着AI两个字,薪水就比其他岗位高出30%。
资本也在疯狂涌入,大量的公司改口说自己是AI公司,好像把公司名字改成某某AI,薅一个清华MIT博士,牵手一个大厂高管,魔改一下Llama就能融到资一样,特别的激情。
在网络上,不知道大家还记不记得,开始出现了梅梅说中文,郭德纲英语相声,AI孙燕姿,各种AI的玩儿活,把过去靠剪辑搞鬼畜的up主们,比的非常像复古的手艺人。
最火的课程,也不再是什么在家学配音、学一点剪辑什么的,而是AI绘画、AI通识和提示词课程,虽然当时大多数学课的人,可能也很多人都不知道怎么用好AI吧。
但是,不妨碍他们看到了现实的焦虑和恐慌,靠安抚性的课程也能赚的盆满钵满。那这个阶段下的人们回到了现实,开始有点认真地争夺AI时代的领地。
而就在这个时候,处在风口浪尖的Open AI,发生了,可能是AI史上最有戏剧性的一幕。
2023年11月17号,三天前,奥特曼还在Open AI开发者大会上,笑呵呵地发布GPT商店,突然Open AI董事会宣布你被解雇了,因为你太不诚实了。
这消息不光他自己懵了,所有人都懵了。
但是更让大家看懵的,其实是后面连续5天的反转,最终,以那一张Open AI的团圆大合照为结束,他又回去了,自己吓自己。
这场闹剧的背后的原因,其实现在也有了很多分析了。
无非就是首席科学家伊利亚看重安全,奥特曼追求发展,甚至流行了很长一段时间的谣言,说伊利亚在Open AI内部看到了AGI。
其实对于安全和发展的问题,两个人到现在也没有商量好,导致大神伊利亚,后来自己也憋不住,自己出去做了一个AI安全公司。
5天急速回归之后的奥特曼,也脱下了一定的理想主义外套,变得越发有传统硅谷精英那味了。
他开始跟apple谈合作,跟微软继续周旋,跟阿联酋的富商去讲故事,扬言就要搞个7万亿的造芯片计划,野心大了,纵横捭阖的舞台也变宽了。
但是作为用户的我们其实也成长了,大家开始质疑GPT4变笨了,很多开发者也去晒出账单,大家不再相信Open AI的商店,做一个GPT就能赚钱这种话了。
别的公司过得也不怎么样,谷歌发布Gemini,直接被看出了造假,声望大跌,国产大模型,也在和“弱智吧”的这种对抗中,节节败退。
那些错过了投资基础层的国内资本们,也开始嫌投大模型门槛太高,投产品,又没有下手之处,喊着要应用要落地。
也就是这个时间,国内的ChatGPT类产品也都上线了,大家现在熟悉的豆包、Kimi、通义千问,当时国内的这些大模型,肯定性能都不如ChatGPT和Claude,但重点在于没有网络限制,并且免费,成了很多中国用户,第一次接触到的大语言模型。
当时其实还出现了一个东西,叫AI硬件,AI Pin和Rabbit R1,这两个东西,在一开始,都广受投资人和一般用户的关注,但是到最后用起来却发现,一个极其难用,另一个呢,就是一个安卓套壳,全部都“搭翻车”了。
所以端侧AI也被泼了一盆冷水。所以这个时候,已经有声音开始讨论AI的训练瓶颈了,AI对真实世界到底有什么影响了,到底有哪个AI公司赚到了钱,我们自己又该怎么面对AI了?
抱着各种各样的疑惑,大家还是回去过年了,但是,亲戚还没走完,又颠覆了。
2024年2月16号,Open AI又发了一条推特:Sora creating video from text,底下配了几个视频,大家可能现在见怪不怪了。
但是要知道,当时AI生成的视频是这样的,要么就是2秒钟的这种轻微移动,但是Sora直接就是说,它出了一个Diffusion加Transformer的架构,简称DIT,整出了一个最长60秒,符合物理规律,高清丝滑的视频模型。
这下好了,卷了半年的AI圈来不及抱怨了,抓紧跟着Open AI的技术报告搞DIT架构,视频模型、世界模型,AI呢,刚凉下几度的热度又翻倍涨了回来。
短短几个月内,清华团队发布了Vid2Vid-Zero,字节的极梦,腾讯的混元,MiniMax的海螺,快手的可灵,在那个时候也在加班加点,以至于,我们现在,也确实用上了一大波国产好模型。
Stable Diffusion可能也在那个时候发布了SDXL 3.0,Meta又开源了Llama 3。
马斯克就更有想法了,他觉得追Open AI可能还是有点费劲了,我想直接看你的代码,所以作为Open AI最早的创始人,和投资人的马斯克。
他精心挑选了n个理由,比如说Open AI违反开源协议啦,GPT4已经达到AGI啦,等等等等,要求Open AI去开源GPT4,当然这事一看也不太可能,很快一看没戏啊,他就还是接着去卷他的Grok模型去了。
Open AI也借此重新定义了一下他们的Open AI,Open是什么意思?
他表示我不开源,但是我开放免费注册,免登录就能使用,也的确,这个举措再一次降低了使用门槛,扩大了ChatGPT的用户数量。
Sora这一波Open AI给出的新范式,又引燃了一次冲刺,只是这一次,追逐的各家大小厂们都更有主意,也更有经验了。
所以各种AI模型,都开始打包成了实际的生产力工具,人们不仅是向AI提问,更多人开始用AI写论文、写小说、写剧本、做视频、做音乐、写广告了。
本来在年初各种担忧的声音,在Sora的冲击之下,顿时变得无影无踪,AI似乎进入了一个正循环之路。
就在Sora带给大家的震撼,还没有消失的时候,5月Open AI又扔出一个重磅炸弹——端到端的语音、视频、图像多模态模型,GPT4V。
他能直接视频、语音,像人一样的语气,能笑能唱歌,把人们还没来得及想象的,这种人机互动幻想,又给实现了。
大家都管他叫“Hello”,因为,Open AI剽窃了斯嘉丽·约翰逊的嗓音,“Hello everyone”,“Hi”,还因此,打了一场官司。
但实际上,GPT4V这个“期货”,其实到前两天才算完全上线的。
在这期间,Claude也发布了强大的Sonic 3.5模型,代码能力直接起跳,装进Coder和各类的AI编程工具之后,让不会写代码的人,都做出了自己的产品。
Llama也迎来了405B的3.1版本,开源模型又拉出了新高,Open AI和竞争对手的差距越来越小,而国内也形成了大厂加AI几小虎的格局,还频繁在榜单上打败领先模型。
外加每家都有一堆生成式AI的工具,还有一系列开源的实验性模型,中国的AI,也开始以之前难以想象的速度,逐渐追上了国际前沿。
也就是在这个时期,第一波真正看起来,像模像样的应用领域和产品,开始形成了。
因为加入战场的,可不止是那些做大模型的公司了,AI教父李飞飞,他都下海创业了。
伴随着Apple先引开了这次,手机厂商全部都开始搞端侧模型,电脑厂商都说自己是AI PC,汽车公司也都改口叫智能车企了,都想是一家人工智能企业。
机器人,开始做饭、跑步、搬砖、叠衣服了,5个人做出来的Cursor,又打败了微软的GitHub Copilot。
Stable Diffusion的原班人马,都出来创业做Flux,掀起了AI图像开源的第二波热潮了,suno的文生音乐让AI作曲火爆全网。
这时候的AI,其实有一小部分已经进入我们的生活,并且被检验了。
我的老粉们,已经可以几分钟克隆自己的声音、克隆自己的脸、克隆自己的表情了,我们的小电脑上,也可以人手一个本地模型了,不用一行代码,大家也可以去做个agent了。
我们上美团外卖,随便打开一个商家,就能看到AI数字人在直播,超过3分钟的视频,评论区就一定有一个AI在总结,当然大家也有种滋味,是AI做出来的东西吧,好用了但是也不完全好用。
资本市场的态度,其实已经趋于悲观了,高盛在6月目发布了一个报告,生成式AI花费甚多而收益甚少,其中采访的很多专家都表示,人们对AI的期待太高了,投入过大了。
尤其是,连2024年诺贝尔经济学奖得主阿西莫格鲁都站出来说,AI对经济的增益被严重高估了。
行业中也出现了Infection AI CEO转投微软,Stability AI CEO提桶跑路,Character AI被谷歌收购,这些企业,原本都被期待着要跟Open AI掰手腕的,也有号称是最成功的AI应用的,结果都倒在了2024年。
所以,大家又开始怀疑着现在的数据的瓶颈、电力的瓶颈、算力的瓶颈、缩放定律的瓶颈,同时也隐隐地期待着,再一次智力飞升的GPT5。
所以很长一段时间,奥特曼的每条推特不管说,广大网友就是一句“GPT5呢?
9月13号,Open AI冷不丁的发布了一个新模型,重新起名叫了O 1,他们说我们不堆参数了,我们改路线了。
我们先不升级这个大模型的智力,我们让他多想一会,他就已经很聪明了,这就指出来了一条推理模型的道路,把强化学习拉了进来,增加了推理时长,大大提高了模型的推理和数学能力。
虽然这一次发布,在围观群众看来,已经早就没有那种看见Sora或者是GPT4的惊奇了,我们非常严苛地在评判着。
这次更新,对我的工作生活影响好像不大,但其实,这个模型的意义就是,就算原本层面的scaling law撞墙了,数据撞墙了,AI还有路能绕过去接着发展。
同时,AI还已经在这个时代正式登堂入室.
10月8号,诺贝尔物理学奖,颁给了神经网络之父辛顿和霍普费尔德,化学奖颁给了谷歌DeepMind的掌门人哈萨比斯,AI获得了最权威的认可,被正式归为了改变世界的一项技术。
虽然在2024年这一年中,AI的基础模型进步,都没有什么突破性的瞬间,但是这一年也没有停止酝酿。
RAG技术迭代的成熟了,正在解决大模型的记忆问题,AI也学会了操作系统,还解决了工具的调用.
多模态的感知越来越灵敏,推理和规划的能力。
随着O系列模型有了巨量提升,包括年底这一波Open AI拖拖拉拉的12天,起码也兑现了实际的“期货”,更新了新的交互方式,还放出了一个非常聪明的“期货”——O-3推理模型。
GEMINI 2的发布会上也可以看出,AI只等于聊天机器人的时代很快可能就要结束了,我们至少会有一个能看、能听、能说、能帮我们做事的AI伴侣。
而我通过一年以来细细碎碎的AI分享,收获了几十万同样好奇的你们。那故事到这里,你可能会问,接下来呢?
其实没人能给出标准答案,不过这可能才是最激动的地方,我们正在一起,踏上一段没有人知道终点的旅途,就连科学家、巨头们,也都有盲目的、冒险的、后知后觉的行为。
但是AI他一定不是风口散去,生活就会回到从前的资本泡沫,也没有PPT跳出电脑,把技术人员打晕的科幻故事。
它是一场真实而且混乱的变革,一场可能决定人类文明的时代巨浪。那我们作为这个时代的亲历者,真的无比幸运。
因为我们正在经历,人类历史上最奇妙的蜕变。当人造物开始思考,造物者才真正认识自己;当机器开始创造,创造者才真正明白创造的意义。
我们一生中将会看到的故事,可能真的会有点疯狂,但在这个故事里,最精彩的不是AI能变成什么,而是我们想要成为谁。
就像科幻大师阿西莫夫说的:科技的进步不是为了让人类过时,而是让人类超越自我。
朋友,让我们一起超越吧!