半年前,大洋彼岸发布了GPT-4大模型。OpenAI的工作人员介绍说,相比起过往发布的模型,这款新的大模型不仅能通过律师考试,在SAT中拿到1410分,识别图片,它甚至开始理解人类的幽默感,讲出一些笑话,还能给你指出笑点在哪里。
有网友立刻试验了下,发现GPT-4真的能理解一些网络段子,哪怕是用中文讲出来的。
比如暴打一顿之后,水土不服的病人终于服了。GPT-4能立刻理解到:
这是一个双关。
AI发展如此迅速,已经开始深入到每个人周围。从川普念唐诗到药物研发,再到家教,写代码。
前不久的旧金山,拜登就说他会见的领导人,没有人不愿意和他谈谈人工智能的。OpenAI也成了一个关于人工智能大模型的圣地。掌门人从扫地出门又回到公司,一次次引爆热点。
国内也有不少大模型。什么百度的文心一言,科大讯飞的星火,各家都说自己的模型最最棒。比如科大讯飞就说他们的模型已经超过chatGPT了,距离GPT-4的距离也就那么一点儿了。
在这里,做好产品的的确不如讲好故事的。
还是来看看外国同行怎么评价。今年4月,微软副总裁Brad Smith在接受《日经亚洲》的采访时也被问到了类似的问题。
这位副总裁给出了三家他认为处于创新前沿的实体,第一是OpenAI,第二家是谷歌,第三家,来自中国,却是大家都很陌生的一个名字:
北京智源院。
1
2018年6月,北京怀柔科学城专家座谈会上,前微软研究院副院长张宏江也应邀出席。
这位计算机领域的学者,刚刚在guide2research评选的计算机与电子研究领域的学者top1000中,名列中国籍第一。
在会上,张宏江向领导提出,能不能建立一个新型的科研机构,独立于高校、企业,追求更系统,更宏观的目标。
在他看来,彼时国内都是一个个实验室,属于小单元。大家关起门来搞自己的研究,很难在前沿方向做出探索。
2016年,张宏江去美国,参观过OpenAI,和他们的团队有过交流。他很欣赏这种非盈利民间机构的形式,想着能不能在中国也搞一个。
彼时,大家的目光都还放在打败李世石的AlphaGo和谷歌实验室身上,OpenAI还远不如现在这样引人关注。
然而,现场的北京市领导也是学术界出身。听到这个想法,马上说:
这个主意好。
领导的决策快,北京的行动也很快。
几个月后,北京发布智源行动计划,北京智源院正式成立,张宏江担任理事长,北大计算机系主任黄铁军担任院长。
整个研究院的队伍堪称豪华。包括北大、清华、中科院、百度、字节、美团等多个国内顶级高校和互联网企业都囊括其中。
和传统的研究机构不同,金主爸爸北京市没有给研究院下达什么KPI,论文数量,具体任务。他们只有一个要求,巩固北京在中国AI领军地位的底线:
5~10年成为全球AI创新策源地。
人工智能是个高度交叉的前沿学科。涉及到数学、神经、计算机、电子工程等多个领域。智源成立后发起的第一个计划,叫做智源学者。内容很简单,就是:
找人,发钱,资助研究员在本学科和人工智能的交叉部分进行积极探索。
但问题是,因为没有具体的目标、成果考核,如何保证拿到钱的人不会乱烧经费?
经过讨论,他们想出来了一个简单粗暴的方法,直接找到该领域内最权威的学术大牛,再请他推荐几位优秀的学者,而后经过投票,选出排名最靠后的一个人,再在业内评选,看看这个“最后一名”,是不是也是业内公认的顶尖学者。
在智源院看来,这种情况下,这些久负盛名的大牛们不太好意思推荐一些学术圈“混子”,而只要找到真正有科研精神的科学家,他们也不会做出让自己都感觉汗颜的工作。
北大数学系的林教授是智源院最早赞助的学者之一。2019年,经过推荐,智源院找到林教授,愿意以每年赞助的形式,资助林教授开展和人工智能相关的统计学研究。
这年头,很多企业机构都会赞助研究。但主要集中在能出成果的工程类学科,谁会每年上百万的投入到数学系这种纯理论院系?
就连很多政府机构也很少资助这种基础研究。毕竟,你给领导看什么机械狗啥的,大家都能看明白,这种纯理论的东西:
要怎么给领导汇报?
林教授一开始对这种上来就要塞钱的开场白也很懵。但这样的理论研究十分有必要,很多时候,科学理论往往会落后于实践。很多企业在调整参数时往往只能跟着感觉走,甚至会专门挑选合适、匹配自己模型的参数,造成统计学上的误差。
林教授举了个例子,一些企业测试了100组参数,只有1~2组数据很漂亮,大家搞不懂为什么有的参数表现好,有的参数表现不好,那就重点宣传这1~2组:
剩下的我压根不提。
这对行业来说,并不是什么好事。有了理论上的开拓和证明,实践中调整参数,优化算法,就有了更多的指导,而不再只跟着感觉走。
对于企业来说,理论上的探索也不是他们感兴趣的方向,也不会投入什么资金去探索。
企业不做的事情,那就智源院来做;企业不投的钱,那就北京市出资。按黄院长的计划,智源学者要遴选一支人数在300人的学者团队,以每年每人100~150万的方式,资助他们进行基础理论研究。
这笔钱,一半支持开展研究:
一半直接给到研究员本人。
不要求结果,反而往往有结果。2020年当年,机器学习和计算神经科学领域国际顶会NeurIPS收录的1899篇论文里,智源有35篇入围。
今年财新峰会上,李剑阁说过一句话。他说根据过往的经验,我们想要的结果:
往往不是抓出来的,而是放出来的。
2
2020年,OpenAI发布了GPT-3,引来了智源院的关注。
大家在雁栖湖开了一场会,一致认定要开展中国自己的大模型研究。从雁栖湖回来后,他们发布了一个英雄帖,招揽各领域有兴趣的专家。
项目组很快就得到了响应。从清华、北大、人大、中科院,甚至阿里这种企业的研究员纷纷举手,成员迅速达到了上百人:
很奇怪,当时大家都没有犹豫。
智源院拿着这个计划,又找到时任北京市领导。他们又一次获得空前支持。在某些人看来人工智能纯属人工智障的时候,领导就断言大模型将是人工智能领域的核爆点:
没说的,给钱。
仅仅半年后,悟道1.0版本就正式上线。这个汇聚了中国顶尖高校学者、企业研究员的项目,只比GPT-3晚了一年,成为中国第一个超大规模人工智能模型。
随后,悟道2.0,悟道3.0也跟着上线。
但随着chatGPT爆火,新的问题又出现了。越来越多的企业、投资人,开始注意到了AI和大模型,作为全国最早开展研究的机构,智源院开始不断被挖墙脚。
张宏江至今都记得,自己一个非常看重的学生,被人挖走,难过了好久。
但很快,他们就不纠结了。能成为大模型领域的黄埔军校,是一件好事。用黄铁军院长的话来说:
肉都是烂在锅里。
通过政府资金,预先对前沿科技探究,等到市场开始接受,又把培养好的种子发给市场,这也是智源院存在的意义之一。
现在,智源系的人工智能人才遍布各大企业和创业公司。智谱AI的创始人唐杰曾是智源的副院长,融资10亿的月之暗面创始人杨植麟参与过悟道开发,就连字节等大厂的大模型团队领头人,也或多或少参与了智源的项目。
不仅如此,智源院还直接把自己的悟道3.0全面开源。其中的天鹰基础语言模型还是可以商用的模型,也通通开放。
智源院曾经做过一次调研,国外发布的39个开源大模型里,16个可商用。国内发布的28个开源大模型里,可以商用的:
就1个。
开放是北京市政府很早就确立的目标。早在智源院刚成立的时候,领导表示,要建设开源的人工智能工具,把政府、社会、企业的数据都放在上面:
欢迎全球的人工智能研究人员参与使用。
在北京最新的《关于加快建设全球数字经济标杆城市的实施方案》里,开放被提及了11次。
3
从智源大厦的顶楼望去,五道口的车流清晰可见。
很多时候,智源院的研究员们会在这个天台上举办一些聚餐,呼吸一下新鲜空气,大家三三两两分享着新的idea,交流着项目最新的进展。
他们大多都很年轻,有的梳着一头披头士般的长发,拿着一袋快餐店里点的薯条,坐在电脑前码着代码,或者看看最新的论文。
在办公楼的一角,有一个透明的展柜,里面放着从昇腾910到摩尔线程、寒武纪几乎全部国产用于AI训练的芯片。
智源院说他们正在搞一个新东西,就是希望能把国内各厂商生产的芯片,做一些配套生态上的标准化。
对于GPU来说,最重要的是生态,而不是算力。老黄一统整个AI芯片江湖,不是因为Nvida的芯片算力有多强,而是因为CUDA的存在。
对智源院来说,这种行业标准化的制定,也是他们的任务之一。他们的下一个目标,是到2028年,把智源院做成全球公认的顶尖人工智能研究机构。
AI火了之后,很多城市都想做AI之城。大家的招数往往都是招来了多少家企业,收拢了多少人才,发表了多少篇论文,有多少产值。然而北京早就脱离了这种范畴:
他们更愿意把工作做到看不见的地方去。
不管是资助基础理论研究,领先企业追赶科技前沿,分享成果、经验、人才,还是最后站在行业角度进行标准化。
这些工作很低调,就像智源院之于公众一样。
除了为,还要有所不为。今年5月,北京下发《促进通用人工智能创新发展的若干措施》,其中着重提到:
包容审慎的监管环境。
有数据显示,我国60%的人工智能核心人才都在北京,接近30%的人工智能核心企业在北京。国家网信办审批备案的通用大模型里,北京排全国第一。事实上,相关管理办法出台以后,领先全国,最快完成备案上线的,也是这些来自北京的大模型。
你看,一双鞋子到底合不合脚,大家穿一穿总能知道。