最近很荣幸在UIUC和香港城市大学做了两次报告,也顺带反思一下今年的研究,回顾ChatGPT发布一周年之际,其对我的研究带来的改变。
这一年实在太卷了,准确地说,自春节后开始,我便进入了高速卷的阶段。综合来看,我对ChatGPT的态度经历了不屑、质疑、到现在的拥抱,大约是3个阶段。
ChatGPT在去年11月底发布到春节期间,我对其并未有太多关注。原因也很简单:这东西是搞NLP的、颠覆的是做NLP的人,我又不做NLP。于是便一直接着自己之前的鲁棒机器学习, OOD, 半监督等方向来做。
初入NLP之门
春节之后,公司里人人谈ChatGPT、大模型,领导们也只看这个话题。然后跟MSRA院长一对一聊了一次,想听取领导对我所做的方向的认可。领导并未否定我的方向,只是比较关心:在大模型时代,我的方向虽然不会被颠覆,但是可以借鉴的东西有哪些?
我便尝试回答领导的提问:大模型会不会颠覆我的研究方向?我还可以做些啥?
于是,在这种情况下,我召集了一些(前)实习生、大学的合作者一起来探讨这个问题。我初步选定了一个与研究方向直接相关的话题:大模型的对抗和OOD鲁棒性。由于从未有过做NLP的经验,在熟悉Huggingface等代码库的基础上,我编写了人生中第一个做NLP研究的程序、这也造就了我人生中第一篇NLP paper:On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective。此文只做了一件事:测试ChatGPT在面对对抗文本和OOD文本上到底有多厉害;我们还有没有搞头。这篇paper说来也惭愧:其从立项到放arXiv,只经历了短短的一周时间。我不断地跟实习生强调,这个工作本身没有什么创新点、全都是做evaluation,我们做research还是要做长线。
彼时国内刚兴起对大模型的评估研究,我们这篇自然也获得了很多关注,被一些自媒体邀请去讲解。实习生还写了个知乎帖子来介绍:菜菜弱鸡:ChatGPT鲁棒性分析:对抗鲁棒与分布外泛化视角。上述工作投稿到ICLR 2023鲁棒大模型的workshop,还出人意料地获得了Highlight paper的评价。时至今日,居然在短短的几个月时间收获了70次引用。我人生中第一次写代码做NLP的研究之路就此开始。
质疑升级:大模型时代,普通人的科研何去何从?
尽管上述研究告诉我们,ChatGPT其实并没有想像中的那么强,其面对拼写错误、没见过的样本(我们用的是2021年年底的数据来测试的)等问题的表现依然不尽如人意;但其表现已超过了绝大多数评测的模型。于是我陷入了自我怀疑中:大模型时代,普通人的科研何去何从?这里说的“普通人”,当然也包括我,因为众所周知的原因,我们的GPU也不够用了。所以从3月开始就一直在思考,在这个时代,我们这些拥有着有限资源的研究人员,应该做些什么以寻求突破?
今年2月到4月是全球大模型扎堆发布的时间。那段时间几乎每天都有一个大新闻,无外乎是某学校、某公司、某研究所发布了自己的大模型。我也在一直思考之后要做些什么。于是在4月份,我写了一篇知乎文章:王晋东不在家:大模型时代,普通人的科研何去何从 来探讨此问题。文章是我那段时间思考的成果。我的观点是,抛开(不环保地)搞大规模预训练,大模型对于普通人其实更是一个机会。因为你会看到大家又一次站在了同一起跑线上,这时候就不是比传统和积累了,比的是谁的脑洞大、想法多、执行能力强。这对于普通人,实现科研领域的“弯道超车”不再是梦。
具体而言,当时的文章总结了几大方向是不需要大量GPU便可进行的:
新的分析和评测:评测大模型真正的能力、揭示大模型的短板。
新的理论和方法:大模型时代需要什么样的基础理论?
更好的人与AI协同:大模型最终要惠及每个人,则必要有人机交互方面的变革。
增强大模型:大模型有问题、那么如何用轻量级手段来对它进行加强?
更负责任、社会化的AI技术:研究大模型产业升级对社会的影响,综合运用社会科学知识进行跨学科研究。
此知乎文章当时引起了一些反响,我还把文章内容做成了PPT到B站上录制了视频:大模型时代,普通人的科研何去何从_哔哩哔哩_bilibili 出乎意料的是,此视频成为了我B站上第一个播放量破万的视频,时至今日已有7.5万播放量,也顺利助推我的B站粉丝量破万。
我也以“大模型时代的科研”为主题写了系列文章:王晋东不在家:《大模型时代的科研》系列文章汇总 于是想到系列文章也好几个月没更新了。。。
卷起来吧!
现在万事俱备了,那还等什么呢?卷起来吧!其实我特别想表达的是,上面的文章真不是白写的,每一条新的研究方向都是我们自己思考出来的、我们也确实开始了布局研究。事实证明这些方向也不是只有我们自己做、越来越多的学术界人员也意识到了它们的重要性。于是,阴差阳错,我们可以“恬不知耻”地说也是首批在这些方向上做研究的人、并且做出了一些在这些方向上首个工作。
大模型评测
对模型能力的评测自然成为了第一个研究热点。原因有两点:一是绝大多数“普通”科研人员面对大模型几乎没有招架之力,没有硬件来训练,那么评测便顺理成章;二是大多数人对大模型的了解,也和我一样是从不相信它这么强、上手评测一番才开始的。我们目睹了国内外研究团队在大模型评测方向上的论文井喷,从AI、CS开始,卷到自然科学、社会科学、游戏制作等领域。可以说:你能想到文字可以应用的领域,均有人在测评大模型。
我很幸运地拥有一些杰出的合作者,在大模型评测方面我们能快速布局并产出初步成果。我们在此方向的研究有:
第一篇综述,全面介绍大模型的评测、问题和未来挑战:A Survey on Evaluation of Large Language Models 知乎链接:王晋东不在家:“评测即科学”:首篇大语言模型评测的综述,一文带你全面了解大模型评测的现状、方法和挑战
大模型对输入Prompt鲁棒性的评测框架:PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts王晋东不在家:大模型鲁棒不鲁棒,PromptBench测一测: 首个大语言模型提示鲁棒性的评测基准PromptBench
针对数据污染问题、大模型新的动态评测协议DyVal:DyVal: Graph-informed Dynamic Evaluation of Large Language Models
评测大模型的大模型PandaLM:PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization 知乎:王晋东不在家:PandaLM: 评估大模型的大模型, 保护隐私、可靠、可复现,三行代码即可调用
大模型的OOD评测基准Glue-X:GLUE-X: Evaluating Natural Language Understanding Models from an Out-of-distribution Generalization Perspective王晋东不在家:GLUE-X:基于分布外泛化的自然语言理解模型测试集 (ACL'23 Findings)
全部研究可以在这里找到:https://llm-eval.github.io/
更好地人与AI协同
我一直对做人机交互的人抱有崇高的敬意,因为他们可以设计出精巧的硬件和应用程序,从而让最新的科技能改变每个人的生活。我们自己虽然不做人机交互,但是也在此方面做了一个小的开源项目SearchAnything,其目的是利用大模型的能力,实现文件的语义搜索:
SearchAnything语义搜索: 王晋东不在家:Search Anything: 给本地搜索插上大模型的翅膀—语义搜索你的电脑、手机和云端的任何信息 不久后,我们看到吴恩达也出了类似的课程来讲解用大模型语义搜索、不少公司的产品也实现了类似的功能。
大模型时代的人机交互充满了新的机遇,我也有幸认识了领域内年轻而杰出的研究人员。
增强大模型
大模型一直有短板,这也是大家所公认的。自然,接下来一项工作便是如何给它补齐短板。此部分可以将之前在机器学习领域的积累无缝迁移过来:
CLIP在长尾问题的探索:Exploring Vision-Language Models for Imbalanced Learning
预训练模型在有噪声的预训练数据训练、对下游任务的影响的探索和规避:Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks 这个工作也做了超过大半年的时间,跑了很多模型和实验,也是个人比较满意的工作之一。
联邦学习中对白盒和黑盒大模型的联邦:
FedCLIP: Fast Generalization and Personalization for CLIP in Federated Learning
ZooPFL: Exploring Black-box Foundation Models for Personalized Federated Learning
我也做了个网站用于展示:https://llm-enhance.github.io/
社会化AI与跨学科研究
此部分是最激动人心的。大模型的出现对许多学科都进行了颠覆,我们也在第一时间就进行了探索。在我看来,此类研究的目标有二:一是借助大模型的能力来更好地开展社会科学的研究,二则是借助社会科学的积累来更深入地理解大模型。前者即“AI for science”(此science是social science,并非现在火热的自然科学),后者则是“Science for AI”。
特别地,我们从心理学和社会经济学这2方面进行了一些尝试。
心理学帮助理解大模型:此部分产出了现在莫名流行的EmotionPrompt,但在当时只是一个初步尝试。后来这个项目越做越大,从4月到现在12月了都还没有完成。放上第一版:Large Language Models Understand and Can be Enhanced by Emotional Stimuli
大模型帮助社会经济学:此部分研究源于对目前agent领域的一个反思,即,大家都在研究多智能体合作,那么社会中除了合作,还有啥?于是在7月份,我就提出要研究用大模型来模拟竞争环境。这篇应该是比较有意思的:我们编写了一个简单的饭店管理程序,然后让大模型智能体来管理饭店,两家饭店要竞争顾客,从中可以观察到一些经济学和社会学现象,用于启发这些领域的研究。文章链接:CompeteAI: Understanding the Competition Behaviors in Large Language Model-based Agents
用一页ppt来介绍我们今年在各个方向的研究:
下一步?
此文难免有卖弄之嫌疑、毕竟介绍的都是我们自己的研究工作。但此实属无奈:在谈到ChatGPT之时,回顾自己的心路历程则必然要涉及到不同阶段的产出,一个科研人员最兴奋的也必然是自己的研究成果。
我认为,ChatGPT开启的是一个新的AI研究时代,我们每个人都要找到自己的位置。或许坚守本心、还做原来的研究不动摇,或许勇敢拥抱新技术,又或许选择了躺平和上岸。。。每个人的决定都应被尊重。时至今日,一个合格的科研人员,无论拥抱大模型也好、坚持原来的方向也好,一个不应有的态度则是两耳不闻窗外事。无论做什么,至少应该对新的技术有所了解。所以这里也建议读者们,如果你不做AI,但是你有做AI的朋友和家人,请对他们多一些理解,因为今年确实是太难也太卷了。
还是回到科研上来。由评测ChatGPT而阴差阳错开启了大模型研究的我,未来必然会继续这些方向的研究:大模型的能力评测、能力增强、人机交互、以及跨学科合作。
最后还想探讨的一点则是研究方向问题。我与很多人一样,之前并非NLP研究人员,连BERT都没跑过。我之前的标签一直也是迁移学习、领域泛化、半监督、联邦学习等。现在我也给自己的研究方向里加了一条:Large language models。我想表达的是,每个人都不应被过去的方向和“成绩”所束缚,在新的时代面前要有强大的勇气去了解并拥抱新的技术。我的拙见:科研最重要的是你的想法的思路,做什么方向、用什么工具、发什么文章,只是具体的执行手段。这也可以叫做科研人员的自我革命吧,因为束缚你的永远只是你自己。