写在ChatGPT发布一周年之际

创业科技 2023-12-04 12:00 新加坡

最近很荣幸在UIUC和香港城市大学做了两次报告，也顺带反思一下今年的研究，回顾ChatGPT发布一周年之际，其对我的研究带来的改变。

这一年实在太卷了，准确地说，自春节后开始，我便进入了高速卷的阶段。综合来看，我对ChatGPT的态度经历了不屑、质疑、到现在的拥抱，大约是3个阶段。

ChatGPT在去年11月底发布到春节期间，我对其并未有太多关注。原因也很简单：这东西是搞NLP的、颠覆的是做NLP的人，我又不做NLP。于是便一直接着自己之前的鲁棒机器学习, OOD, 半监督等方向来做。

初入NLP之门

春节之后，公司里人人谈ChatGPT、大模型，领导们也只看这个话题。然后跟MSRA院长一对一聊了一次，想听取领导对我所做的方向的认可。领导并未否定我的方向，只是比较关心：在大模型时代，我的方向虽然不会被颠覆，但是可以借鉴的东西有哪些？

我便尝试回答领导的提问：大模型会不会颠覆我的研究方向？我还可以做些啥？

于是，在这种情况下，我召集了一些（前）实习生、大学的合作者一起来探讨这个问题。我初步选定了一个与研究方向直接相关的话题：大模型的对抗和OOD鲁棒性。由于从未有过做NLP的经验，在熟悉Huggingface等代码库的基础上，我编写了人生中第一个做NLP研究的程序、这也造就了我人生中第一篇NLP paper：On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective。此文只做了一件事：测试ChatGPT在面对对抗文本和OOD文本上到底有多厉害；我们还有没有搞头。这篇paper说来也惭愧：其从立项到放arXiv，只经历了短短的一周时间。我不断地跟实习生强调，这个工作本身没有什么创新点、全都是做evaluation，我们做research还是要做长线。

彼时国内刚兴起对大模型的评估研究，我们这篇自然也获得了很多关注，被一些自媒体邀请去讲解。实习生还写了个知乎帖子来介绍：菜菜弱鸡：ChatGPT鲁棒性分析：对抗鲁棒与分布外泛化视角。上述工作投稿到ICLR 2023鲁棒大模型的workshop，还出人意料地获得了Highlight paper的评价。时至今日，居然在短短的几个月时间收获了70次引用。我人生中第一次写代码做NLP的研究之路就此开始。

质疑升级：大模型时代，普通人的科研何去何从？

尽管上述研究告诉我们，ChatGPT其实并没有想像中的那么强，其面对拼写错误、没见过的样本（我们用的是2021年年底的数据来测试的）等问题的表现依然不尽如人意；但其表现已超过了绝大多数评测的模型。于是我陷入了自我怀疑中：大模型时代，普通人的科研何去何从？这里说的“普通人”，当然也包括我，因为众所周知的原因，我们的GPU也不够用了。所以从3月开始就一直在思考，在这个时代，我们这些拥有着有限资源的研究人员，应该做些什么以寻求突破？

今年2月到4月是全球大模型扎堆发布的时间。那段时间几乎每天都有一个大新闻，无外乎是某学校、某公司、某研究所发布了自己的大模型。我也在一直思考之后要做些什么。于是在4月份，我写了一篇知乎文章：王晋东不在家：大模型时代，普通人的科研何去何从来探讨此问题。文章是我那段时间思考的成果。我的观点是，抛开（不环保地）搞大规模预训练，大模型对于普通人其实更是一个机会。因为你会看到大家又一次站在了同一起跑线上，这时候就不是比传统和积累了，比的是谁的脑洞大、想法多、执行能力强。这对于普通人，实现科研领域的“弯道超车”不再是梦。

具体而言，当时的文章总结了几大方向是不需要大量GPU便可进行的：

新的分析和评测：评测大模型真正的能力、揭示大模型的短板。
新的理论和方法：大模型时代需要什么样的基础理论？
更好的人与AI协同：大模型最终要惠及每个人，则必要有人机交互方面的变革。
增强大模型：大模型有问题、那么如何用轻量级手段来对它进行加强？
更负责任、社会化的AI技术：研究大模型产业升级对社会的影响，综合运用社会科学知识进行跨学科研究。

此知乎文章当时引起了一些反响，我还把文章内容做成了PPT到B站上录制了视频：大模型时代，普通人的科研何去何从_哔哩哔哩_bilibili 出乎意料的是，此视频成为了我B站上第一个播放量破万的视频，时至今日已有7.5万播放量，也顺利助推我的B站粉丝量破万。

我也以“大模型时代的科研”为主题写了系列文章：王晋东不在家：《大模型时代的科研》系列文章汇总于是想到系列文章也好几个月没更新了。。。

卷起来吧！

现在万事俱备了，那还等什么呢？卷起来吧！其实我特别想表达的是，上面的文章真不是白写的，每一条新的研究方向都是我们自己思考出来的、我们也确实开始了布局研究。事实证明这些方向也不是只有我们自己做、越来越多的学术界人员也意识到了它们的重要性。于是，阴差阳错，我们可以“恬不知耻”地说也是首批在这些方向上做研究的人、并且做出了一些在这些方向上首个工作。

大模型评测

对模型能力的评测自然成为了第一个研究热点。原因有两点：一是绝大多数“普通”科研人员面对大模型几乎没有招架之力，没有硬件来训练，那么评测便顺理成章；二是大多数人对大模型的了解，也和我一样是从不相信它这么强、上手评测一番才开始的。我们目睹了国内外研究团队在大模型评测方向上的论文井喷，从AI、CS开始，卷到自然科学、社会科学、游戏制作等领域。可以说：你能想到文字可以应用的领域，均有人在测评大模型。

我很幸运地拥有一些杰出的合作者，在大模型评测方面我们能快速布局并产出初步成果。我们在此方向的研究有:

第一篇综述，全面介绍大模型的评测、问题和未来挑战：A Survey on Evaluation of Large Language Models 知乎链接：王晋东不在家：“评测即科学”：首篇大语言模型评测的综述，一文带你全面了解大模型评测的现状、方法和挑战
大模型对输入Prompt鲁棒性的评测框架：PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts王晋东不在家：大模型鲁棒不鲁棒，PromptBench测一测: 首个大语言模型提示鲁棒性的评测基准PromptBench
针对数据污染问题、大模型新的动态评测协议DyVal:DyVal: Graph-informed Dynamic Evaluation of Large Language Models
评测大模型的大模型PandaLM:PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization 知乎：王晋东不在家：PandaLM: 评估大模型的大模型, 保护隐私、可靠、可复现，三行代码即可调用
大模型的OOD评测基准Glue-X:GLUE-X: Evaluating Natural Language Understanding Models from an Out-of-distribution Generalization Perspective王晋东不在家：GLUE-X：基于分布外泛化的自然语言理解模型测试集 (ACL'23 Findings)

全部研究可以在这里找到：https://llm-eval.github.io/

更好地人与AI协同

我一直对做人机交互的人抱有崇高的敬意，因为他们可以设计出精巧的硬件和应用程序，从而让最新的科技能改变每个人的生活。我们自己虽然不做人机交互，但是也在此方面做了一个小的开源项目SearchAnything，其目的是利用大模型的能力，实现文件的语义搜索：

SearchAnything语义搜索: 王晋东不在家：Search Anything: 给本地搜索插上大模型的翅膀—语义搜索你的电脑、手机和云端的任何信息不久后，我们看到吴恩达也出了类似的课程来讲解用大模型语义搜索、不少公司的产品也实现了类似的功能。

大模型时代的人机交互充满了新的机遇，我也有幸认识了领域内年轻而杰出的研究人员。

增强大模型

大模型一直有短板，这也是大家所公认的。自然，接下来一项工作便是如何给它补齐短板。此部分可以将之前在机器学习领域的积累无缝迁移过来：

CLIP在长尾问题的探索：Exploring Vision-Language Models for Imbalanced Learning
预训练模型在有噪声的预训练数据训练、对下游任务的影响的探索和规避：Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks 这个工作也做了超过大半年的时间，跑了很多模型和实验，也是个人比较满意的工作之一。
联邦学习中对白盒和黑盒大模型的联邦：

FedCLIP: Fast Generalization and Personalization for CLIP in Federated Learning
ZooPFL: Exploring Black-box Foundation Models for Personalized Federated Learning

我也做了个网站用于展示：https://llm-enhance.github.io/

社会化AI与跨学科研究

此部分是最激动人心的。大模型的出现对许多学科都进行了颠覆，我们也在第一时间就进行了探索。在我看来，此类研究的目标有二：一是借助大模型的能力来更好地开展社会科学的研究，二则是借助社会科学的积累来更深入地理解大模型。前者即“AI for science”（此science是social science，并非现在火热的自然科学），后者则是“Science for AI”。

特别地，我们从心理学和社会经济学这2方面进行了一些尝试。

心理学帮助理解大模型：此部分产出了现在莫名流行的EmotionPrompt，但在当时只是一个初步尝试。后来这个项目越做越大，从4月到现在12月了都还没有完成。放上第一版：Large Language Models Understand and Can be Enhanced by Emotional Stimuli
大模型帮助社会经济学：此部分研究源于对目前agent领域的一个反思，即，大家都在研究多智能体合作，那么社会中除了合作，还有啥？于是在7月份，我就提出要研究用大模型来模拟竞争环境。这篇应该是比较有意思的：我们编写了一个简单的饭店管理程序，然后让大模型智能体来管理饭店，两家饭店要竞争顾客，从中可以观察到一些经济学和社会学现象，用于启发这些领域的研究。文章链接：CompeteAI: Understanding the Competition Behaviors in Large Language Model-based Agents

用一页ppt来介绍我们今年在各个方向的研究：

下一步？

此文难免有卖弄之嫌疑、毕竟介绍的都是我们自己的研究工作。但此实属无奈：在谈到ChatGPT之时，回顾自己的心路历程则必然要涉及到不同阶段的产出，一个科研人员最兴奋的也必然是自己的研究成果。

我认为，ChatGPT开启的是一个新的AI研究时代，我们每个人都要找到自己的位置。或许坚守本心、还做原来的研究不动摇，或许勇敢拥抱新技术，又或许选择了躺平和上岸。。。每个人的决定都应被尊重。时至今日，一个合格的科研人员，无论拥抱大模型也好、坚持原来的方向也好，一个不应有的态度则是两耳不闻窗外事。无论做什么，至少应该对新的技术有所了解。所以这里也建议读者们，如果你不做AI，但是你有做AI的朋友和家人，请对他们多一些理解，因为今年确实是太难也太卷了。

还是回到科研上来。由评测ChatGPT而阴差阳错开启了大模型研究的我，未来必然会继续这些方向的研究：大模型的能力评测、能力增强、人机交互、以及跨学科合作。

最后还想探讨的一点则是研究方向问题。我与很多人一样，之前并非NLP研究人员，连BERT都没跑过。我之前的标签一直也是迁移学习、领域泛化、半监督、联邦学习等。现在我也给自己的研究方向里加了一条：Large language models。我想表达的是，每个人都不应被过去的方向和“成绩”所束缚，在新的时代面前要有强大的勇气去了解并拥抱新的技术。我的拙见：科研最重要的是你的想法的思路，做什么方向、用什么工具、发什么文章，只是具体的执行手段。这也可以叫做科研人员的自我革命吧，因为束缚你的永远只是你自己。

http://mp.weixin.qq.com/s?__biz=MzU1MTc3ODYwNA==&mid=2247485849&idx=1&sn=946cbf8f32c061d9ca699fd0d705fe04

王晋东不在家

分享科研与研究生活的点点滴滴，包括但不限于：机器学习、迁移学习、元学习等，以及研究生、博士生生活的经验教训。

最新文章

美国"公立常春藤"威廉玛丽学院王晋东老师招收25 Fall全奖PhD/实习生

AgentReview: 利用 LLM Agents 探究同行评审机制

ICML 2024 Oral | CompeteAI: 从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ICML 2024 | GLWS: 一个通用高效的框架统一弱监督学习

ICML 2024 | DyVal 2: 更加通用和自动的大语言模型的动态评测和洞察协议

ICLR 2024 spotlight | 基础模型时代的全新研究方向：灾难性继承与噪音模型学习

ICLR 2024 Spotlight | DyVal: 首个大语言模型的动态测试评测协议

2023年度盘点：这一年发过的那些技术文章

写在ChatGPT发布一周年之际

[征稿] ACM TIST special issue征集大模型评测方面的论文

ICCV 2023 | RiFT: 通过鲁棒关键微调提升对抗训练的泛化性

风靡朋友圈的妙鸭相机，到底用了哪些底层技术？

“评测即科学”：首篇大语言模型评测的综述，一文带你全面了解大模型评测的现状、方法和挑战

GLUE-X：基于分布外泛化的自然语言理解模型测试集 (ACL'23 Findings)

Search Anything: 给本地搜索插上大模型的翅膀—语义搜索你的电脑、手机和云端的任何信息

PromptBench: 首个大语言模型提示鲁棒性的评测基准

怎么借助ChatGPT快速肝一篇学术论文？

《大模型时代的科研》之2: Prompt Engineering (提示词工程)

PandaLM: 评估大模型的大模型：保护隐私、可靠、可复现，三行代码即可调用

大模型时代，普通人的科研何去何从：读《一本书读懂AIGC》有感

迁移学习导论英文版终于问世

ICLR 2023 | DIVERSIFY: 针对动态数据分布外泛化的表征学习新范式

ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off

ICLR 2023半监督学习最高分论文FreeMatch: 自适应阈值法

2022年终盘点：这一年发过的那些技术文章

COLING'22 | 用于细粒度情感分类TOWE任务的多粒度半监督算法

三行代码解决长尾不平衡类别分类：间隔校准算法Margin Calibration

NeurIPS 2022 | USB: 统一、任务多样化、对学术界更友好的半监督学习算法库

你们喜欢的迁移学习开源项目，现在收获了1万星标

为什么越来越多博士逃离科研？

TMLR 22 | 充分挖掘域不变特征的域泛化框架DIFEX

什么是个性化联邦学习？简单易用、面向研究的代码库PersonalizedFL开源啦！

《迁移学习导论》第2版，重磅升级上市！

西湖大学NLP实验室招收PhD、RA、博后和实习生

ICML-22 | 通过忠诚度违规测试重新思考注意力模型的解释能力

打开人工智能“黑盒”，发展可解释、可扩展、可信赖、安全可靠的人工智能

深度学习中创新点比较小，但是有效果，可以发（水）论文吗?

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉