年关将至,恰是盘点总结之时。本文延续去年的《2022年度盘点》,将2023年度发表过的技术文章按照主题分别列出,供大家选择性阅读。
2023年是一个神奇的年份。ChatGPT在2022年底的问世直接给2023年AI领域的科研带来了前所未有的大变革。因此,本文也大体分为“前大模型时代”和“大模型时代”两大部分。需要说明的是,笔者并未完全放弃非大模型时代的相关研究。理由也非常简单:大模型依然无法解决许多已有问题,因此我们还需要继续进行投入。
我在最近的一个回答中也总结了自己在大模型时代的心路历程,欢迎阅读:写在ChatGPT发布一周年之际
前大模型时代
半监督学习
这一年我们在半监督学习领域继续有着不错的进展,贡献出了2个算法。
1. FreeMatch--ICLR 2023半监督领域审稿最高分论文:ICLR 2023半监督学习最高分论文FreeMatch: 自适应阈值法,首次自动学习半监督的阈值,较我们之前提出的FlexMatch算法 (NeurIPS'21)有了明显的进步,目前已收获86次引用。
2. SoftMatch--另一视角审视半监督学习(ICLR'23): ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off,该方法首次研究半监督学习中伪标签质量和数量的trade-off,目前已收获37次引用。
3. 上述2个算法均开源在了我们统一的半监督学习库 USB (NeurIPS'22) 中:https://github.com/microsoft/Semi-supervised-learning。同时,我们也很欣喜地看到,USB的Github星标已超过了1000次,并且加入了Pytorch官方生态系统中:https://medium.com/pytorch/unveiling-the-power-of-semi-supervised-learning-the-unified-semi-supervised-learning-benchmark-849f42bbc32a。
迁移学习与OOD泛化
《迁移学习导论》的英文版《Introduction to Transfer Learning》终于由Springer出版,这是笔者在2022年圣诞假期由中文版第二版翻译而来,力求服务于国际友人。
知乎文章:迁移学习导论英文版终于问世
英文版官方网站:https://link.springer.com/book/9789811975837
书的网站:Jindong Wang | Book
我们的Diversity算法终于被ICLR'23所接收:ICLR 2023 | DIVERSIFY: 针对动态数据分布外泛化的表征学习新范式。这是我们针对无领域标签动态分布场景的全新尝试,很委屈地在ICLR'22以866的分数被AC否决、后来陆续被ICML、NeurIPS 2023拒,延迟了一年才被2023年的ICLR所接收。该算法也已被扩展到OOD Detection领域上且效果不错:DIVERSIFY: A General Framework for Time Series Out-of-distribution Detection and Generalization。
对抗训练的鲁棒性和泛化性的trade-off: ICCV 2023 | RiFT: 通过鲁棒关键微调提升对抗训练的泛化性。该文章通过巧妙地修改鲁棒关键层,将对抗训练网络的鲁棒性和泛化性同时进行提升。
代码库:
迁移学习代码库持续维护,来到第6个年头。目前已收获12.4K星标,继续引领迁移学习最新发展:http://transferlearning.xyz/。
新维护了一个鲁棒机器学习代码库robustlearn,囊括最新的一些OOD等算法,目前已收获375个星标:https://github.com/microsoft/robustlearn。
个性化联邦学习代码库PersonalizedFL:https://github.com/microsoft/PersonalizedFL。
- 心理学帮助理解大模型:此部分产出了现在莫名流行的EmotionPrompt,但在当时只是一个初步尝试。后来这个项目越做越大,从4月到现在12月了都还没有完成。放上第一版:Large Language Models Understand and Can be Enhanced by Emotional Stimuli。第二版最近也完成了:https://arxiv.org/abs/2312.11111
- 大模型帮助社会经济学:此部分研究源于对目前agent领域的一个反思,即,大家都在研究多智能体合作,那么社会中除了合作,还有啥?于是在7月份,我就提出要研究用大模型来模拟竞争环境。这篇应该是比较有意思的:我们编写了一个简单的饭店管理程序,然后让大模型智能体来管理饭店,两家饭店要竞争顾客,从中可以观察到一些经济学和社会学现象,用于启发这些领域的研究。文章链接:CompeteAI: Understanding the Competition Behaviors in Large Language Model-based Agents
除此之外,我们还有一些文章没有在知乎上撰文介绍,可持续关注个人主页更新。
大模型时代
我们开启了一个新的文章系列《大模型时代的科研》,力求在学习的同时也对大模型的科研多一些介绍。
1. 大模型时代,探讨普通人的科研何去何从:大模型时代,普通人的科研何去何从:读《一本书读懂AIGC》有感。此文的B站播放量突破了几万次。
2. 训练一个评估大模型的大模型:PandaLM: 评估大模型的大模型:保护隐私、可靠、可复现,三行代码即可调用。尝试基于人类偏好和数据收集,训练一个自动评估大模型表现的大模型。
3. 对prompt engineering的全面讲解:《大模型时代的科研》之2: Prompt Engineering (提示词工程)。
4. 首个全面评估大模型鲁棒性的基准:PromptBench: 首个大语言模型提示鲁棒性的评测基准。值得注意的是,我们在最近将PromptBench升级为了一站式评测大模型的工具库,只需要简单地“pip install promptbench”即可,最大限度地方便大家进行大模型评测相关研究:https://promptbench.readthedocs.io/
5. 利用大模型进行语义搜索的项目SearchAnything: Search Anything: 给本地搜索插上大模型的翅膀—语义搜索你的电脑、手机和云端的任何信息。后续Andrew Ng也推出了类似的课程,足见语义搜索的魅力。
6. GLUE-X--大模型OOD评估数据集:GLUE-X:基于分布外泛化的自然语言理解模型测试集 (ACL'23 Findings)。这是首个全面评估大模型OOD能力的数据集。
7. 首篇大模型评测的综述:“评测即科学”:首篇大语言模型评测的综述,一文带你全面了解大模型评测的现状、方法和挑战。此文受到了多方面关注,目前已收获超过140次引用。
另外,我们还有多篇arXiv文章由于正在投稿或尚未完成,无法一一展示,如:
---
新的一年越来越好!请大家持续关注噢!
====
更多:
个人网站:https://jd92.wang/
《小王爱迁移》系列文章:小王爱迁移》系列文章汇总
《研究生活》系列文章:王晋东不在家:《ResearchGo》研究生活系列文章汇总
《大模型时代的科研》系列文章:王晋东不在家:《大模型时代的科研》系列文章汇总