2023年度盘点：这一年发过的那些技术文章

创业科技 2023-12-26 12:06 新加坡

年关将至，恰是盘点总结之时。本文延续去年的《2022年度盘点》，将2023年度发表过的技术文章按照主题分别列出，供大家选择性阅读。

2023年是一个神奇的年份。ChatGPT在2022年底的问世直接给2023年AI领域的科研带来了前所未有的大变革。因此，本文也大体分为“前大模型时代”和“大模型时代”两大部分。需要说明的是，笔者并未完全放弃非大模型时代的相关研究。理由也非常简单：大模型依然无法解决许多已有问题，因此我们还需要继续进行投入。

我在最近的一个回答中也总结了自己在大模型时代的心路历程，欢迎阅读：写在ChatGPT发布一周年之际

前大模型时代

半监督学习

这一年我们在半监督学习领域继续有着不错的进展，贡献出了2个算法。

1. FreeMatch--ICLR 2023半监督领域审稿最高分论文：ICLR 2023半监督学习最高分论文FreeMatch: 自适应阈值法，首次自动学习半监督的阈值，较我们之前提出的FlexMatch算法 (NeurIPS'21)有了明显的进步，目前已收获86次引用。
2. SoftMatch--另一视角审视半监督学习(ICLR'23): ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off，该方法首次研究半监督学习中伪标签质量和数量的trade-off，目前已收获37次引用。
3. 上述2个算法均开源在了我们统一的半监督学习库 USB (NeurIPS'22) 中：https://github.com/microsoft/Semi-supervised-learning。同时，我们也很欣喜地看到，USB的Github星标已超过了1000次，并且加入了Pytorch官方生态系统中：https://medium.com/pytorch/unveiling-the-power-of-semi-supervised-learning-the-unified-semi-supervised-learning-benchmark-849f42bbc32a。

迁移学习与OOD泛化

《迁移学习导论》的英文版《Introduction to Transfer Learning》终于由Springer出版，这是笔者在2022年圣诞假期由中文版第二版翻译而来，力求服务于国际友人。

知乎文章：迁移学习导论英文版终于问世
英文版官方网站：https://link.springer.com/book/9789811975837
书的网站：Jindong Wang | Book

我们的Diversity算法终于被ICLR'23所接收：ICLR 2023 | DIVERSIFY: 针对动态数据分布外泛化的表征学习新范式。这是我们针对无领域标签动态分布场景的全新尝试，很委屈地在ICLR'22以866的分数被AC否决、后来陆续被ICML、NeurIPS 2023拒，延迟了一年才被2023年的ICLR所接收。该算法也已被扩展到OOD Detection领域上且效果不错：DIVERSIFY: A General Framework for Time Series Out-of-distribution Detection and Generalization。
对抗训练的鲁棒性和泛化性的trade-off: ICCV 2023 | RiFT: 通过鲁棒关键微调提升对抗训练的泛化性。该文章通过巧妙地修改鲁棒关键层，将对抗训练网络的鲁棒性和泛化性同时进行提升。
代码库：

迁移学习代码库持续维护，来到第6个年头。目前已收获12.4K星标，继续引领迁移学习最新发展：http://transferlearning.xyz/。
新维护了一个鲁棒机器学习代码库robustlearn，囊括最新的一些OOD等算法，目前已收获375个星标：https://github.com/microsoft/robustlearn。
个性化联邦学习代码库PersonalizedFL：https://github.com/microsoft/PersonalizedFL。

除此之外，我们还有一些文章没有在知乎上撰文介绍，可持续关注个人主页更新。

大模型时代

我们开启了一个新的文章系列《大模型时代的科研》，力求在学习的同时也对大模型的科研多一些介绍。

1. 大模型时代，探讨普通人的科研何去何从：大模型时代，普通人的科研何去何从：读《一本书读懂AIGC》有感。此文的B站播放量突破了几万次。

2. 训练一个评估大模型的大模型：PandaLM: 评估大模型的大模型：保护隐私、可靠、可复现，三行代码即可调用。尝试基于人类偏好和数据收集，训练一个自动评估大模型表现的大模型。

3. 对prompt engineering的全面讲解：《大模型时代的科研》之2: Prompt Engineering (提示词工程)。

4. 首个全面评估大模型鲁棒性的基准：PromptBench: 首个大语言模型提示鲁棒性的评测基准。值得注意的是，我们在最近将PromptBench升级为了一站式评测大模型的工具库，只需要简单地“pip install promptbench”即可，最大限度地方便大家进行大模型评测相关研究：https://promptbench.readthedocs.io/

5. 利用大模型进行语义搜索的项目SearchAnything: Search Anything: 给本地搜索插上大模型的翅膀—语义搜索你的电脑、手机和云端的任何信息。后续Andrew Ng也推出了类似的课程，足见语义搜索的魅力。

6. GLUE-X--大模型OOD评估数据集：GLUE-X：基于分布外泛化的自然语言理解模型测试集 (ACL'23 Findings)。这是首个全面评估大模型OOD能力的数据集。

7. 首篇大模型评测的综述：“评测即科学”：首篇大语言模型评测的综述，一文带你全面了解大模型评测的现状、方法和挑战。此文受到了多方面关注，目前已收获超过140次引用。

另外，我们还有多篇arXiv文章由于正在投稿或尚未完成，无法一一展示，如：

- 心理学帮助理解大模型：此部分产出了现在莫名流行的EmotionPrompt，但在当时只是一个初步尝试。后来这个项目越做越大，从4月到现在12月了都还没有完成。放上第一版：Large Language Models Understand and Can be Enhanced by Emotional Stimuli。第二版最近也完成了：https://arxiv.org/abs/2312.11111
- 大模型帮助社会经济学：此部分研究源于对目前agent领域的一个反思，即，大家都在研究多智能体合作，那么社会中除了合作，还有啥？于是在7月份，我就提出要研究用大模型来模拟竞争环境。这篇应该是比较有意思的：我们编写了一个简单的饭店管理程序，然后让大模型智能体来管理饭店，两家饭店要竞争顾客，从中可以观察到一些经济学和社会学现象，用于启发这些领域的研究。文章链接：CompeteAI: Understanding the Competition Behaviors in Large Language Model-based Agents

---

新的一年越来越好！请大家持续关注噢！

====

更多：

个人网站：https://jd92.wang/

《小王爱迁移》系列文章：小王爱迁移》系列文章汇总

《研究生活》系列文章：王晋东不在家：《ResearchGo》研究生活系列文章汇总

《大模型时代的科研》系列文章：王晋东不在家：《大模型时代的科研》系列文章汇总

http://mp.weixin.qq.com/s?__biz=MzU1MTc3ODYwNA==&mid=2247485854&idx=1&sn=24760c27de1889da2fcada09da464e00

王晋东不在家

分享科研与研究生活的点点滴滴，包括但不限于：机器学习、迁移学习、元学习等，以及研究生、博士生生活的经验教训。

最新文章

美国"公立常春藤"威廉玛丽学院王晋东老师招收25 Fall全奖PhD/实习生

AgentReview: 利用 LLM Agents 探究同行评审机制

ICML 2024 Oral | CompeteAI: 从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ICML 2024 | GLWS: 一个通用高效的框架统一弱监督学习

ICML 2024 | DyVal 2: 更加通用和自动的大语言模型的动态评测和洞察协议

ICLR 2024 spotlight | 基础模型时代的全新研究方向：灾难性继承与噪音模型学习

ICLR 2024 Spotlight | DyVal: 首个大语言模型的动态测试评测协议

2023年度盘点：这一年发过的那些技术文章

写在ChatGPT发布一周年之际

[征稿] ACM TIST special issue征集大模型评测方面的论文

ICCV 2023 | RiFT: 通过鲁棒关键微调提升对抗训练的泛化性

风靡朋友圈的妙鸭相机，到底用了哪些底层技术？

“评测即科学”：首篇大语言模型评测的综述，一文带你全面了解大模型评测的现状、方法和挑战

GLUE-X：基于分布外泛化的自然语言理解模型测试集 (ACL'23 Findings)

Search Anything: 给本地搜索插上大模型的翅膀—语义搜索你的电脑、手机和云端的任何信息

PromptBench: 首个大语言模型提示鲁棒性的评测基准

怎么借助ChatGPT快速肝一篇学术论文？

《大模型时代的科研》之2: Prompt Engineering (提示词工程)

PandaLM: 评估大模型的大模型：保护隐私、可靠、可复现，三行代码即可调用

大模型时代，普通人的科研何去何从：读《一本书读懂AIGC》有感

迁移学习导论英文版终于问世

ICLR 2023 | DIVERSIFY: 针对动态数据分布外泛化的表征学习新范式

ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off

ICLR 2023半监督学习最高分论文FreeMatch: 自适应阈值法

2022年终盘点：这一年发过的那些技术文章

COLING'22 | 用于细粒度情感分类TOWE任务的多粒度半监督算法

三行代码解决长尾不平衡类别分类：间隔校准算法Margin Calibration

NeurIPS 2022 | USB: 统一、任务多样化、对学术界更友好的半监督学习算法库

你们喜欢的迁移学习开源项目，现在收获了1万星标

为什么越来越多博士逃离科研？

TMLR 22 | 充分挖掘域不变特征的域泛化框架DIFEX

什么是个性化联邦学习？简单易用、面向研究的代码库PersonalizedFL开源啦！

《迁移学习导论》第2版，重磅升级上市！

西湖大学NLP实验室招收PhD、RA、博后和实习生

ICML-22 | 通过忠诚度违规测试重新思考注意力模型的解释能力

打开人工智能“黑盒”，发展可解释、可扩展、可信赖、安全可靠的人工智能

深度学习中创新点比较小，但是有效果，可以发（水）论文吗?

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉