实验室介绍
清华大学计算机系自然语言处理与社会人文计算实验室(THUNLP) 是国内开展自然语言处理研究最早、深具影响力的科研单位,也是国内开展大模型研究最早的团队。团队依托国家实验室平台及孵化企业承担了国家重点研发项目、国家社会科学基金重大项目等多项重要研究任务,并与腾讯、华为、搜狗等企业建立密切的学术合作关系。
团队2021年发起创建的开源社区OpenBMB已成为国内领先大模型研发与应用开源社区,开源23个项目,GitHub星标4w+。发布了多个行业内领先的基础大模型,研发了面向大模型训练、微调、压缩、评测、对齐、智能体等技术工具套件,相关研究成果获 ACL2022最佳展示论文奖、入选Nature Machine Intelligence封面论文。开发的ToolLLM、ChatDev、AgentVerse、XAgent等智能体开源工具成为领域的代表性工具。
清华NLP实验室现依托清华实验室平台、国家实验室平台、孵化企业招募大量工程、研究岗位。如果你对大模型前沿技术充满好奇心,对推进技术落地满怀热情,希望投身到AGI实现的事业中来,欢迎加入我们!我们将提供具有竞争力的薪酬和福利,良好的工作环境和发展机会,以及多平台联动的广阔空间。
➤ 更多信息参见实验室主页
🔗 http://nlp.csai.tsinghua.edu.cn/
合作导师及研究方向
/ 孙茂松 /
清华大学计算机系长聘教授
➤ 个人主页
🔗 https://nlp.csai.tsinghua.edu.cn/staff/sms/
➤ Google Scholar主页
🔗 https://scholar.google.com/citations?user=zIgT0HMAAAAJ
➤ 研究方向如下
2. 可控文本生成:主要从事基于大规模预训练模型的可控文本生成方向的研究,涵盖摘要生成、改述生成、诗歌生成等不同的生成任务。
3. 跨模态:主要从事跨模态图文分析研究,综合利用多模态信息和多元知识,深度理解和分析图像语义,支持重要人工智能应用。
4. 大模型对齐:主要面向大规模预训练语言模型开展对齐研究,涉及价值观对齐、对齐机制探索等,实现大模型可持续发展与应用。
5. 基于智能体的社会模拟:主要从事基于智能体的社会模拟研究,包括对特定社会问题与场景的角色扮演、群体互动机制等研究,支持重要人工智能的社会应用。
/ 刘洋 /
清华大学计算机系长聘教授
刘洋,清华大学计算机科学与技术系长聘教授,清华大学智能产业研究院执行院长,清华大学计算机科学与技术系副主任,国家杰出青年基金获得者。担任中国人工智能学会组织工作委员会副秘书长、中国中文信息学会计算语言学专委会常务副主任。研究方向是自然语言处理、机器翻译,获得国家科技进步二等奖1项、省部级科技奖励4项、重要国际会议优秀论文奖4项。曾担任清华大学计算机科学与技术系智能技术与系统实验室主任、国际计算语言学学会亚太分会执委兼秘书长、Computational Linguistics 编委、中国中文信息学会青年工作委员会主任。
➤ 个人主页
🔗 http://nlp.csai.tsinghua.edu.cn/~ly/
➤ Google Scholar主页
🔗 https://scholar.google.com/citations?hl=en&user=lVhoKNcAAAAJ
➤ 研究方向如下
大模型方向:主要从事多语言和多模态大模型相关研究工作,探索大模型多语言和多模态能力拓展方法,研究面向大模型的跨模型、跨模态知识融合方法,支持重要人工智能应用。专业要求:在自然语言处理、计算机视觉、机器学习等相关领域以第一作者发表过高水平论文并且主持或参与过具体项目者(特别是机器翻译、跨模态智能信息处理等)优先。
智能体方向:主要从事大模型智能体相关研究工作,探索大模型智能体学习机制、规划决策、工具/模型调用、群体智能等技术,搭建面向研究人员或从业人员的智能体系统与平台。专业要求:在自然语言处理、计算机视觉、机器学习等相关领域以第一作者发表过高水平论文,熟悉大模型应用技术,具有强化学习、群体智能等研究经验者优先。
智能药物发现方向:主要从事基于图神经网络的通用生物模型设计,实现药分子、蛋白质、抗体、复合物等多类型多模态分子结构的表示学习、性质预测、结构对接、亲和力预测、结构预测与生成、动力学模拟等任务。专业要求:在机器学习、药物研发、生命科学等相关领域以第一作者发表过高水平论文,熟悉图神经网络、药物发现流程等研究经验者优先。
智慧医疗方向:主要从事医疗领域基础模型相关研究工作,探索大模型的领域化应用过程面临的非对齐数据融合、知识利用、可信技术及个性化挑战,以应对医疗场景中的应用挑战。专业要求:在自然语言处理、计算机视觉、机器学习等相关领域以第一作者发表过高水平论文,熟悉大模型应用技术,具备智慧医疗领域研究经验者优先。
/ 刘知远 /
清华大学计算机系长聘副教授
刘知远,清华大学计算机科学与技术系长聘副教授,博士生导师,国家青年人才。主要研究方向为大模型技术、知识图谱和社会计算。2011 年获得清华大学博士学位,曾任新加坡国立大学计算机学院高级访问研究员。已在 ACL、EMNLP、AAAI、IJCAI 等人工智能领域的著名国际期刊和会议发表相关论文 100 余篇,Google Scholar 统计引用超过 4.2 万次。作为课题负责人和技术骨干承担多项国家重点研发计划、973、国家科技支撑计划项目,与华为、腾讯、阿里等高科技企业深度合作,积极推动科学技术成果转化。曾获2020年、2022年教育部自然科学一等奖、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、ACL最佳系统演示论文奖、2022年、2023年世界互联网领先科技成果奖。曾入选《麻省理工科技评论》“35岁以下科技创新35人”中国区榜单(MIT TR-35 China)、中国科协青年人才托举工程、CCF-Intel 青年学者提升计划、Elsevier中国高被引学者等。
➤ 个人主页
🔗 https://nlp.csai.tsinghua.edu.cn/~lzy/index.html
➤ Google Scholar主页
🔗 https://scholar.google.com/citations?user=dT0v5u0AAAAJ&hl=en
➤ 研究方向如下
模块化大模型:聚焦模块化的大模型架构,应对 LLMs 的复杂性和计算成本,赋予模型前所未有的灵活性和可扩展性。借鉴自生物医学、认知科学等多个学科深厚的模块化设计研究。
数据-模型孪生技术:通过数模孪生模型来实现检索模型对大模型内、外源多模态世界知识进行进行调度和解耦,通过提供精准的、语义丰富的多模态知识以持续补充并更新大规模预训练语言模型的内源知识,保证预训练语言模型生成结果的事实精准性。方向具体包括 大模型知识构建方法、大模型知识检索方法和大模型事实验证方法。
工具学习与自主智能体:聚焦于工具使用能力、推理与规划、记忆系统与环境感知。
大模型群体智能:重点研究多智能体团队中可能出现的群体现象,努力探究如何优化智能体间的通信效率,以及如何动态调整每个智能体在完成任务中的分工,从而实现高效的多智能体协作。
大模型对齐:旨在研究大模型的Alignment技术,尤其是有监督微调 (SFT) 和基于强化学习的人类反馈学习算法 (RLHF) ,以提升大模型的准确性、真实性、无害性和有益性。
多模态大模型:探索构建通用多模态大模型的方法体系,研究内容包括:通用多模态基础大模型构建,包括新一代多模态基础模型架构、多模态多语言能力高效构建、多模态问答及推理能力等;多模态大模型的感知基础构建,包括高清图建模、多模态目标检测分割能力等;多模态基础能力的对齐方法,包括人类反馈的多模态偏好学习、专业场景多模态能力对齐等。
大模型训练动力学:聚焦于研究支配大模型参数扩展的“扩展”定律,对扩展定律进行验证、解释、改进和应用;深入模型训练机理,探索大模型规模扩大过程中涌现能力出现的原因。
博士后岗位要求及薪资待遇
➤ 岗位要求
已获得博士学位(授予时间在3年内)或应届博士毕业生(已满足学位论文答辩要求),年龄在35周岁以下(不含);
以第一作者在人工智能、自然语言处理等领域发表过1篇以上的高水平论文;
思维活跃、勇于创新,具有强烈的技术创新和研发热情;
责任心强、工作勤奋,有良好的团队意识与合作精神;
有大模型训练和推理经验,或文本生成相关研究经验者优先;有较强编程能力者优先。
薪资、保险等按照国家和清华大学博士后管理办法执行,外加实验室绩效奖励; 办理北京市集体户口; 提供清华博士后公寓或享受住房补贴; 享受清华大学教师子女入园入学政策、医疗政策; 推荐申请各类博士后支持计划,包括博士后创新人才支持计划(资助额度最高达60万元)、清华大学“水木学者”计划(校发年薪30万元)、博士后科学基金项目、博士后国(境)外交流项目等。具体信息请查询清华大学博士后官网:http://postdoctor.tsinghua.edu.cn/
申请方式
本通知长期有效,请发送邮件至邮箱:thunlp@163.com,标题为“申请(意向导师姓名)博士后/研究员-姓名-学校”,在邮件中说明意向导师及感兴趣的研究方向并附简历。
在申请过程中有任何问题也可通过上述邮件咨询。
欢迎和我们一起探索人工智能与大模型技术前沿。