为进一步普及最新大模型前沿动态,推动国内大模型技术发展,发展基础理论与应用,第十八届中国中文信息学会暑期学校暨《前沿技术讲习班》 (CIPSATT) 推出大模型系列专题,将于2023年8月20日-23日在北京西郊宾馆举办。本次讲习班以“基座大模型的构建方法与训练技巧”和“大模型的领域应用与学术前沿”为主题,邀请来自首批国内开源大模型企业和一线国内大模型研究学者,系统讲述大规模基础知识、构建方法、核心挑战和应用前景,为感兴趣的学者、学生和工程师提供系统学习和交流的机会,促进国内大模型的学术前沿发展和应用实践落地。早鸟票截止日期8月12日,欢迎感兴趣的同学及研究者报名!
官网地址
注册缴费
http://reg.cipsc.org.cn/ssatt2023/
讲习班官网 注册缴费
Day 1 (8月20日)9:00-12:00
大模型值得关注的重要特性
刘知远 副教授
清华大学
韩旭,清华大学博士后,研究方向为自然语言处理、预训练语言模型、知识图谱,在ACL、EMNLP等自然语言处理与人工智能国际会议上发表论文多篇,Google Scholar累计引用5800余次,作为主要贡献者之一参与OpenBMB大模型社区建设、开源CPM系列模型。博士期间曾获国家奖学金、清华大学蒋南翔奖学金、清华大学计算机系钟士模奖学金、清华大学优秀博士学位论文、微软学者奖学金等荣誉,入选2022年度CCF优博激励计划、博士后创新人才支持计划、清华大学水木学者计划。
近年来以BERT、GPT为代表的预训练模型,使人工智能技术进入“预训练-微调”的全新范式,特别是最近ChatGPT引爆了全社会对大模型技术的关注。本报告重点介绍大模型与过去深度学习模型相比,在模型框架、微调适配以及推理计算等方面的重要特性,探讨大模型未来的研发应用范式。
Day 1 (8月20日)14:00-17:00
大型语言模型的科学挑战
和技术实现
邱锡鹏 教授
复旦大学
颜航 博士
上海人工智能实验室
颜航,上海人工智能实验室青年科学家,博士毕业于复旦大学自然语言处理实验室。研究兴趣包括信息抽取、开源NLP工具建设、大规模预训练模型等。开源平台OpenLMLab主要贡献者,设计并开发了fastNLP、fitlog等开源工具,负责了上海人工智能实验室InternLM语言大模型的训练相关工作。在ACL、TACL、EMNLP、NAACL等会议或杂志上发表了多篇论文,2022年获钱伟长中文信息处理科学技术奖一等奖。
2022年底,美国OpenAI公司发布了对话式大型语言模型ChatGPT,一个可以与人类对话交互的千亿规模参数的大型语言模型,展现了研发通用人工智能技术广阔的研究和应用前景。然而ChatGPT的技术细节及模型参数均未公开,如何实现chatGPT能力成为当时最具挑战性的难题。2023年2月,复旦大学推出对话式大型语言模型MOSS,成功实现了构建chatGPT的全部技术路径,包括基座预训练、人类对齐、工具增强等。
本报告主要介绍大型语言模型的科学挑战和技术路径、关键技术以及开源平台。主要涵盖三部分内容:1)大型语言模型的技术原理和科学挑战;2)大型语言模型的预训练经验和微调经验;3)大模型的开源平台OpenLMLab介绍,包括增强版模型Ultra-Llama、大模型调优工具CoLLiE、模型评测工具等。
Day 2 (8月21日)9:00-12:00
ChatGLM:认知大模型
及应用初探
张鹏 博士
智谱华章
在实现通用人工智能的道路上,大模型是一个必经阶梯。2020年,GPT-3的出现让大模型进入“可用阶段”,把生成式AI带入全新的时代。本报告介绍了智谱AI研发的预训练框架研发的开源双语模型GLM-130B,以及基于GLM-130B打造的千亿基座的中英文对话模型 ChatGLM (chatglm.cn)和全球下载量超过400万的开源模型ChatGLM-6B,并介绍了ChatGLM在行业应用上的一些探索。
Day 2 (8月21日)14:00-17:00
多模态预训练模型的
研究与应用
刘静 研究员
中国科学院自动化研究所
近年来,从预训练模型到预训练大模型,从文本、音频、视觉等单模态大模型,到现在的图文、图文音等多模态预训练大模型,无论在学术界还是企业界预训练模型都得到了广泛关注与爆发式发展。多模态预训练通过联合图文音等多模态内容进行模型学习,其发展在多模态理解、搜索、推荐、问答,语音识别与合成,人机交互等应用领域中具有潜力巨大的市场价值。本报告主要包含三方面内容:分析多模态预训练模型的重要性与必要性;回顾当前多模态预训练模型的研究进展,并介绍多模态大模型的架构设计、学习优化与下游应用;多模态预训练模型主要应用场景与未来展望。
Day 1 (8月22日)9:00-10:30
大语言模型驱动的
自主智能体
魏忠钰 副教授
复旦大学
大语言模型(LLM)技术的发展,为自然语言处理领域任务的动态化设定提供了支撑,打开了自主智能体研究的新世界。本次报告会从大语言模型的自我反省和提升,多语言模型的交互和动态自然语言处理任务设定,以及大语言模型驱动的多智能体应用等三个方面综述大模型驱动的自主智能体研究。
Day 1 (8月22日)10:30-12:00
大语言模型及应用
冯洋 研究员
中国科学院计算技术研究所
ChatGPT以其强大的生成能力证明了大语言模型的优势。该讲习班将介绍主流大语言模型的原理以及下游适应方式,并介绍大语言模型的两个应用示例-chatGPT及百聆大模型的主要技术,并预测了大模型的未来发展趋势。
Day 1 (8月22日)14:00-15:30
大语言模型的幻象问题
赵鑫 教授
中国人民大学
最近,以ChatGPT为代表的大语言模型受到了社会的广泛关注,对于人工智能技术的发展产生了重要影响。然而大语言模型自身还存在不少局限性问题,使之难以完全安全使用。本次报告将围绕大语言模型的幻象问题展开,将探讨幻象问题的产生原因及相关解决途径(如检索增强方法以及RLHF方法),最后介绍大语言模型的评测方法。
Day 1(8月22日)15:30-17:00
大模型时代下的
代码智能技术
卢帅 研究员
微软亚洲研究院
近年来,代码智能已成为学术界和产业界广泛研究的焦点,基于人工智能技术的自动化程序理解和生成可以极大地提高程序开发者的生产力。特别是大规模通用预训练模型的问世,更是将代码智能技术推向了新的高峰。如今大模型已经在软件开发生命周期的各个方面得到了应用,涵盖代码补全、代码搜索、代码审查、缺陷检测及修复等等。本报告将介绍我们团队在代码预训练模型上的探索成果,以及大模型时代AI辅助软件开发的机遇与挑战。
Day 2(8月23日)9:00-12:00
大语言模型对齐
熊德意 教授
天津大学
通用智能的 “智能-目标” 正交性及 “工具性趋同” 论点均要求通用智能的发展要智善结合。目前大语言模型在能力(智)方面发展迅速,但在更具挑战性的价值对齐(善) 方面研究相对滞后。本报告分为两个部分,第一部分概述对齐的基本概念和必要性,简述其存在的社会和技术挑战,分析大语言模型对齐的主要技术路线和方法,探讨如何对大语言模型对齐进行评测,并对未来趋势进行展望。第二部分将综述目前大语言模型外部对齐的具体方法,包括人类反馈强化学习及其变种,AI辅助对齐等。
Day 2(8月23日)14:00-15:30
大模型在智能科学计算中的应用
兰艳艳 教授
清华大学
人工智能技术不仅在计算机视觉和自然语言处理等领域带来了革命性的发展,也对其他科学领域的问题产生了重要影响,如蛋白质结构预测,天气预报,材料和药物设计等。本次讲座将介绍大规模预训练语言模型在这些科学领域的应用,并聚焦于药物研发相关问题阐述最新的大模型进展,总结科学问题和挑战。
Day 2(8月23日)15:30-17:00
大模型推荐技术及展望
冯福利 教授
中国科学技术大学
以GPT为代表的大语言模型(LLM)展示了惊人的新兴理解、推理和规划能力,催生了将LLM应用于推荐系统以提升性能和用户体验的有前景的研究方向。报告介绍大模型推荐技术的进展,包括如何教会LLM做推荐:1)基于in-context learning的LLM推荐能力激发,2)基于instruct- tuning的LLM推荐任务对齐;以及如何利用LLM推动推荐范式革新:3)基于LLM的生成式召回,4)基于LLM的生成式推荐。报告进一步讨论大模型推荐带来的机遇与挑战。