课程介绍
多模态大语言模型(Multimodal Large Language Models,MLLMs)是结合了大语言模型(Large Language Models,LLMs)的自然语言处理能力与对其他模态(如视觉、音频等)数据的理解与生成能力的模型。这些模型通过整合文本、图像、声音等多种类型的输入和输出,提供更加丰富和自然的交互体验。
本课程主要介绍多模态大模型的发展历程、核心技术、典型应用以及多模态大模型构建和部署方法。课程共分为八章,包括多模态大模型概述、自然语言处理、ChatGPT核心技术、GPT的发展历程、多模态与大模型融合、多模态大模型的核心技术、多模态大模型构建实践和多模态大模型部署实践。
边学边测、 边学边练
课件展示
(课件列表)
(GPT-2:其他优化措施)
(典型的多模态模型:Vision Transformer)
(InstructBLIP模型结构)
(知识蒸馏)
配套习题
配套实验
课程大纲
第一章 多模态大模型概述
1.1 OpenAI的发展历程
1.2 OpenAI特殊股权设计
第二章 自然语言处理
2.1 NLP背景介绍
2.2 NLP发展历程I
2.3 NLP发展历程II
2.4 NLP发展历程IIl
2.5 NLP发展历程IV
2.6 从BERT模型到ChatGPT
2.7 BERT诞生后的行业探索
2.8 ChatGPT的诞生
第三章 ChatGPT的核心技术
3.1 基于Transformer的预训练语言模型
3.2 提示学习和指令微调
3.3 基于人工反馈的强化学习
3.4 思维链方法
3.5 集成学习
第四章 GPT的发展历程
4.1 GPT-1
4.2 GPT-2
4.3 GPT-3
4.4 GPT的主要创新
第五章 多模态与大模型融合
5.1 多模态的发展历程
5.2 典型的多模态模型
5.3 多模态与大模型融合
5.4 多模态大模型的效果评估
第六章 多模态大模型的核心技术
6.1 图像描述生成
6.2 文本生成图像
6.3 文本生成语音
6.4 文本生成视频
第七章 多模态大模型构建实践
7.1模型微调
7.2 模型压缩
7.3 模型微调实战
7.4 模型压缩实战
第八章 多模态大模型部署实践
8.1 部署环境和流程
8.2 VisualGLM-6B项目源码和模型文件下载
8.3 命令行部署和API部署
8.4 Gradio网页部署
一键复制,快速开课
教师可复制平台的多模态大模型原理与实战的内容,开设自己的课程,并面向本校学生开展教学。
课程由35个知识点组成,可以根据需要选择不同的知识点建课;也可以上传自己的课件或视频组建新的课程。
爱数课(iDataCourse)是一个面向院校的大数据和人工智能课程和资源平台。平台提供权威的课程资源、数据资源、案例实验资源,助力院校大数据和人工智能专业建设、课程建设和师资能力建设。
如有体验课程意向,请与我们联系,我们将为您开通院校机构与课程权限,并提供使用指导服务。
扫码联系我们
电话:13693290406