何恺明大神在MIT的秋季最新课程！附课程地址

科技 2024-11-11 21:15 广东

Datawhale分享

大神：何恺明，MIT，编辑：机器之心

又有机会跟着大神学习了！

今年 2 月起，何恺明已经开始了自己在 MIT 的副教授职业生涯，并在 3 月 7 日走上讲台完成了「人生中教的第一堂课」。

近日，我们发现了何恺明的第二门课程《深度生成模型》（6.S978: Deep Generative Models），已经于 9 月初开始了授课。

课程地址👉：https://mit-6s978.github.io/

在何恺明担任讲师之外，MIT CSAIL 计算设计与制造团队（Computational Design & Fabrication Group）的四年级博士生 Minghao Guo 担任助教。

这门课程被热心网友推荐给准备教授计算机视觉与深度学习的人作为参考。

网友感慨何恺明是残差网络（ResNet）的发明者，非常厉害。不过能具备这门课程先修知识的人应该很少。看来，课程的难度较高，需要较为扎实的学习背景。

课程概览

据介绍，这是一门研讨会课程，目标受众是正在进行（或计划进行）深度生成模型研究的研究生（graduate）。

课程介绍了深度生成模型的概念、原理和应用，主要涵盖了计算机视觉（如图像、视频、几何）和相关领域（如机器人技术、生物学、材料科学等）中的场景。课程侧重于不同问题和学科之间共享的通用范式和方法。

核心主题包括变分自编码器、自回归模型、生成对抗网络、扩散模型及其应用，覆盖了基础框架和最新研究前沿。

课程分为讲师讲座、客座讲座和学生研讨会。学生研讨会包括了论文阅读、演示和讨论。当然了，课程对学生的要求非常高，包括如下：

参加所有讲座和研讨会
每两周完成一次习题集
在研讨会上发表一篇论文：20 分钟演示 + 10 分钟讨论和 QA
完成最终项目和项目演示
……

课程共分为 15 周完成，除了第 1 周和最后一周，每周各有两节课（分别为阅读课和讲座）。目前，课程已经进行到了第 10 周，主题分别如下：

Week 1：深度生成模型简介
Week 2：建模图像先验、变分自编码器（VAE）
Week 3：归一化流、自回归（AR）模型
Week 4：自回归（AR）模型、AR 和分词器（tokenizer）
Week 5：AR 和扩散、生成对抗网络（GAN）
Week 6：扩散领域的 GAN
Week 7：基于能量的模型、分数匹配和扩散模型
Week 8：扩散模型、去噪后的扩散
Week 9：离散扩散、流匹配 1
Week 10：流匹配 2、CMU 助理教授朱俊彦讲座《确保生成模型的数据所有权》（Ensuring Data Ownership in Generative Models）

其中前 5 期讲座的 PPT 已经放出来了。

地址：https://mit-6s978.github.io/assets/pdfs/lec1_intro.pdf

地址：https://mit-6s978.github.io/assets/pdfs/lec2_vae.pdf

地址：https://mit-6s978.github.io/assets/pdfs/lec3_ar.pdf

地址：https://mit-6s978.github.io/assets/pdfs/lec4_gan.pdf

地址：https://mit-6s978.github.io/assets/pdfs/lec5_diffusion.pdf

更详细的课程计划参考下图，接下来的主题将包括：视频、3D、几何、机器人、材料科学、蛋白质和生物学等领域的应用。此外还有 OpenAI 战略探索团队负责人宋飏的讲座《一致性模型》（Consistency Models）。

课程地址：https://mit-6s978.github.io/

AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

最新文章

性能堪比o1？阿里mRAG新框架开启多模态动态检索新时代！

格局打开！马斯克的Grok免费开放给所有人了！

和Sora掰手腕！谷歌升级了视频模型Veo 2和Imagen 3。

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了

ECCV 2024 | 扩散视觉Transformer：基于Transformer生成图像

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

ECCV 2024 | BK-SDM：一种轻量级、快速且廉价的Stable Diffusion版本

极越，“暴雷”了！

别吹Sora了，实测一言难尽。甚至分不清人脸和猪？？

985教授发表1226篇论文，被质疑“学阀”“水文”，本人回应！

满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

AAAI 2024 | 即插即用，Conv-Former注意力模块，用卷积实现Transformer效果！

高中生中了顶会，还是一作。。。

字节团队提出 SuperClass 告别CLIP ，革新图像文本预训练分类技术！

被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！

NeurIPS 2024 | 融合现实与虚拟：人脸二维码生成技术开启新时代

网易深圳游戏部门全被裁？？

北大发布ConsisID：无需训练Lora，就可以定制化个人视频写真！

YOPO (You Only Prune Once)：给LLaVA做剪枝，大幅缩减多模态大模型计算量至12%！

雷军大学时候的论文，不需要参考文献

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

字节大瓜后续，GPU集群被投毒，索赔800万！

Kimi开源底层推理框架，1小时GitHub揽星1.2k

ArXiv | RealisHuman：用于修复生成图像中畸形人体部件的两阶段方法

RAG还是微调，怎么选？

Sora开放前夕，最好的视频生成模型是哪个？

国产AI视频生成CogVideoX v1.5，开源。

90%员工月入2-5万？互联网大厂月薪分布揭示真相

一位阿里P9的年薪和家庭资产

提升篇 | 优化YOLOv8以加快推理速度

中文版的TPAMI，你听说过么！

绝了，图片秒变代码，开发越来越简单了！

谷歌浏览器，要被强制出售！

Python优雅地书写LaTeX

又一985，落地深圳！

医图论文 Arxiv'24 | CAMS: 基于Mamba的无卷积和无注意力的图像分割

谷歌2024博士奖学金名单公布

喜提 TPAMI 顶刊！！！

网易高管贪污，基层裁员

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

如何在自定义数据集上训练 YOLOv8 实例分割模型

何恺明大神在MIT的秋季最新课程！附课程地址

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

顶会新方向！全新多模态大模型统一分割框架

被美国“制裁”的中国大学名单。。。

IC-Light V2：AI打光细节完美保留！

Pytorch2.x时代，关于C++部署的讨论

优化计算机视觉和图像处理中的图像格式：OpenCV中的PNG、JPG和WEBP

15岁，7年开发经验！初中生！开源项目被数百万收购

ECCV 2024 Oral | Co-Instruct: 让通用多模态大模型学会比较视觉质量

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉