顶会上的半壁江山!谷歌微软All in多模态

科技   2024-11-04 13:05   上海  

2024年已经接近尾声,回顾这大半年来的人工智能发展:GPT版本不断迭代,大模型技术屡屡刷新,多模态大模型再创新高,具身智能新星冉冉升起...


双十一,不仅是电商人的狂欢,也是一年一次沃恩给科研er送福利的机会,这次不整虚的,我邀请了3位大咖分别来对大模型,多模态大模型、计算机视觉—行人重识别的最新前沿技术解析,还附赠2024年科研大礼包:


2万篇2019-2024年CVPR,ECCV,,AAAL等顶会论文合集

哥本哈根学者亲授-《8日大模型系列课》

人工智能电子书/NLP/深度学习电子书

保姆级sci零基础论文写作系列课

计算机视觉系列课

20个大模型热门数据集


扫码回复“双11”预约直播

2024科研资料大礼包

PART.01


大模型微调/多模态大模型/计算机视觉前沿课


在当今的人工智能领域,大模型微调是人工智能创新的关键一步微调可以强化预训练模型在特定任务上的能力,提高模型性能,微调自有模型可避免数据泄漏,也能降低成本。


这次双十一,我邀请了长期担任自然语言处理、人工智能等顶级会议和期刊的审稿人徐老师在8号给大家分享大模型微调技术及未来研究方向介绍。





徐老师——大模型微调技术及未来研究方向介绍

985高校博士

共发表20余篇SCI国际期刊和EI会议论文

发明专利授权5项,软件注册权2项

长期担任自然语言处理、人工智能等顶级会议和期刊的审稿人

指导硕士研究生、985高校本科生10余人,主持和参与过一些省级课题项目,担任过其他高校的项目指导专家。

课程大纲:

  • 监督微调

  • 人类反馈强化学习微调

  • 参数高效的微调

  • 未来的研究方向

扫码回复“双11”预约直播

99个微调工具


多模态大模型是在大模型基础上的延伸,它们能够处理并理解多种类型的输入,如文本、图像和音频。OpenAI的DALL-E和CLIP就是这个方向上的代表作,它们能够理解和生成与文本描述相符的图像,或者通过图像来理解文本内容。


谷歌的Gemini在原生多模态领域迈出了重要步伐,其不仅在不同模态上进行预训练,而且可以处理更加复杂的输入和输出,如图像和音频。


这次双11,我邀请了担任多个顶会审稿人Geoff老师在8号给大家分享多模态大模型的最新技术解析和进展。





Geoff老师——多模态大模型最新技术解析和进展

985毕业博士

谷歌学术引用2000+,获得2项国际专利授权

研发的技术被头部互联网大厂应用

发表十余篇国际顶级会议&期刊论文,担任多个顶会审稿人

指导同门师弟师妹&实习生发表数篇顶会论文。


课程大纲:

  • LLM的出现和多模态领域初探

  • LLaVA与BLIP:从直接映射模型到查询归纳模型

  • mPLUG-Owl3:专注长序列的多模态模型

  • Qwen2-VL:支持任意分辨率的多模态模型

  • Emu3:通过生成下文统一多模态

  • 视频理解垂类模型和进展

  • 机器人垂类模型和进展

扫码回复“双11”预约直播

700篇多模态大模型论文


近年来,预训练大模型引发了广泛的关注,获得了快速的发展,其核心技术在行人重识别领域获得了越来越多的应用。行人重识别旨在对没有视野重叠覆盖的视域拍摄的行人目标进行身份匹配,是计算机视觉的研究热点。


这次双11,我邀请了专攻计算机视觉领域的审稿人Michael老师在8号给大家分享行人重识别的主要研究方向与先进方法




Michael老师——面向自然环境的行人重识别

TOP100高校博士,专攻计算机视觉领域

近五年发表论文40余篇

2023年所在单位指导三名学生,在2023年分别各自发表了一篇CCF-A类期刊论文

担任多个顶级期刊会议审稿人,2023年获得CVPR的最佳审稿人奖项

课程大纲:

  • 行人重识别的基本概念和背景

  • 主要研究方向与先进方法

  • 前沿研究问题

扫码回复“双11”预约直播

经典算机视觉论文


PART.02


全栈系列课免费分享

2024年进入60天倒计时,这大半年,GPT的不断更新,让科研人认识到大模型依然是人工智能学习的关注点,谷歌的Gemini和OpenAI的Sora,这个在大模型基础上延伸的多模态大模型也走入大家学习的视野,随着一部黑悟空游戏翻红,让深度学习成功杀回顶流,荣获诺贝尔物理学奖的深度学习,同样宣告着计算机视觉依然是人工智能界顶流。


擅于将知识交叉和融合,也是未来学习的一个能力,这次我申请到一个特别的福利,就是将目前汇聚多位QS前50大佬全栈知识系列课,包含大模型、多模态大模型、深度学习、计算机视觉等,通通免费开放!


向下滑动,免费领取人工智能全栈系列课

扫码回复“双11”预约直播

大模型、具身智能、计算机视觉、深度学习系列课程


PART.03


双11庆典,三重豪礼,买1送1


在这个双十一,沃恩双11庆典千万别错过,不仅能跟着科研大佬学习前沿知识,观看直播还能抽奖ipone 16 Pro,小米手环等奖品,本月8号与你不见不散哦~



扫码回复“双11”预约8号直播

ipone 16 pro、小米手环等豪礼

CVer
一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。
 最新文章