今晚8:30，荣幸邀请到电影导演和LLM科学家一起聊聊对多模态的见解

教育 2024-12-16 11:17 江苏

主题

创意 v.s. 智能｜电影导演与AI科学家视角下的长视频理解主题圆桌会

前言

随着AI技术的迅猛发展，电影创作与视频理解的边界正日益模糊。NICE组织将于12月16日晚20:30举办首次圆桌会系列活动。

本次圆桌会将邀请电影导演与计算机视觉科学家展开跨界对话，探讨AI如何在电影叙事与实时直播流的长视频理解中发挥关键作用。电影导演将分享艺术创作的思考，AI科学家则从技术角度探讨电影视频的深层理解、音频描述生成及直播流数据的实时解析。

通过这一跨领域的碰撞与交流，我们希望激发对AI如何推动不同视频领域创新的深刻思考，展望未来创作与观影体验的无限可能。

本次圆桌会还设有开放讨论环节，邀请与会者共同参与，从多个维度探讨电影艺术、视频理解和直播流的相互影响，激发更多创新思维和实践启示。

嘉宾介绍

韩腾达，谷歌DeepMind研究科学家。于牛津大学Visual Geometry Group（VGG）组获得博士学位，师从Andrew Zisserman教授，致力于自我监督学习和视频理解。个人主页：https://tengdahan.github.io/。本次圆桌会将会分享关于电影音频描述（Movie audio description）生成相关工作。

林浩天，剑桥大学电影与荧幕研究硕士，上海交通大学影视系艺术学学士，纪录片导演，摄影师。主要从事电影技术、电影史研究，作品于国际电影节、摄影大赛获各类奖项，曾参与麻省理工学院人工智能电影黑客松活动评审及组织工作。个人主页www.haotianlin.com。

狄尚哲，上海交通大学二年级博士生，主要研究方向是视频理解和多模态学习。本次分享将围绕本人在长视频问答方向的研究展开。长视频中丰富的视觉信息虽然带来了新的机遇，但也显著增加了视频问答模型的训练难度。此外，仅输出答案往往缺乏合理性解释，限制了模型的可解释性和实际应用。为解决这些问题，我们开展了一系列研究，包括：在长视频问答时给出与问题相关的一个或多个视频片段；以及面向长视频流的上下文键值缓存检索方法。个人主页：https://dszdsz.cn/。

主持人

饶珈源，上海交通大学二年级博士生，研究方向为计算机视觉、长视频理解、体育分析，个人主页 https://jyrao.github.io。

入群

欢迎加入NICE每周分享交流群，在群内与分享嘉宾和观众进行深入交流讨论，并且可第一时间收到后续NICE分享报告的通知。加群通过小助手认证，群内无广告。

深度学习自然语言处理

一个热衷于深度学习与NLP前沿技术的平台，期待在知识的殿堂与你相遇~

最新文章

聊聊PRM（过程奖励模型）

2024 年度总结 LLM System Research：过去半年的科研心路历程

强大推理背后的危机：PRMBench 揭示过程级奖励模型的潜在缺陷！

Virgo：类o1多模态大模型的初步探索

24届毕业生聊PhD就业，国内or国外、学术界or工业界or创业

清华团队靠强化学习让 7B 模型打败GPT-4o数学推理

博士生罢工、工资上涨、学术头秃：PI生存指南

[vLLM vs TensorRT-LLM]：动态序列长度场景对比

图解Megatron TP中的计算通信overlap

从infra的视角聊聊DeepSeek-V3

手写self-attention的四重境界 self-attention

o1类大模型的过度思考: 2+3=？

2024年RAG：回顾与展望

Building effective agents笔记

微软公布OpenAI闭源模型参数！4o-mini 8B！

NICE42期 | 语言模型不听话怎么办？关于格式忠实性的探索

评价deepseek v3：又一个相信自己比英伟达懂GPU计算并做到了的团队

DeepSeek-V3技术报告解读

《大语言模型》：人工智能时代的知识盛宴，大模型中文书籍震撼发售！

OpenAI-o3 与 Monte-Carlo 思想

NICE41期 | 大模型评估的新视角：理论指标创新与下游任务应用分享

让Agent"少说废话"！打造高效的LLM多智能体系统

游凯超：我与vLLM的2024，很Passion！

最新RAG综述：15种经典RAG框架综述（上）

最新RAG综述：15种经典RAG框架综述（下）

LLM实践--支线：分布式训练框架的编程基础

NICE40期 | 自动生成模型卡与数据卡：迈向负责任的人工智能

刘鹏飞老师组研发PC Agent，让 AI 替你熬夜做 PPT

LLM，一艘方向不对但积重难返的华丽游轮...

o1复现的一点点心得

深度学习工作：从追求 SoTA 到揭示新现象

大模型推理张量并行的4种模式

百度&人大：长文本LLM全排序能力新方法

212页PPT：大模型时代的具身智能

RWKV-7：极先进的大模型架构，长文本能力极强

今天Qwen2.5技术报告发布啦！

Anthropic: 预训练阶段引入人类反馈更安全

图解OpenRLHF中基于Ray的分布式训练流程

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

实践指南: hzwer大佬的模型优化与迭代策略

如何用一个统一的视角，分析RLHF下的各种算法？

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

只要捞"偏门"，篇篇都是顶会顶刊！

圆桌会 | 荣幸邀请到Meta、OSU、哈佛&MIT学者来分享Agent前沿~

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

模仿、探索与自我提升：慢思考推理系统的复现之路

大模型Infra王朝2024

今晚8:30，荣幸邀请到电影导演和LLM科学家一起聊聊对多模态的见解

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

如何增强大模型推理？Meta最新提出《大型概念模型》在句子表示空间中的语言建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉