转码研究课题-学员招募 | 多模态情感计算-自然交互场景下的情感识别与自然语言/视觉大模型的结合

文摘   2024-04-07 14:35   中国香港  

中国计算机学会(CCF)作为国内的权威评定机构,CCF推荐的高水平学术期刊/会议,是当下计算机领域对研究成果的主流参考标准之一,也被很多科研机构、高校、及大厂企业作为招聘标准。同时,因为计算机学科的特殊性,如学界和工业界联系非常紧密、技术迭代速度快,相比于录用周期长的期刊,高频率高质量且带有交流性质的顶级会议有非常高的认可度


此外,不仅限于CCF A/B/C类的划分体系,具有国际顶级期刊/会议的产出成果积累,在不同国家、院校和不同研究评价体系下都是具有绝对竞争优势的“硬通货”在竞争激烈的环境中,高价值助力🔺博士申请加分项🔺硕士申请&保研加分项🔺奖学金申请🔺转行&转专业项目积累🔺互联网大厂/高校研究型求职履历等等


“转码研究课题”系列也将一一解决学员们在转方向时的各项困扰!

📍高效补充基础、攻克技术阻碍

📍优化学习曲线、丰富实践经验

📍积累项目产出、增加研究成果

📍突破资源限制、获得前辈支持

换赛道转行-转码系列小班课题

“多模态情感计算”

自然交互场景下的情感识别
结合自然语言/视觉大模型的可能性探讨
[4大类研究方向+多种研究主题可自定]

2024·新课题招募
1V6授课班型+1V1课下答疑


导师介绍




高校任教
助理教授

现任大学助理教授,并获得计算机科学博士学位,研究方向主要为情感计算、人机交互。曾任日本国立理化学研究所研究员,东芝研发中心访问研究员。主持日本文部省科研基金课题两项,参与包括语音情感识别、多模态情感识别、情感语音生成、机器人情感交互等多项工作。


以第一作者发表SCI期刊 (情感计算和机器人相关Q1区刊物,最高影响因子10+) 及CCF A/B/C类学术会议论文多篇。并担任IEEE Transactions on Audio Speech and Language Processing, Expert Systems with Applications (SCI Q1 中科院计算机科学大类一区,兼领域Top期刊), AAAI (CCF A类), IJCAI (CCF A类), INTERSPEECH, ICASSP, IROS等审稿人。多项已授权国际发明专利。


过往学员指导案例

① ESWA-Expert Systems with Applications中稿发表,SCI Q1 中科院计算机科学大类一区,兼领域Top期刊

② AAAI 2024中稿发表,CCF A类推荐国际学术会议,自然语言处理领域中最具影响力的国际顶级会议之一;

③ ICCV 2023中稿发表,CCF A类推荐国际学术会议,世界公认三大计算机视觉顶级会议之一;

④ 其他如ICME 2024中稿发表,CCF B类推荐国际学术会议

A类备注说明:

CCF A类-AAAI,全称AAAI Conference on Artificial Intelligence

CCF A类-IJCAI,全称International Joint Conference on Artificial Intelligence

CCF A类-ICCV,全称International Conference on Computer Vision


课题简介


1
方向介绍

情感理解与识别因其在诸多交互场景下的可用性而获得的广泛关注,如客服评分、商品评价分析、市场情绪分析等单模态情感识别的应用。近年来,随着人工智能在日常交互场景中的普及,自然交互场景下的情感识别需求也在不断提升,如车内驾驶人情绪识别、家用机器人情绪监控、人机情感交互等。通常人的情绪变化对时序信息具备高度依赖性和瞬时性以及情感表达特征个人差异性等因素,使得自然交互场景下的可用情感识别难度较高。使用多模态信息(声音、视觉、文本)来进行高精度预测是一个较为有效的方法。


首先,该课题将由浅入深,讲解如何使用多模态信息来互补单模态间的短板,以此来提升跨人/跨场景的自然交互下的情感识别精度。同时,本课程将结合自然语言大模型和视觉大模型,讲解情感识别任务与其结合的可能性。


24种情感计算应用和用例参考

2
具体研究方向

1. 语音情感识别

  • 语音识别模型经典架构

  • 结合多任务、生成式架构和各类注意力机制的模型优化

  • 对话中信息流交互的语音情感识别

2. 文本情感识别

  • 基于预训练模型的文本处理

  • 结合大语言模型的对话文本情感分类

3.视觉情感识别

  • 多层级视觉特征提取的情感识别模型

  • 结合多任务、生成式架构和各类注意力机制的模型优化

  • 结合视觉大模型的情感分类

4. 多模态情感识别

  • 多模态信息交互的情感分类

  • 结合各类大模型的多模态情感分类


3
可能涉及的创新点与对应会议/期刊

参考信息如:“中国计算机学会推荐国际学术会议和期刊目录”


以上所列出的创新点与目标刊物作为范围参考,学员实际选题不限于以上所列出的内容,投递平台也可以选择其他意向顶级会议或期刊,欢迎提出想法与导师交流


课程时长与形式


课程人数

全程由本期导师进行课上讲授与课下答疑、带领学员完成研究项目与学术论文。


章节1-章节14

6位(及6位以内)学员/班,师生小班化实时指导,并配有1V1答疑群;涵盖技术学习、课后练习、文献整理、细化定题、模型实现、实验进阶、及论文整体初稿;


章节14-可继续完善实验/论文

1位学员/班,即后续为师生1对1指导;对于在以上14个章节后,仍有实验或论文进度未完成的学员,可以在1V1答疑群中继续完善。

课程周期

章节1-章节14

结合组内学员的时间安排,每周固定指导时间,按1个章节/周的进度,共14周完成14个章节,即该阶段周期为3.5个月;


章节14-可继续完善实验/论文

学员根据个人完成进度,与导师反馈问题、提交阶段性稿件并完成最终的论文定稿。结合学员自身可投入的时间量、项目难度等,可在1-2个月内完成,该阶段最长可至2.5个月。

适合学员

在计算机学科、数据科学、自动化、人机交互、心理学等方向有学习或研究经验的学员;


对于非以上所列背景的学员(如转方向/转专业),可根据“课题简介”在课前调研当下的技术与应用情况;


不限于在校生或在职人员,但个人时间分配情况需尽力跟上课程节奏。


MIT Media lab-Affective Computing 情感计算组的过往项


课程安排


实际课程安排和大纲将在开课后结合当期学员情况稍作调整。整体分为4个阶段:

Step1. 科研基础搭建:构建知识体系,建立思维逻辑;

Step2. 强化理论与实践:结合理论学习及代码实践,由学到做,夯实基础;

Step3. 深化拓展创新能力;学习baseline逻辑,指导baseline跑通与改进;

Step4. 前沿掌握精通;掌握科研前沿算法及理论热点,完善知识面结构。


章节1

课程先导: 多模态介绍和情感数据集


1) 视觉预处理+模型代码实现。


课后任务模型实现。

章节2

基础补充: 相关深度学习方法及特征提取


1) 多模态模型代码实现。

课后任务:模型实现。

章节3

语音模态情感识别实现


——单模态baseline实现+idea讨论

1学习语音模态的情感识别方法;

2) 熟悉该任务目前进展及所面临问题;

3) 文献综述初尝试:语音情感识别方向。

课后任务:语音情感识别文献小综述。

章节4

文本模态情感识别实现


——单模态baseline实现+idea讨论

1学习文本模态的情感识别方法;

2) 熟悉该任务目前进展及所面临问题;

3) 文献综述初尝试:文本情感识别方向。


课后任务:文本情感识别文献小综述。

章节5

视觉模态情感识别实现


——单模态baseline实现+idea讨论

1学习视觉模态(表情、动作等)的情感识别方法;

2) 熟悉该任务目前进展及所面临问题;

3) 文献综述初尝试:视觉情感识别方向。

课后任务:视觉情感识别文献小综述。

章节6

多模态情感识别实现


——单模态baseline实现+idea讨论

1) 学习多模态情感特征的融合方法;

2) 熟悉多模态融合的目前进展及所面临问题;

3) 文献综述初尝试:多模态情感特征融合。

课后任务:多模态情感特征融合文献小综述。

The picture compares emotion recognition results from single and multiple perspectives, respectively. They illustrate the necessity of multiview: integrating multiple views introduces more interactive information than a single view. The emotions obtained under each view may differ, so choosing an appropriate view is beneficial to model analysis.


(a) The framework of the attention-based interactive multiview memory network. (b) The attention block for updating the test utterance. (c) Multi-hop Write-Read scheme. The last hop of the test corpus representation 𝑈𝑡 (𝑅+1) is used to predict emotion.


The interactive learning process of the multiview attention network. It is divided into two parts: text–audio attention fusion networks and video–audio attention fusion networks, in which the two parts obtain video-guided text–audio features and text-guided video–audio features in the multiview layer, respectively, to achieve the purpose of interaction between different modalities.

可滑动翻阅,图片来源:Wen, J., Jiang, D., Tu, G., Liu, C., & Cambria, E. (2023). Dynamic interactive multiview memory network for emotion recognition in conversation. Information Fusion91, 123-133.


章节7

语言模态情感识别论文介绍


1基于图网络/生成式模型的情感识别模型实现。

章节8

视觉模态情感识别论文介绍


1实验问题交流及答疑;

2) 论文Experiment+Results+Discussion部分撰写要点。

课后任务:论文草稿(整合之前的综述、实验报告、Introduction等)。

章节9

文本模态情感识别论文介绍


1) 介绍情感计算子领域相关工作。

章节10

多模态情感识别论文介绍

1) 指导学员论文选会,并针对具体的论文问题进行解释说明;

2) 展示ppt优化、论文内容指导、答辩指导;

3) 投稿建议。


课后任务:成果提交(展示用ppt+论文)。

章节11

科研指导:实验进阶


1基于图网络/生成式模型的情感识别模型实现。

章节12

科研指导:实验进展评估及论文写作方法


1实验问题交流及答疑;

2) 论文Experiment+Results+Discussion部分撰写要点。

课后任务:论文草稿(整合之前的综述、实验报告、Introduction等)。

章节13

视野拓展


1) 介绍情感计算子领域相关工作。

章节14

多模态情感识别论文介绍

1) 指导学员论文选会,并针对具体的论文问题进行解释说明;

2) 展示ppt优化、论文内容指导、答辩指导;

3) 投稿建议。


课后任务:成果提交(展示用ppt+论文)。

补充+

课后继续深化项目、完善论文


对于在以上14个章节后,仍有实验或论文进度未完成的学员,可以在1V1答疑群中继续完善。


左:Geneva emotion wheel;右:Various sources of physiological data from the nervous system


Summary of data collection


Fixed-sized non-overlapping sliding window


Overall architecture of emotion recognition model


Main characteristics of the Swin Transformer


Predicted area performance across different modality datasets in the emotion recognition model


Practical application to a smart home environment

可滑动翻阅,图片来源:Kim, H., & Hong, T. (2024). Enhancing emotion recognition using multimodal fusion of physiological, environmental, personal data. Expert Systems with Applications, 123723.


课程要求


熟悉Python基本语法,了解面向对象的基本思想,掌握基本的debug方法;

熟悉Pytorch/Tensorflow构建和训练模型的基本方法;

具备深度学习,神经网络基础;

对于没有以上基础的学员,课前可自学补充,或安排前置课程。


课程收获


学习经典前沿论文;掌握算法原理和实现;了解不同算法的优劣势;

深入研究领域创新点;

增强Coding能力;

获得“万能”写作大纲以及投稿建议;

完成论文初稿和完稿(投稿区位可结合学员个人目标,学员独作)。


课程亮点


基于各类实用的ideas,让不同能力的学员都能有一定的科研产出成果。课程中也将从领域经典论文切入分析未做好及还未做的要点,并转化为实际技术,构成最终论文产出;

在课程引导下会基于相关研究方向和其他子方向的ideas,强调知识迁移;

课程力求避开繁琐的数学公式和过于空洞的原理,结合近两年顶级学术会议和顶级期刊中结合现实问题的角度,利用故事驱动模型;

课后1V1群有问必答,结合案例、文字、语音条等形式、或利用额外的线上meeting高效率解决学员们的疑问。



换赛道转行-1V1科研论文指导

定制专属研究课题与论文规划

✔ 开新题从0-1指导产出论文并发表

✔ 或基于学员现有项目/论文初稿指导二次修改并发表

(如课程论文/项目、毕业论文/项目)

除了小组班型,对1V1定制科研论文指导感兴趣的学员,也可以了解目前可进行排课的导师情况,并定制专属课题。更多指导方案可与文后小助手沟通(Dr.Research)。


CCF A/B/C分类可参考:“中国计算机学会推荐国际学术会议和期刊目录”

 导师1. Top3高校计算机科学博士

【整体介绍】

博士期间研究方向集中于NLP自然语言处理方向,主要研究方向为文本数据挖掘,知识图谱,推荐系统等。目前于国内C9高校担任研究员,读博期间曾于阿里巴巴、美团等公司进行算法研究实习。主要从事数据挖掘、自然语言处理、大模型推理优化等方向研究,在情感分析、实体抽取、实体对齐、领域自适应、多模态摘要、多模态情感分析等方向均有相关的科研产出。在人工智能领域的国际会议/期刊共发表29篇论文,其中顶级学术会议与顶级期刊共20余篇,如包括KDD(A类),SIGIR(A类),ACL(A类),WWW(A类),AAAI(A类),IJCAI(A类),IEEE TKDE(SCI Q1 中科院二区),ACMTOIS(SCI Q2 中科院二区),TKDD等。并担任AAAI,IJCAI,WWW,ACL,KDD,SIGIR,EMNLP(B类)等20余个顶级学术会议的审稿人。


【指导经验】

曾指导学员于AAAI(A类),IJCAI(A类),WWW(A类),ACL(A类),KDD(A类),SIGIR(A类),EMNLP(B类)等顶级会议共发表20余篇论文,当下学员在投共10余篇论文。

【指导方向】

NLP自然语言处理/AI人工智能方向:大语言模型,情感分析,文本摘要生成,问答/对话系统。

【指导区位】

CCF A类 / SCI一区及以下
 导师2. Top2高校计算机博士

【整体介绍】

博士期间研究方向集中于机器学习,计算机视觉,2D/3D AIGC,生成模型,多模态大模型。于Apple担任算法工程师,负责 AIGC相关工作。曾获得国家奖学金。以第一作者发表的论文被国际专家广泛认可,获得CVPR和KDD Oral提名等。在计算机视觉和人工智能顶级国际会议/期刊共发表5篇论文,包括CVPR(A类),KDD(A类),ICLR等。并担任CVPR(A类),ICCV(A类),ECCV(A类),此三者被誉为世界公认三大顶级计算机视觉会议;ICML(A类),NeurlPS(A类)等审稿人。


【指导经验】

曾指导学员于CVPR(A类),ICLR会议发表3篇论文,当下学员在投共2篇论文。

【指导方向】

计算机视觉,三维计算机视觉(NeRF等),机器学习,2D/3D AIGC(文生图,文生视频,文生3D等),Diffusion等生成模型,多模态模型。

【指导区位】

CCF A类 / SCI一区
 导师3. 北美Top10应用数学博士

【整体介绍】

同为北美互联网大厂研究员。博士期间为计算机视觉与优化,人工智能交叉方向。过去五年累计发表论文15篇,其中包含CCF-A类13篇,如CVPR(A类),NeurIPS(A类),ICML(A类),ICLR,其中作为第一作者共6篇,并担任CVPR,NeurlPS,ICML,ECCV(A类),ICCV(A类),ECML(B类),ICLR,AISTATS等审稿人数十次。


【指导经验】

近两年指导博士生及大厂实习生共发表5篇顶级会议论文,包括NeurIPS(A类),CVPR(A类),ICLR等计算机顶级学术会议。

【指导方向】

深度学习视觉方向,扩散模型,各类图像生成任务(超分、复原、补图、扩图等)以及相应高效设计与训练策略。

【指导区位】

CCF A类 / CCF B类

【特殊说明】

北京时间每周四、每周五上午9-12点可以排课

 导师4. QS全球Top10高校计算机博士(在读)
【整体介绍】
主要研究方向为数据导向的机器学习,联邦学习;曾于CMU卡内基梅隆大学与UC Berkeley加州大学伯克利分校参与访学与合作研究经历,具体如机器学习研究,联邦学习,多智能体机器学习系统的理论与实践。曾在商汤和蚂蚁均任职过算法实习岗,从事机器学习算法研究与实现。在ICML(A类),NeurIPS(A类),AAAI(A类),IJCAI(A类)等机器学习和人工智能顶级学术会议发表11篇论文,其中作为第一作者/共同第一作者共7篇,作为通讯作者共2篇。担任ICML,NeurIPS,ICLR,AAAI,IJCAI审稿人。Google Scholar引用累计400+;并获得IJCAI最佳论文,NeurlPS优秀审稿人2次,ICML优秀审稿人1次。

【指导经验】
曾指导学员于ICML(A类)发表2篇论文,AAAI(A类)发表1篇论文,NeurIPS(A类)发表1篇论文。

【指导方向】
机器学习/人工智能方向:机器学习理论,可信人工智能,鲁棒性,可解释性,公平性,多智能体系统,联邦学习,大模型/生成模型的各个研究方向。

【指导区位】
CCF A类

 导师5. 中国科学院人工智能博士

【整体介绍】

博士期间研究方向为推荐系统,信息检索方向。主要研究集中于跨域推荐,序列推荐,图推荐。在信息检索/数据挖掘领域的顶级会议/期刊如KDD(A类),SIGIR(A类),TOIS(A类)等发表8篇论文,其中作为第一作者共5篇。曾在字节跳动与腾讯担任算法实习生并具有真实业界实践经验。


【指导经验】

曾指导学员于KDD(A类),CIKM(B类)等学术会议发表3篇论文。

【指导方向】

推荐系统:包括序列推荐,跨越推荐,推荐公平性,图神经网络和图推荐等。

【指导区位】

CCF A类 / SCI一区及以下

 导师6Top3高校计算机科学博士

【整体介绍】

博士期间研究方向集中于计算机视觉,多模态学习,医学人工智能等。于互联网大厂担任算法工程师,主要从事 AI视觉,多模态方向的科研向研究。GitHub Star累计超过1k。以第一作者发表的论文被国际专家广泛认可,获得会议Oral四篇。在计算机视觉和人工智能顶级国际会议/期刊共发表9篇论文(其中第一作者共7篇),包括CVPR(A类),ICCV(A类),NeurIPS(A类),AAAI(A类),TPAMI(A类),MICCAI(B类)。并担任CVPR,ICCV,ECCV的审稿人,此三者被誉为世界公认三大顶级计算机视觉会议;以及TPAMI,IJCV(A类),ICML,NeurIPS,MICCAI等审稿人。


【指导经验】

曾指导学员于CCF A/B会议,SCI 一/二区发表4篇论文,当下学员在投共4篇论文。

【指导方向】

1) 计算机视觉方向:分割、检测算法创新和提点;
2) 多模态方向:大语言模型的推理和应用,指代性检测及分割,visual grounding等;
3) 医学人工智能方向:医疗影像的处理和分析,多模态医学数据的联合预测,计算机辅助诊断。

【指导区位】

CCF A类 / SCI一区及以下

 导师7. 国内Top985计算机博士

【整体介绍】

博士期间研究方向集中于计算机视觉领域,具体包括遥感目标检测与识别,神经网络压缩,嵌入式端人工智能模型部署等。已发表11篇论文,其中IET等国际领域顶级学术会议共3篇,以及IEEE TGRS(IEEE Transactions on Geoscience and Remote Sensing)、IEEE GRSL(IEEE Geoscience and Remote Sensing Letters)等顶级期刊论文共8篇,发表ESI计算机科学领域前1%高被引论文1篇。担任IEEE TGRS、IEEE GRSL、Remote Sensing等多个期刊审稿人。曾获得第八届中国国际“互联网+”创新大赛全国总决赛金奖(冠军)。


【指导经验】

曾指导学员于Remote Sensing(SCI Q1中科院二区)发表3篇论文,IEEE GRSL(SCI Q1中科院三区)发表2篇论文,IEEE TGRS(SCI Q1中科院一区)发表1篇论文。

【指导方向】

遥感目标检测与识别,目标分割,神经网络压缩

【指导区位】

SCI一区及以下

……更多1V1科研论文导师,有待继续更新


声明:本文所用图片源自于网络,相关版权归原作者所有

对课程感兴趣的同学,可在文后联系标框的小助手
"Dr.Research",微信号:Dr-research779




博士交流 | 学术规划 | 资讯分享 | 科研提升 | 申请经验

TechArt Research学究科研社,专注于建筑|城市|景观|交互|艺术|工程|计算机|机器人等跨学科领域的学术交流与教学合作。自2019年由Cambridge剑桥大学、UCL伦敦大学学院、MIT麻省理工学院、Harvard哈佛大学等多位名校学者共同创立品牌。持续汇聚美国藤校、英国G5等海内外名校博士/博士后/讲师/教授,研发前沿教学模式及课题内容,竭力为热爱学术的学员们带来优质的科研资源、创造得天独厚的教育空间。


TechArt将继续分享前沿学术知识与优质科研资源,为热爱学术的小伙伴们提供满满福利!


更多资讯/项目/服务详情
可长按二维码添加学究科研社的学术顾问进行微信预约


TechArt学究科研社
TechArt专注于建筑|城市|交互|艺术|人文|工程|计算机|机器人等跨学科的学术交流合作。我们不断聚集海内外知名学府的博士、教授及工业界专家等,研发创新的教学内容,为学员们提供硕士留学、博士申请、科研产出、工业实践等多方面的咨询服务。
 最新文章