中国计算机学会(CCF)作为国内的权威评定机构,CCF推荐的高水平学术期刊/会议,是当下计算机领域对研究成果的主流参考标准之一,也被很多科研机构、高校、及大厂企业作为招聘标准。同时,因为计算机学科的特殊性,如学界和工业界联系非常紧密、技术迭代速度快,相比于录用周期长的期刊,高频率高质量且带有交流性质的顶级会议有非常高的认可度。
此外,不仅限于CCF A/B/C类的划分体系,具有国际顶级期刊/会议的产出成果积累,在不同国家、院校和不同研究评价体系下都是具有绝对竞争优势的“硬通货”;在竞争激烈的环境中,高价值助力🔺博士申请加分项🔺硕士申请&保研加分项🔺奖学金申请🔺转行&转专业项目积累🔺互联网大厂/高校研究型求职履历等等。
“转码研究课题”系列也将一一解决学员们在转方向时的各项困扰!
📍高效补充基础、攻克技术阻碍
📍优化学习曲线、丰富实践经验
📍积累项目产出、增加研究成果
📍突破资源限制、获得前辈支持
现任大学助理教授,并获得计算机科学博士学位,研究方向主要为情感计算、人机交互。曾任日本国立理化学研究所研究员,东芝研发中心访问研究员。主持日本文部省科研基金课题两项,参与包括语音情感识别、多模态情感识别、情感语音生成、机器人情感交互等多项工作。
以第一作者发表SCI期刊 (情感计算和机器人相关Q1区刊物,最高影响因子10+) 及CCF A/B/C类学术会议论文多篇。并担任IEEE Transactions on Audio Speech and Language Processing, Expert Systems with Applications (SCI Q1 中科院计算机科学大类一区,兼领域Top期刊), AAAI (CCF A类), IJCAI (CCF A类), INTERSPEECH, ICASSP, IROS等审稿人。多项已授权国际发明专利。
过往学员指导案例:
① ESWA-Expert Systems with Applications中稿发表,SCI Q1 中科院计算机科学大类一区,兼领域Top期刊;
② AAAI 2024中稿发表,CCF A类推荐国际学术会议,自然语言处理领域中最具影响力的国际顶级会议之一;
③ ICCV 2023中稿发表,CCF A类推荐国际学术会议,世界公认三大计算机视觉顶级会议之一;
④ 其他如ICME 2024中稿发表,CCF B类推荐国际学术会议。
A类备注说明:
CCF A类-AAAI,全称AAAI Conference on Artificial Intelligence
CCF A类-IJCAI,全称International Joint Conference on Artificial Intelligence
CCF A类-ICCV,全称International Conference on Computer Vision
情感理解与识别因其在诸多交互场景下的可用性而获得的广泛关注,如客服评分、商品评价分析、市场情绪分析等单模态情感识别的应用。近年来,随着人工智能在日常交互场景中的普及,自然交互场景下的情感识别需求也在不断提升,如车内驾驶人情绪识别、家用机器人情绪监控、人机情感交互等。通常人的情绪变化对时序信息具备高度依赖性和瞬时性以及情感表达特征个人差异性等因素,使得自然交互场景下的可用情感识别难度较高。使用多模态信息(声音、视觉、文本)来进行高精度预测是一个较为有效的方法。
首先,该课题将由浅入深,讲解如何使用多模态信息来互补单模态间的短板,以此来提升跨人/跨场景的自然交互下的情感识别精度。同时,本课程将结合自然语言大模型和视觉大模型,讲解情感识别任务与其结合的可能性。
24种情感计算应用和用例参考
1. 语音情感识别
语音识别模型经典架构
结合多任务、生成式架构和各类注意力机制的模型优化
对话中信息流交互的语音情感识别
2. 文本情感识别
基于预训练模型的文本处理
结合大语言模型的对话文本情感分类
3.视觉情感识别
多层级视觉特征提取的情感识别模型
结合多任务、生成式架构和各类注意力机制的模型优化
结合视觉大模型的情感分类
4. 多模态情感识别
多模态信息交互的情感分类
结合各类大模型的多模态情感分类
参考信息如:“中国计算机学会推荐国际学术会议和期刊目录”
以上所列出的创新点与目标刊物作为范围参考,学员实际选题不限于以上所列出的内容,投递平台也可以选择其他意向顶级会议或期刊,欢迎提出想法与导师交流
全程由本期导师进行课上讲授与课下答疑、带领学员完成研究项目与学术论文。
章节1-章节14:
6位(及6位以内)学员/班,师生小班化实时指导,并配有1V1答疑群;涵盖技术学习、课后练习、文献整理、细化定题、模型实现、实验进阶、及论文整体初稿;
章节14-可继续完善实验/论文:
1位学员/班,即后续为师生1对1指导;对于在以上14个章节后,仍有实验或论文进度未完成的学员,可以在1V1答疑群中继续完善。
章节1-章节14:
结合组内学员的时间安排,每周固定指导时间,按1个章节/周的进度,共14周完成14个章节,即该阶段周期为3.5个月;
章节14-可继续完善实验/论文:
学员根据个人完成进度,与导师反馈问题、提交阶段性稿件并完成最终的论文定稿。结合学员自身可投入的时间量、项目难度等,可在1-2个月内完成,该阶段最长可至2.5个月。
在计算机学科、数据科学、自动化、人机交互、心理学等方向有学习或研究经验的学员;
对于非以上所列背景的学员(如转方向/转专业),可根据“课题简介”在课前调研当下的技术与应用情况;
不限于在校生或在职人员,但个人时间分配情况需尽力跟上课程节奏。
MIT Media lab-Affective Computing 情感计算组的过往项目
实际课程安排和大纲将在开课后结合当期学员情况稍作调整。整体分为4个阶段:
Step1. 科研基础搭建:构建知识体系,建立思维逻辑;
Step2. 强化理论与实践:结合理论学习及代码实践,由学到做,夯实基础;
Step3. 深化拓展创新能力;学习baseline逻辑,指导baseline跑通与改进;
Step4. 前沿掌握精通;掌握科研前沿算法及理论热点,完善知识面结构。
课程先导: 多模态介绍和情感数据集
1) 视觉预处理+模型代码实现。
课后任务:模型实现。
基础补充: 相关深度学习方法及特征提取
1) 多模态模型代码实现。
课后任务:模型实现。
语音模态情感识别实现
——单模态baseline实现+idea讨论
1) 学习语音模态的情感识别方法;
2) 熟悉该任务目前进展及所面临问题;
3) 文献综述初尝试:语音情感识别方向。
课后任务:语音情感识别文献小综述。
文本模态情感识别实现
——单模态baseline实现+idea讨论
1) 学习文本模态的情感识别方法;
2) 熟悉该任务目前进展及所面临问题;
3) 文献综述初尝试:文本情感识别方向。
课后任务:文本情感识别文献小综述。
视觉模态情感识别实现
——单模态baseline实现+idea讨论
1) 学习视觉模态(表情、动作等)的情感识别方法;
2) 熟悉该任务目前进展及所面临问题;
3) 文献综述初尝试:视觉情感识别方向。
课后任务:视觉情感识别文献小综述。
多模态情感识别实现
——单模态baseline实现+idea讨论
1) 学习多模态情感特征的融合方法;
2) 熟悉多模态融合的目前进展及所面临问题;
3) 文献综述初尝试:多模态情感特征融合。
课后任务:多模态情感特征融合文献小综述。
The picture compares emotion recognition results from single and multiple perspectives, respectively. They illustrate the necessity of multiview: integrating multiple views introduces more interactive information than a single view. The emotions obtained under each view may differ, so choosing an appropriate view is beneficial to model analysis.
(a) The framework of the attention-based interactive multiview memory network. (b) The attention block for updating the test utterance. (c) Multi-hop Write-Read scheme. The last hop of the test corpus representation 𝑈𝑡 (𝑅+1) is used to predict emotion.
The interactive learning process of the multiview attention network. It is divided into two parts: text–audio attention fusion networks and video–audio attention fusion networks, in which the two parts obtain video-guided text–audio features and text-guided video–audio features in the multiview layer, respectively, to achieve the purpose of interaction between different modalities.
可滑动翻阅,图片来源:Wen, J., Jiang, D., Tu, G., Liu, C., & Cambria, E. (2023). Dynamic interactive multiview memory network for emotion recognition in conversation. Information Fusion, 91, 123-133.
语言模态情感识别论文介绍
1) 基于图网络/生成式模型的情感识别模型实现。
视觉模态情感识别论文介绍
1) 实验问题交流及答疑;
2) 论文Experiment+Results+Discussion部分撰写要点。
课后任务:论文草稿(整合之前的综述、实验报告、Introduction等)。
文本模态情感识别论文介绍
1) 介绍情感计算子领域相关工作。
多模态情感识别论文介绍
1) 指导学员论文选会,并针对具体的论文问题进行解释说明;
2) 展示ppt优化、论文内容指导、答辩指导;
3) 投稿建议。
课后任务:成果提交(展示用ppt+论文)。
科研指导:实验进阶
1) 基于图网络/生成式模型的情感识别模型实现。
科研指导:实验进展评估及论文写作方法
1) 实验问题交流及答疑;
2) 论文Experiment+Results+Discussion部分撰写要点。
课后任务:论文草稿(整合之前的综述、实验报告、Introduction等)。
视野拓展
1) 介绍情感计算子领域相关工作。
多模态情感识别论文介绍
1) 指导学员论文选会,并针对具体的论文问题进行解释说明;
2) 展示ppt优化、论文内容指导、答辩指导;
3) 投稿建议。
课后任务:成果提交(展示用ppt+论文)。
课后继续深化项目、完善论文
对于在以上14个章节后,仍有实验或论文进度未完成的学员,可以在1V1答疑群中继续完善。
左:Geneva emotion wheel;右:Various sources of physiological data from the nervous system
Summary of data collection
Fixed-sized non-overlapping sliding window
Overall architecture of emotion recognition model
Main characteristics of the Swin Transformer
Predicted area performance across different modality datasets in the emotion recognition model
Practical application to a smart home environment
可滑动翻阅,图片来源:Kim, H., & Hong, T. (2024). Enhancing emotion recognition using multimodal fusion of physiological, environmental, personal data. Expert Systems with Applications, 123723.
熟悉Python基本语法,了解面向对象的基本思想,掌握基本的debug方法;
熟悉Pytorch/Tensorflow构建和训练模型的基本方法;
具备深度学习,神经网络基础;
对于没有以上基础的学员,课前可自学补充,或安排前置课程。
学习经典前沿论文;掌握算法原理和实现;了解不同算法的优劣势;
深入研究领域创新点;
增强Coding能力;
获得“万能”写作大纲以及投稿建议;
完成论文初稿和完稿(投稿区位可结合学员个人目标,学员独作)。
基于各类实用的ideas,让不同能力的学员都能有一定的科研产出成果。课程中也将从领域经典论文切入分析未做好及还未做的要点,并转化为实际技术,构成最终论文产出;
在课程引导下会基于相关研究方向和其他子方向的ideas,强调知识迁移;
课程力求避开繁琐的数学公式和过于空洞的原理,结合近两年顶级学术会议和顶级期刊中结合现实问题的角度,利用故事驱动模型;
课后1V1群有问必答,结合案例、文字、语音条等形式、或利用额外的线上meeting高效率解决学员们的疑问。
✔ 开新题从0-1指导产出论文并发表
✔ 或基于学员现有项目/论文初稿指导二次修改并发表
(如课程论文/项目、毕业论文/项目)
除了小组班型,对1V1定制科研论文指导感兴趣的学员,也可以了解目前可进行排课的导师情况,并定制专属课题。更多指导方案可与文后小助手沟通(Dr.Research)。
CCF A/B/C分类可参考:“中国计算机学会推荐国际学术会议和期刊目录”
【整体介绍】
【指导经验】
【指导方向】
【指导区位】
【整体介绍】
【指导经验】
【指导方向】
【指导区位】
【整体介绍】
【指导经验】
【指导方向】
【指导区位】
【特殊说明】
∨
∨
【整体介绍】
【指导经验】
【指导方向】
【指导区位】
∨
【整体介绍】
【指导经验】
【指导方向】
【指导区位】
∨
【整体介绍】
【指导经验】
【指导方向】
【指导区位】
……更多1V1科研论文导师,有待继续更新
声明:本文所用图片源自于网络,相关版权归原作者所有
博士交流 | 学术规划 | 资讯分享 | 科研提升 | 申请经验
TechArt Research学究科研社,专注于建筑|城市|景观|交互|艺术|工程|计算机|机器人等跨学科领域的学术交流与教学合作。自2019年由Cambridge剑桥大学、UCL伦敦大学学院、MIT麻省理工学院、Harvard哈佛大学等多位名校学者共同创立品牌。持续汇聚美国藤校、英国G5等海内外名校博士/博士后/讲师/教授,研发前沿教学模式及课题内容,竭力为热爱学术的学员们带来优质的科研资源、创造得天独厚的教育空间。
TechArt将继续分享前沿学术知识与优质科研资源,为热爱学术的小伙伴们提供满满福利!