为深入贯彻新时代人才强国、创新驱动发展、科教兴国战略,落实总书记关于“培养大批卓越工程师”的重要指示精神,聚焦新时代人才强国战略目标,黑龙江省计算机学会为提高计算领域研究生的专业素养和综合能力,高质量科研成果的培育,提高人才培养质量将于2025年1月6日通过线上和线下的形式,举办2024年数据科学与大数据高水平论文报告会。本次报告会由黑龙江省计算机学会主办,黑龙江省计算机学会数据科学与大数据技术专业委员会承办,哈尔滨工业大学海量数据计算研究中心、哈尔滨工程大学计算机科学与技术学院软件工程教学与研究中心、黑龙江省大数据科学与工程重点实验室、哈尔滨工程大学电子政务建模仿真国家工程实验室共同协办。报告会邀请到2024年度数据科学领域优秀论文作者为大家分享领域前沿进展,讨论未来方向。欢迎相关方向领域的老师及学生参加。
主办单位:
黑龙江省计算机学会(HLJCF)
承办单位:
HLJCF数据科学与大数据技术专业委员会
协办单位:
哈尔滨工程大学计算机科学与技术学院软件工程教学与研究中心哈尔滨工程大学电子政务建模仿真国家工程实验室
举办时间:
2025年1月6日09:00-12:00
线下地点:
哈尔滨工程大学21B4127室
线上方式:
腾讯会议号:563-835-917 访问密码:1766
日程安排:
| | |
| Description-Similarity Rules: Towards Flexible Feature Engineering for Entity Matching (ICDE 2025) | |
| MIMTrack: In-Context Tracking via Masked Image Modeling (AAAI 2025) | |
| An Unsupervised Learning Framework Combined with Heuristics for the Maximum Minimal Cut Problem (KDD 2024) | |
| MTVHunter: Smart Contracts Vulnerability detection based on Multi-Teacher Knowledge Translation (AAAI 2025) | |
| IntraMix: Intra-Class Mixup Generation for Accurate Labels and Neighbors (NeurIPS2024) | |
| SSDRec: Self-Augmented Sequence Denoising for Sequential Recommendation (ICDE2024) | |
报告会主席
主席:巢泽敏 哈尔滨工业大学助理教授/副研究员
简介:巢泽敏,2023年于哈尔滨工业大学获得博士学位,现就职于哈尔滨工业大学计算学部海量数据计算研究中心,CCF数据库专业委员会执行委员。主要研究方向:时间序列数据查询与数据挖掘算法,以及数据中心绿色节能计算关键技术。报告题目:Description-Similarity Rules: Towards Flexible Feature Engineering for Entity Matching (ICDE 2025)
报告人:唐亚锋,哈尔滨工业大学海量数据计算研究中心博士,导师是王宏志教授。
研究方向:数据质量管理、数据治理、自动机器学习。现有主要研究成果为:一种自动化、可解释的大规模数据实体识别方法,高效的实体特征选择规则挖掘算法。论文概述:实体匹配(EM)是数据集成中的一项重要任务。与基于深度学习的EM解决方案相比,基于树的机器学习模型计算效率更高,可解释性更强,更适用于现实世界的EM场景。然而,此类EM方法对所有属性使用固定的规则集进行特征选择。因此,它们需要高额的模型再训练成本以选择特征,并且很难针对不同的EM任务进行自定义。为解决这一问题,本文提出了一种基于描述相似度规则(DSR)的EM特征工程方法。DSR在传统的EM特征工程规则的基础上引入了不同的属性值分布度量和数据驱动的阈值设定。不幸的是,DSR搜索空间及其在线模型再训练成本都是指数级的。本文通过将模型再训练推到离线阶段,所提出的DSR集挖掘算法比基线算法快一个数量级,实现了秒级的自动选择。实验结果表明,DSR比现有特征工程方法的F1值平均提高了3.75%,同时在多个数据集上达到了最先进的EM性能。
报告题目:MIMTrack: In-Context Tracking via Masked Image Modeling (AAAI 2025)
报告人:聂国豪,哈尔滨工程大学计算机科学与技术学院软件系统团队博士,导师为王兴梅教授。博士四年级在读。
研究方向:视觉目标跟踪。研究兴趣为目标跟踪过程中的时空间关系建模。现有的主要研究工作有主要对基于生成式模型的目标跟踪技术。论文概述:针对传统跟踪方法在目标预测阶段可能引入的位置和规模偏移。MIMTrack将跟踪定义为结合上下文学习(In-context learning, ICL)的掩码图像建模(Masked Image Modeling, MIM)过程。设计一种目标图像,将目标边界框编码为与视频帧相同的图像表示,基于MIM过程,其他跟踪图像的上下文被用于重建遮蔽后的目标图像像素,从而将跟踪变换为统一RGB空间,自然对齐所有状态预测。实验结果表明,MIMTrack在多个基准数据集上领先的传统方法,显示了生成式目标跟踪框架的简单和有效性。
报告题目:An Unsupervised Learning Framework Combined with Heuristics for the Maximum Minimal Cut Problem (KDD 2024)
报告人:刘怀远,哈尔滨工业大学海量数据计算研究中心博士,导师是王宏志教授和杨东华副教授。
研究方向:人工智能增强的图上组合优化。目前针对最大极小割问题的高效求解算法进行了研究。现有的主要研究成果包括结合启发式的无监督学习算法、分层强化学习算法等。论文概述:最大最小割问题 (MMCP) 是一个NP-Hard组合优化 (CO) 问题,由于双连通性约束要求高且具有挑战性,因此并未受到太多关注。为了解决这些问题,本文提出了一种结合启发式方法的无监督学习框架用于 MMCP,可以提供有效且高质量的解决方案。无监督求解器受到松弛-舍入方法的启发,松弛解由图神经网络参数化,并明确写出 MMCP 的成本和惩罚,可以端到端地训练模型。一个关键的观察是每个解决方案至少对应一棵生成树。基于这一发现,利用通过添加结点实现树变换的启发式求解器来修复和提高无监督求解器的解质量。同时,在保证解决方案一致性的同时简化初始图,从而减少运行时间。
报告题目:MTVHunter: Smart Contracts Vulnerability detection based on Multi-Teacher Knowledge Translation (AAAI 2025)
报告人:孙国凯,哈尔滨工程大学计算机科学与技术学院博士,导师是张立国教授。
研究方向:智能合约安全,主要研究兴趣包括知识蒸馏,代码定位。目前针对智能合约的噪声消除和字节码语义补充进行了研究。现有的主要研究成果包括基于多教师知识迁移的智能合约漏洞检测。论文概述:鉴于在智能合约字节码漏洞检测中存在严重的噪声干扰和语义丢失的挑战,本文提出了融合指令降噪和语义补充的多教师网络框架。该框架包含一个两阶段学生网络,一个降噪教师和一个语义补充教师,通过“分而治之”的理念,在学生的各个阶段分别实现字节码降噪和语义补充。实验结果表明,与传统和基于深度学习的智能合约漏洞检测方法相比,该框架有效提高了漏洞检测效率;另外,本文从定性和定量的角度分别分析了降噪效果和语义补充效果,揭示了每一个教师模型的作用。
报告题目:IntraMix: Intra-Class Mixup Generation for Accurate Labels and Neighbors (NeurIPS2024)
报告人:郑晟赫,哈尔滨工业大学海量数据计算研究中心硕士生,导师是王宏志教授。
研究方向:神经结构搜索、图数据增强、模型融合。现有的主要研究成果有:课程对比学习神经预测器,图数据增强方法研究。论文概述:图神经网络(GNN)的核心思想是从数据标签中学习,并在节点的邻域内聚合信息,在各种任务中显示出出色的性能。然而,图中常见的挑战有两个方面:不够准确的标签和节点的有限邻居,导致GNN性能不佳。现有的图增强方法通常只解决这些挑战中的一个,且通常需要增加培训成本或依赖于过于简化或知识密集型的策略,限制了它们的泛化。为了以可泛化的方式同时解决图所面临的这两个挑战,我们提出了一种称为IntraMix的简洁的方法。考虑到Mixup与复杂图拓扑的不兼容性,IntraMix创新性地在同一类不准确的标记数据中使用Mixup,以最小的成本生成高质量的标记数据。此外,它还可以找到与生成的数据高置信度属于同类的数据作为它们的邻居,从而丰富图的邻域。IntraMix有效地解决了图所面临的两方面问题,并推翻了先前关于Mixup在节点分类任务中性能有限的观点。IntraMix是一种有理论保障的即插即用方法,可以很容易地应用于几乎所有GNN的节点分类任务。大量的实验证明了IntraMix在各种GNN和数据集上的有效性。报告题目:SSDRec: Self-Augmented Sequence Denoising for Sequential Recommendation (ICDE2024)
报告人:张持, 哈尔滨工程大学博士,导师为韩启龙教授。博士四年级在读。
研究方向:推荐系统。现有的主要研究工作包括会话数据的多方面的全局项目关系学习方法、序列数据的分层的项目不一致信号学习方法、多行为数据的降噪与提示调节方法等。在包括SIGIR,WWW,ICDE,KDD,AAAI,CIKM等高水平学术会议上发表或录用论文7篇。论文概述:在序列推荐场景中,用户序列中的噪声极易误导下游序列推荐模型,使模型所学的用户偏好不准确。现有的序列降噪方法通常认为借助序列自身的信息足以识别噪声。然而,对于现实中普遍存在的短期序列,使用现有方法可能产生过降噪和欠降噪问题,导致噪声识别的精度下降。为解决上述问题,我们提出了一种基于三阶段学习范式的SSDRec框架。在序列降噪之前执行显式的序列增强,从全局数据中选择合理的对象插入到目标序列中,最大程度减少对原始序列的扰动,丰富序列的可学习信息。在五个数据集上进行的大量实验表明,SSDRec优于最先进的降噪方法,并且可以灵活地应用于主流序列推荐模型。