FITEE|深圳大学何玉林、路璇等:一种用于不平衡学习分类的新型交叠最小化SMOTE算法

学术   科技   2024-10-15 19:29   浙江  

中文摘要:
合成少数类过采样技术(SMOTE)是不平衡学习领域的经典算法之一,用于减轻类别不平衡对构建分类器的影响。在过去20年中,有上百个基于SMOTE的变体算法被提出。SMOTE及其变体算法通过在原始样本空间中对少数类样本进行插补来平衡数据集,以减轻类别不平衡的不利影响。这种方法在许多情况下表现良好,但当合成样本落入类别之间的交叠区域时,分类器训练的复杂性会增加,进而影响分类器的泛化能力。为解决这一问题,本文提出一种基于交叠最小化的少数类样本生成算法(Overlapping Minimization SMOTEOM-SMOTE),用于解决二元不平衡分类问题。OM-SMOTE首先通过平衡样本编码和分类器泛化之间的权衡,将原始样本点映射到更加线性可分的样本空间。然后,OM-SMOTE采用一系列复杂的少数类样本点插补规则,使合成样本尽可能远离类别交叠的区域。本文基于32个真实不平衡数据集进行了大量实验,验证了OM-SMOTE算法的有效性。实验结果表明,相对于其他11种先进的基于SMOTE的过采样算法,OM-SMOTE生成的少数类样本点能显著提高朴素贝叶斯、支持向量机、决策树和逻辑回归等分类器的性能。这证明了OM-SMOTE支持训练高质量不平衡分类器的可行性。OM-SMOTE的实现在GitHub平台上https://github.com/luxuan123123/OM-SMOTE/)公开共享

关键词:
不平衡分类;合成少数类过采样技术;多数类样本;少数类样本;泛化能力;交叠最小化

作者:
何玉林1,2,路璇2Philippe FOURNIER-VIGER2,黄哲学1,2

  单位:

1人工智能与数字经济广东省实验室(深圳),中国深圳市,518107

2深圳大学计算机与软件学院,中国深圳市,518060


 本文引用格式:

Yulin HE, Xuan LU, Philippe FOURNIER-VIGER, Joshua Zhexue HUANG, 2024. A novel overlapping minimization SMOTE algorithm for imbalanced classification. Frontiers of Information Technology & Electronic Engineering, 25(9):1266-1281.
https://doi.org/10.1631/FITEE.2300278

本文精要导读:

扫描下方二维码,阅读全文:

热点文章

1. 潘云鹤院士 | 论视觉知识

2. 潘云鹤院士|视觉知识的五个基本问题
3. 潘云鹤院士 | 论视觉理解
4. 马毅、沈向洋等 | 论智能起源中的简约与自洽原则

5. 浙大杨易、庄越挺等 | 大数据人工智能下的多重知识表达:框架、应用及案例研究

6. 国防科大苏金树、赵宝康等 | 大规模高效网络计算中的网络技术发展趋势

7. 中科院自动化所叶佩军、王飞跃等 | 平行认知:面向人机交互与管理的混合智能

8. 中科院王飞跃、武大张俊等 | 人机互信的知识自动化与混合增强智能:复杂系统认知管控机制及其应用

9. 东南大学卢剑权等 | 多智能体系统的二分异步脉冲跟踪一致性

10. 国防科大达凯、西北工大李天成等 | 基于随机有限集的多传感器多目标跟踪研究进展

11. 兰州理工大学谢盈、马军等 | 神经元之间的相位同步和能量平衡

12. 东南大学温广辉等 | 智能电网中分布式经济调度研究进展:综述

13. 北大喻俊志等 | 基于改进YOLOv4的水下垃圾清理机器人视觉检测算法

14. 复旦大学周杰、张军平等 | ChatGPT:潜力、前景和局限

15. 北邮张平、许晓东、董辰、牛凯等 | 面向语义通信的模分多址技术
16. 中科院沈阳自动化所许驰、于海斌等 | 基于多智能体深度强化学习的工业无线网络端边协同资源分配
17. 中国空间技术研究院王玉莹、李劲东等 | 中长波红外探测技术空间应用进展
18. 华中科大肖人彬 | 群体智能的四个发展阶段

19. 国防科大陈东林、徐传福等 | FlowDNN:一种用于快速精确流场预测的物理启发深度神经网络

20. 北理工孟凯、陈晨、辛斌等 | MSSSA:一种针对全局优化问题的多策略增强型麻雀搜索算法

21. 华中师大黄卫芳、贾亚等 | 包含不同尺度子网络的模块化神经网络同步转换

22. 浙大罗月阳、张新民等 | 高炉炼铁过程数据驱动软测量技术研究综述

23. 清华大学刘瑜、李徵等 | 多智能体协作与博弈展望:挑战、技术和应用

24. 吉首大学叶绍强、周恺卿等 | 一种改进的和声搜索算法及其在权重模糊产生式规则获取中的应用

25. 陆军院士等 | 多智能体系统的组织化和体系化博弈

26. 悉尼大学林乐荃、高俊斌等 | 扩散模型在时间序列的应用综述

27. 浙大陈晓明等 | 卫星物联网:挑战、方案和发展趋势

28. 北大刘沛西、信通院江甲沫等 | 基于联邦边缘学习的梯度量化和带宽分配优化策略
29. 浙大张凤达、况琨、肖俊等 | 联邦无监督表示学习
30. 哈工程黄玉龙、张勇刚等 | 一种新型多样野值鲁棒卡尔曼滤波器





关于本刊

Frontiers of Information Technology & Electronic Engineering(简称FITEE,中文名《信息与电子工程前沿(英文)》,ISSN 2095-9184,CN 33-1389/TP)是信息电子类综合性英文学术月刊,SCI-E、EI收录,最新影响因子2.7,位于JCR Q2分区。前身为2010年创办的《浙江大学学报英文版C辑:计算机与电子》,2015年更为现名,现为中国工程院院刊信息与电子工程领域分刊。覆盖计算机、信息与通信、控制、电子、光学等领域。文章类型包括研究论文、综述、个人视点、评述等。现任主编为中国工程院院士潘云鹤、费爱国。实行国际同行评审制,初次转达意见一般在2~3个月内。文章一经录用将快速在线。

2019年,荣获中国科协等七部委推出的中国科技期刊卓越行动计划项目资助(梯队期刊)。2021~2022年,先后入选信息通信领域(中国通信学会组织评选)和计算领域(中国计算机学会组织评选)高质量科技期刊分级目录,均被列为最高的T1级别;入选中国计算机学会推荐国际学术会议和期刊目录-2022(交叉/综合/新兴)。2024年,入选《中国人工智能学会推荐国际学术会议和国际/国内期刊目录》(人工智能基础与综合领域,B类国际期刊)。


官网http://www.fitee.zjujournals.com

期刊Springer主页

http://www.springer.com/computer/journal/11714

投稿http://www.editorialmanager.com/zusc

邮发代号:32-324

地址:浙江省杭州市西湖区天目山路148号

电话:+86-571-88273162

邮箱:fitee@zju.edu.cn


加关注  ID: fitee_cae
本公众号为中国工程院院刊《信息与电子工程前沿(英文)》(SCI-E、EI检索期刊)官方微信,功能包括:传播期刊的学术文章;为刊物关联学人(读者、作者、评审人、编委,等)提供便捷服务;发布学术写作、评审、编辑、出版等相关资讯;介绍信息与电子工程领域学术人物、学术思想、学术成果,展示该领域科学研究前沿进展;为该领域海内外学者提供友好互动平台。

信息与电子工程前沿FITEE
传播中国工程院院刊《信息与电子工程前沿(英文)》(FITEE)的学术文章;为FITEE关联人群(作者、读者等)提供便捷服务;提供学术写作、出版等相关资讯;介绍信息与电子工程领域学术人物、学术思想、学术成果,展示该领域科学研究前沿进展。
 最新文章