首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
工业数据分析竞赛的那些事儿
科技
2024-06-19 19:25
北京
数据分析的竞赛大概分几种典型类别?
从赛事组织的角度,组织这场比赛的初衷不同,就决定用什么样的形式来设计这场比赛。
第一类,创意赛,适合探索一些新的技术领域,还没有特定的场景和数据,又需要有一些新的想法涌现。
创意赛是规定一个新的题目,需要结合行业知识和企业访谈去找新的解决方案,考核重点是大家能不能把一个具体行业问题巧妙解决,而不在算法。最后提交形式是一个报告或者报告衍生的一些视频,包括POC演示系统等。典型问题例如:大模型如何结合你的行业需求落地应用?如何借鉴其他行业的工业互联网经验,对你所在的产业带来价值?
第二类,有相应的技术得到了一定程度的运用,就可以做成解决方案赛。一般针对一个现实问题,给一些领域限定,比如在设计、智能制造或者其他,大家结合企业的实践和自己的想法,基于过去几年的沉淀再提升和总结,提出一个解决方案,最后评估可行性和可复制性。
第三类,有一定的场景和数据积累,对结果也有一定的量化目标,就可以考虑算法赛,尝试解决一个现实问题。比如背包问题,问题明确,甚至有标准答案,也有边界条件,需要提交一个结果。这种类型的统称为ACM赛事,典型赛事例如KDD。有的ACM算法赛会考核在一个很短的约定时间内提交结果,考核能不能运行,运行效率如何,能不能编译,给你随机出一个输入,你能不能算出来。
工业数据分析挖掘的价值,对时效性、对环境的依赖各有侧重。国内竞赛为了保证算法可用,一般还要求代码,但由于大家用的环境和版本不一样,并不严格要求代码一定能运行,或者说并不要求在指定的时间内跑出来,主要是看提交结果。
第四类,为了促进领域的技术研究,做open dataset赛。没有规定时间,大家在同一个地方公平测试,参与打榜,后来者可以在前人的肩膀上进一步研究,也可以知道这种算法在什么情况下有效没效,促进整个研究生态的发展。
其实工业数据分析竞赛一方面提供有限时间内的竞技,另一方面,赛题数据集本身也可以成为供大家继续研究的基础,竞赛之后还可以继续演进,做研究发论文,也可以把它当成一个案例练习。
以算法赛为例,从赛事组织的角度看,设计竞赛有哪些考虑因素?
首先要公平性,工业数据竞赛要对高校或者非本行业的人公平,不能出一个水电的题目就只有水电行业的人能得高分,非水电的人就差很多。机理不能太深,一般出题的时候会提供很多与解题相关的行业参考文献,把领域专家的知识都提前公布出来,让大家在一个起跑线公平竞争。
第二要有可区分性,得分要拉得开差距,又不能出现断崖式的差距。我们2017年参加PHM竞赛的时候,做高铁转向架的故障诊断,把机理和数据巧妙结合之后,按照原始排名,我们高出其他团队十几分,即便最后一个报告不交,都能得第一。后来赛会被迫调整了两个子问题中第二个问题的权重。第一名和第二名不能差那么多。
第三,对工业数据分析竞赛来说,数据的预处理也很关键。
企业一般喜欢出故障诊断、价格预测、需求预测类的题目,最开始要去准备相应场景下的原始数据集,做一些相应的标注以及脱敏处理。一方面数据比较敏感,另一方面也是为了公平性。之前就有一年我们联合湖南电网出的水流量预测的题目,湖南电网这个名字一出来,有人可能就沿着地图去找旗下的水电站,对照历史的真实数据,特别是水利专业院校的会有先天优势,我们必须做数据处理,避免参赛选手动歪心思。
另外,国外好多竞赛的数据集出现过和预测结果高相关的量,一旦线性相关达到0.9或0.8,题目难度就降下去了,这也是要注意的。
出题企业愿意提供尽量丰富的数据,也确实花了很多精力,但有时不小心把一个觉得选手不会用的变量带进来,对选手来说也是误导。从竞赛的角度来说,只要给的我都可以用。但是一到答辩的时候,专家可能发现因果关系倒置的情况。所以赛前需要大量的数据预处理,加工完之后,有时还要把样本稍微均衡一下,别让竞赛太难,区分度太大。
赛题公布之前,一般都要邀请不同的专家提前试做,看看难度怎么样,会不会出现一些意想不到的情况,尽量前期考虑全面一点,避免实际执行中选手发现一些新的问题,这样对整个比赛的进程会有影响。当然试做的专家在开题之后就不会提供任何与赛题相关的信息,直到比赛结束。
一般来说,我们会鼓励选手,放开手脚大胆干,可以用机理结合数据,也可以用纯数据、纯人工智能去做。从评委或者从出题人的角度,两种结果我们都喜欢看。
如何看待赛题中的非监督学习与监督学习赛题?
局部的或者领域内部的可以尝试非监督学习或者甚至没有任何标签。但是一般面向大众的赛题都是尽量走监督学习或者是运筹优化。
非监督学习比较难,例如能源企业集团面向内部的领域赛事,可以出一些无监督学习的场景,比如给出一组风电基础数据,没有标签,可以告诉你是多少兆瓦的、什么型号、多长年限、大概在什么位置,选手要来分析哪个风功率曲线或者哪个部件是有异常的。甚至出题人也不知道结果,最后到现场以激光测速雷达再测一遍,看谁的结果最接近。当然你可以怀疑激光测速雷达不准,但出题方会邀请资深的行业专家复核结果。
监督学习,例如运筹优化,例如给你一个物流网络,在多长时间内算出一个结果,然后看谁的排班最好。偶尔也会安排一些极端情况,看看你的程序能不能顶得住,能不能用,都需要精心设计。
纯算法型
参
赛选手也需要注重可解释性
近几年,参赛选手最喜欢用的是深度学习,只要数据量够大,不管怎样都值得试一把;第二,各种boosting(包括XGBoost、 Catboost、 LightGBM等)是竞赛选手的标准操作;其他就是各显神通。有题目特征相对明显,用Random Forest等传统机器学习能做得非常好。
当然,如果在同样情况下,从评委的角度更喜欢可解释性,你要知道你的模型边界是什么。好多选手可能对工业不太熟,可解释性还有待提升。非行业选手在可解释性上能到一个大概的粒度,就挺好的。
竞赛中一般会把一些现实中可能出现的极端情况过滤掉,避免对大家造成干扰。因为极端情况没有特别好的办法,需要加入一些人工经验或者规则来辅助,非业内人士不知道。所以题目做了一定程度的理想化,而在理想化的情况下,再不知道边界那就更不应该了。
你说试了所有的算法,发现就这个分高,也是一种解释。但评委更希望过程有一些感悟和收获,例如在这种情况下,贝耶斯也不错,最好讲清楚为什么不错,为什么不行,收敛性不好还是什么。我们希望通过竞赛,不光是得出一个分数,还是希望大家有点收获,如果能转化成一个科研项目,或是回归到工业界应用,构建一个闭环那就更好了。
数据分析竞赛与现实工业数据分析项目的异同
整体来看,依照CRISP-DM,做赛题和做实际项目流程一样,从业务理解选题到数据理解、数据预处理、建模、模型评估到模型发布,都需要一套完整的流程。
不过做赛题是专家和选手组合在一起完成的,在公布赛题之前专家也会提前走一个闭环做验证,而选手是从数据理解开始完成后面的流程。
赛题需要考虑趣味性,能够不断迭代,如果做五天和做一天的结果没有明显差异,说明题目深度或者数据预处理的特征提取上可能有点浅。
和实际项目相比,比赛缺少交互。实际项目中拿到的数据都是不确定的,要反反复复确认,数据质量也不能一下讲清楚,需要很多交互,甚至做到一半可能会重新定义题目。比赛中这部分工作都在专家出题验证的时候就前置解决了。
现实项目会比竞赛更加复杂,因为定义出一个数据可解的好题目,就完成了工作的一半。通过竞赛,我们希望吸引更多的人关注工业数据价值,推动工业数字化的落地。
昆仑数据K2Data
昆仑数据是工业互联网领域的领军企业,蝉联“中国大数据企业50强”,受邀参与制订《中国制造2025》工业大数据技术路线图,发起成立并主导运营工业大数据制造业创新中心,致力于用大数据和人工智能技术,推动中国工业智慧升级。
最新文章
数据探索系列 | 可视化是拨乱反正的关键一步
昆仑数据K2Assets入选2024年北京市工业互联网平台名单
陆薇博士应邀在《ACM通讯》发表文章
数据探索系列:拨开迷雾,找到一条通往终点的最短路
数据探索系列 | 为什么会那么多算法,还是做不好工业数据分析?
2024爱分析·数据要素x厂商全景报告
K2动态 | 《国家工业互联网大数据中心工业智算基地评估规范》正式发布
技术干货 | 工业数据分析的3种载体形式
昆仑数据受邀出席数智化促进核能新质生产力发展会议
技术干货 | 分析场景识别中的常见问题
清洁能源数字化的现状、趋势和未来
直播预告 | 清洁能源数字化现状、趋势和未来
伺服电机滚动轴承的智能化寿命预测
工业数智化趋势和需求是什么?向数据要更多价值
昆仑数据亮相CCKS 2024全国知识图谱与语义计算大会
技术干货 | 大模型在工业数据分析过程中的典型用例(下)
技术干货 | 大模型在工业数据分析过程中的典型用例(上)
《工业数据分析工程 基于CRISP-DM的形式化方法》背后的故事
新书上架 |《工业数据分析工程 -- 基于CRISP DM的形式化方法》
直播回顾 | 工业数据分析模型的规模化应用,如何做?
中国工业大数据创新发展联盟数据资源管理与应用专委会启动会暨工业互联网大数据技术工业和信息化部重点实验室技术交流会顺利召开
直播预告 | 工业数据分析模型的规模化应用,如何做?(下)
工业数据分析模型的规模化应用,难在哪?
重磅 |《工业互联网平台 工业机理模型开发指南》国家标准正式发布
直播预告 | 工业数据分析模型的规模化应用,难在哪?From Science to Engineering
工业数据分析竞赛的那些事儿
四川省工业大数据创新中心入驻成都AI创新中心
直播预告 | 从时序数据库IoTDB看工业数据管理难题何解
直播预告 | 工业数据分析竞赛的“秘笈”与启示
人工智能如何赋能先进制造业?“工业人工智能研讨会”举办
直播回顾 | 工业大模型落地新范式
直播预告 | 工业大模型落地新范式
快讯 | 昆山工业大数据创新中心正式启动!
2024首期制造业数智化转型高级研修班于昆山开课
直播预告 | SCRUM敏捷开发在工业数智化研发中的应用
读者反馈 | 如何用《工业大数据工程:系统、方法与实践》解决工作中的具体问题
即将截止 | 中国工业大数据创新发展联盟专业委员会征集会员单位
直播回顾 | 《工业大数据工程 系统、方法与实践》背后的故事
征集 | 中国工业大数据创新发展联盟专业委员会征集会员单位
工业数据要素管理中的“人-机-料-法-测-环” (下)
直播预告 | 工业大数据工程 系统、方法与实践
技术干货 | 面向领域的工业大数据系统技术
第三届工业数字孪生大赛全国总决赛及颁奖典礼成功举办
请回答2023 | 向数据要价值 向人才要答案
产业元宇宙,打开发展新空间
工业数据要素管理中的“人-机-料-法-测-环” (上)
陆薇荐书 | 我眼中的《工业大数据工程 系统、方法与实践》
新书上架 |《工业大数据工程 系统、方法与实践》
技术干货 | 分析工业时序数据,要额外考虑什么?
我中心当选中国工业大数据创新发展联盟理事单位
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉