不看亏大!kaggle冠军方案整理及各方向热门赛题

教育   教育   2024-07-22 22:01   四川  
星标/置顶我们,获取免费讲座、限量学术干货


无论是想要转码还是深入更高阶的领域,kaggle数据竞赛都是最优的选择。


作为Google旗下全球最大的数据科学社区,你可以积累到一段足够写进简历的高光经历。


为了帮助你更好地利用Kaggle,让从入门到拿奖之路更加顺利,Lab君从人工智能-自然语言处理/大模型/计算机视觉,以及生物、金融、市场等几个方向,选取了2023年一些有意思的赛题,还附上了方案讲解,我们一起看看吧~





各方向热门赛题

人工智能-自然语言处理

👉 赛题:BirdCLEF 2023(鸟类叫声识别大赛——语音识别)



官网链接

https://www.kaggle.com/competitions/birdclef-2023


比赛情况:1100+支队伍 ,$50,000奖金,2023.3.8-2023.5.25


赛题简介:在这次比赛中,参赛者需要使用先进的机器学习技能,通过声音识别东非鸟类物种。通过算法以处理连续的音频数据,并通过其呼叫来识别物种,尤其是一些资源缺乏的鸟叫数据上。


人工智能-大语言模型


👉 赛题:LLM Science Exam



官网链接

https://www.kaggle.com/competitions/kaggle-llm-science-exam


比赛情况:2600+支队伍 ,$50,000奖金,2023.7.12-2023.10.11


赛题简介:本次竞赛要求参与者回答由大型语言模型编写的基于科学的困难问题。参赛者的工作将帮助研究人员更好地了解大型语言模型自我测试的能力,以及大型语言模型可以在资源有限的环境中运行的潜力


人工智能-计算机视觉


👉 赛题:Google - Isolated Sign Language Recognition(手语识别大赛)



官网链接:

https://www.kaggle.com/competitions/asl-signs


比赛情况:1100+支队伍 ,$100,000奖金,2023.2.24-2023.3.2


赛题简介:本次比赛的目标是对孤立的美国手语(ASL)符号进行分类。参赛者需要创建一个TensorFlow Lite模型,该模型需要在指定数据集上进行预测。参赛者的工作可能会提高PopSign(一款学习美国授予的游戏APP)的能力,帮助失聪儿童的亲属学习基本的手语,并更好地与他们的亲人交流。


生物


👉 赛题:CAFA 5 Protein Function Prediction(cafa5蛋白功能预测)



官网链接:

https://www.kaggle.com/competitions/cafa-5-protein-function-prediction


比赛情况:1600+支队伍 ,$50,000奖金,2023.4.19-2023.12.20


赛题简介:这项竞赛的目标是预测一组蛋白质的功能。参赛者需要根据蛋白质的氨基酸序列和其他数据开发一个模型。这项工作将帮助研究人员更好地了解蛋白质的功能,这对于发现细胞、组织和器官的工作原理非常重要。这也可能有助于开发针对各种疾病的新药和疗法


金融


👉 赛题:Optiver - Trading at the Close(期权交易-在收盘时交易)



官网链接:

https://www.kaggle.com/competitions/optiver-trading-at-the-close


比赛情况:4400+支队伍 ,$100,000奖金,2023.9.21-2023.12.14


赛题简介:参赛者面临的挑战是开发一个模型,该模型能够通过使用来自订单簿和股票收盘拍卖的数据,预测数百只Nasdaq上市股票的收盘价格变动。拍卖所得的信息可用于调整价格,评估供需动态,并确定交易机会


市场


👉 赛题:OTTO – Multi-Objective Recommender System(多目标推荐系统)




官网链接:

https://www.kaggle.com/competitions/otto-recommender-system


比赛情况:2500+支队伍 ,$30,000奖金,2022.11.2-2023.2.1


赛题简介:这项竞赛的目标是预测电子商务点击、购物车添加和订单。参赛者需要基于用户会话中的先前事件构建一个多目标推荐系统。这项工作将有助于改善每个人的购物体验。消费者将收到更多量身定制的推荐,而在线零售商可能会增加他们的销售额。



高分方案整理

  赛题:BirdCLEF 2023(自然语言处理方向)

👉 第一名:

https://www.kaggle.com/competitions/birdclef-2023/discussion/412808


Validation:Be soft like cmAP,Do not be hard like F1


我们不需要为完全不同的训练数据和音景数据选择一个阈值,提出超级复杂的方案或下降19个位置。我使用了与前几年比赛几乎相同的验证方案:



重要提示:对于有衬垫的cmAP,重要的是要在折叠间取平均值,而不是在折叠外取平均值!!当然,CV和LB的绝对值是不同的:



Training


由于时间和设备的限制,我选择了以下方案:



Model


由于计算的限制,我们不能使用深度学习的黄金法则:堆叠更多的层,所以我在推理优化技术方面做了一些研究:



总的来说,我最后提交的是3个声音事件检测(SED)模型的集合,其中包含以下主干:



调整不同架构的起始学习率是非常重要的!!


Augmentations



Small inference tricks



  赛题:Google - Isolated Sign Language Recognition(计算机视觉方向)


👉 第一名:

https://www.kaggle.com/competitions/asl-signs/discussion/406684


我的解决方案涉及一维 CNN 和 Transformer 的组合,使用所有训练数据(仅比赛数据)从头开始训练,并使用4种子集成进行提交。我最初使用 PyTorch + GPU,但后来切换到 TensorFlow + Colab TPU(tpuv2-8) 以确保与 TensorFlow Lite 的兼容性。


1D CNN vs. Transformer?


我的假设是,在对序列数据建模时,如果帧间相关性很强,一维 CNN 会比 Transformer 更有效。在我的实验中,纯 1D CNN 的性能轻松超过了 Transformer。因此我最终仅使用 1D CNN 就获得了 0.80 的公共 LB 分数。然而Transformer 仍然有作用,可以在 1D CNN 之上使用(我们可以将 1d cnn 视为某种可训练的分词器)。


Masking


正确处理可变长度的输入对于确保训练测试的一致性和有效的推理是非常重要的,因为我们不一定要填充短视频。


Regularization



Augmentation



Training



  赛题:CAFA 5 Protein Function Prediction(生物方向)


👉 第一名:

https://www.kaggle.com/competitions/cafa-5-protein-function-prediction/discussion/466917


Summary


我们的管道GOCurator是基于NetGO 3.0开发的。此外,我们还引入了新的组分方法,从蛋白质三维结构、蛋白质文本描述和科学文献中提取功能信息。由于学习排序模型,我们最终有效地集成了多分量方法


- LR-MEM,基于GO和GOA的注释,将蛋白质描述、科学文献和蛋白质序列结合在一起。

- FoldSeek-KNN,根据结构信息进行预测。

- GOXML,基于文献信息的极端多标签分类器。

- GORetrieval是一种基于蛋白质描述和蛋白质文献的新型两阶段深度学习框架。


Training Method(s)


我们根据CAFA5证据代码从SwissProt、GOA和GO三个数据库中收集功能注释信息。与NetGO中的时间分裂不同,我们根据CAFA5测试集中蛋白质的物种分布选择蛋白质进行验证。具体来说,我们计算了CAFA5测试集中每个物种的蛋白质比例,并从数据集中采样相应物种的蛋白质,形成1000个蛋白质的验证数据集。通过这种方式,我们已经尽可能地改进了我们的方法的性能


Model Execution Time


首先,我们使用InterProScan和ESM-1b获取蛋白质结构域/家族/基序信息和蛋白质嵌入,耗时约1-2天,其中大部分时间花在InterProScan上。


其次,我们在几个服务器上分别训练每个组件方法,每个方法大约花费10-15个小时。


然后,用于集成学习的学习到排名模型可以在50分钟内训练完成。对于推断,我们首先使用组分法生成初始预测,对于CAFA5测试蛋白,该预测耗时约2小时。


最后,所有测试节点上进行集成学习大约需要1.5小时。


参加Kaggle竞赛有很多好处,比如可以提升技能和知识水平、与其他人交流分享经验、获取奖金和荣誉等。赶快拿好这份棕榈实验室为你整理的独家指南,开始你的Kaggle之旅吧!


在过去3年中,棕榈实验室帮助了无数同学完成一段超有竞争力的kaggle竞赛项目,甚至拿下全球Top的排名。让这段经历成为他们留学申请路上专业水平和背景实力的证明,以及求职场上的重要升职加薪砝码。


今年,我们全新升级了kaggle竞赛项目,希望能够帮助你快速补足基础,顺利拿下心仪梦校和大厂!



亮点一:媲美Top院校DS/BA项目系统性和硬核度


本次项目的课程设置参考了Top院校BA/DS课程体系设置和核心知识内容,融入kaggle竞赛实战项目中。零基础同学即可参与。


通过参与实战项目,可以有效提高参与者对Python应用能力,以及将各类数据集从清洗处理、特征工程、建立模型,调整参数,到结果分析的全部操作流程,并产出一份硬核数据科学报告,快速达到媲美Top院校数据类专业硕士的同等水平


亮点二:有机会获得全球项目排名


导师将根据同学情况推荐适合参与的kaggle竞赛项目,对于项目中表现优秀的同学来,将有机会获得全球排名,为自己再增加一份强有力的证明。


亮点三:提高留学/实习项目申请成功率


参与该实战分析项目,可以产出项目报告,作为自己申请/求职作品,积累相关高含金量项目经验,作为写进简历和文书中的重要素材;也可以放上Github的Code file,作为个人项目成果,展示给面试官/招生官


即使是零基础想要跨专业申请的同学,也可以凭借简历和申请文书中这一段商业分析/数据科学相关的高含金量经历,使自己提升BA/DS相关项目的申请率,更容易拿到互联网大厂数据类岗实习offer


亮点四:未来规划与资源链接


完成项目的同学,将可以与导师一对一交流未来留学及工作规划,还能获得简历指导与个性化推荐信,含金量十足,为接下来的留学申请添砖加瓦。


同时,还可以获得导师一手内推资源与棕榈海量内推实习机会。



扫描下方二维码,添加学术顾问

回复“Kaggle"马上咨询


你将得到哪些高价值回报?


参加这个项目,能给你带来哪些高价值回报?

对于留学申请者来说:
● 高含金量的数据科学报告:独特的项目报告,拒绝文书/简历同质化,成为招生官眼中独一无二的申请者;
 强大的Python和数据科学应用能力:从零基础开始掌握代码应用了解如何从零开始,拆解并完成从数据清洗到建模到分析结果的全流程。
 思维方式:导师还将教会大家如何复盘这段项目经历,总结收获和不足,这些都是可以呈现在简历和文书中非常宝贵的个人思考。
 个性化推荐信:对于项目中表现优秀的同学,还有机会获得来自亚马逊数据科学家的个性化推荐信,为你提高梦校申请率再加一个砝码!


对于有工作/实习需求的同学来说:
 工业界思维训练:项目能够快速弥补同学在相关数据类经历上的空白,还能锻炼同学们在真实项目中数据清晰、处理、分析和汇报整理的能力,让你简历有得写面试有话说!同时,导师会分享他在工作中的经验和教训,将大大提高同学对于岗位的认知和未来发展的规划!
 职场可迁移能力:掌握项目报告撰写技能、商业分析思维、数据可视化技巧、PPT制作框架等职场必备技能点;

对于即将就读研究生的同学来说:
入学前,提前掌握Python应用能力,数据科学理论知识和数据可视化技能,将为研究生期间节省大量时间和精力,更好的融入到海外的学习中,拿下荣誉名单等

往期反馈



(往期学员好评)



(往期授课情况)


更多案例可戳:



项目重磅导师


如何报名?



我们的学术顾问,已经在摩拳擦掌准备为你答疑解惑啦!

请扫下方二维码,主动添加学术顾问,有关于本次服务的具体信息,诸如资历背景,导师匹配,具体上课,辅导方式和收费情况,都由老师来为你解答咯!


扫描下方二维码,添加学术顾问

回复“Kaggle"马上咨询

机不可失!

让一次辅导计划将你完美武装!


棕榈实验室PDLab
提升未来发展竞争力的一站式在线教育平台,专注于中国高中生和大学生的科研辅导、学术进阶和背景提升
 最新文章