无论是想要转码还是深入更高阶的领域,kaggle数据竞赛都是最优的选择。
作为Google旗下全球最大的数据科学社区,你可以积累到一段足够写进简历的高光经历。
为了帮助你更好地利用Kaggle,让从入门到拿奖之路更加顺利,Lab君从人工智能-自然语言处理/大模型/计算机视觉,以及生物、金融、市场等几个方向,选取了2023年一些有意思的赛题,还附上了方案讲解,我们一起看看吧~
👉 赛题:BirdCLEF 2023(鸟类叫声识别大赛——语音识别)
官网链接:
https://www.kaggle.com/competitions/birdclef-2023
比赛情况:1100+支队伍 ,$50,000奖金,2023.3.8-2023.5.25
赛题简介:在这次比赛中,参赛者需要使用先进的机器学习技能,通过声音识别东非鸟类物种。通过算法以处理连续的音频数据,并通过其呼叫来识别物种,尤其是一些资源缺乏的鸟叫数据上。
人工智能-大语言模型
👉 赛题:LLM Science Exam
官网链接:
https://www.kaggle.com/competitions/kaggle-llm-science-exam
比赛情况:2600+支队伍 ,$50,000奖金,2023.7.12-2023.10.11
赛题简介:本次竞赛要求参与者回答由大型语言模型编写的基于科学的困难问题。参赛者的工作将帮助研究人员更好地了解大型语言模型自我测试的能力,以及大型语言模型可以在资源有限的环境中运行的潜力。
人工智能-计算机视觉
👉 赛题:Google - Isolated Sign Language Recognition(手语识别大赛)
官网链接:
https://www.kaggle.com/competitions/asl-signs
比赛情况:1100+支队伍 ,$100,000奖金,2023.2.24-2023.3.2
赛题简介:本次比赛的目标是对孤立的美国手语(ASL)符号进行分类。参赛者需要创建一个TensorFlow Lite模型,该模型需要在指定数据集上进行预测。参赛者的工作可能会提高PopSign(一款学习美国授予的游戏APP)的能力,帮助失聪儿童的亲属学习基本的手语,并更好地与他们的亲人交流。
生物
👉 赛题:CAFA 5 Protein Function Prediction(cafa5蛋白功能预测)
官网链接:
https://www.kaggle.com/competitions/cafa-5-protein-function-prediction
比赛情况:1600+支队伍 ,$50,000奖金,2023.4.19-2023.12.20
赛题简介:这项竞赛的目标是预测一组蛋白质的功能。参赛者需要根据蛋白质的氨基酸序列和其他数据开发一个模型。这项工作将帮助研究人员更好地了解蛋白质的功能,这对于发现细胞、组织和器官的工作原理非常重要。这也可能有助于开发针对各种疾病的新药和疗法。
金融
👉 赛题:Optiver - Trading at the Close(期权交易-在收盘时交易)
官网链接:
https://www.kaggle.com/competitions/optiver-trading-at-the-close
比赛情况:4400+支队伍 ,$100,000奖金,2023.9.21-2023.12.14
赛题简介:参赛者面临的挑战是开发一个模型,该模型能够通过使用来自订单簿和股票收盘拍卖的数据,预测数百只Nasdaq上市股票的收盘价格变动。拍卖所得的信息可用于调整价格,评估供需动态,并确定交易机会。
市场
👉 赛题:OTTO – Multi-Objective Recommender System(多目标推荐系统)
官网链接:
https://www.kaggle.com/competitions/otto-recommender-system
比赛情况:2500+支队伍 ,$30,000奖金,2022.11.2-2023.2.1
赛题简介:这项竞赛的目标是预测电子商务点击、购物车添加和订单。参赛者需要基于用户会话中的先前事件构建一个多目标推荐系统。这项工作将有助于改善每个人的购物体验。消费者将收到更多量身定制的推荐,而在线零售商可能会增加他们的销售额。
👉 第一名:
https://www.kaggle.com/competitions/birdclef-2023/discussion/412808
Validation:Be soft like cmAP,Do not be hard like F1
我们不需要为完全不同的训练数据和音景数据选择一个阈值,提出超级复杂的方案或下降19个位置。我使用了与前几年比赛几乎相同的验证方案:
重要提示:对于有衬垫的cmAP,重要的是要在折叠间取平均值,而不是在折叠外取平均值!!当然,CV和LB的绝对值是不同的:
Training
由于时间和设备的限制,我选择了以下方案:
Model
由于计算的限制,我们不能使用深度学习的黄金法则:堆叠更多的层,所以我在推理优化技术方面做了一些研究:
总的来说,我最后提交的是3个声音事件检测(SED)模型的集合,其中包含以下主干:
调整不同架构的起始学习率是非常重要的!!
Augmentations
Small inference tricks
赛题:Google - Isolated Sign Language Recognition(计算机视觉方向)
👉 第一名:
https://www.kaggle.com/competitions/asl-signs/discussion/406684
我的解决方案涉及一维 CNN 和 Transformer 的组合,使用所有训练数据(仅比赛数据)从头开始训练,并使用4种子集成进行提交。我最初使用 PyTorch + GPU,但后来切换到 TensorFlow + Colab TPU(tpuv2-8) 以确保与 TensorFlow Lite 的兼容性。
1D CNN vs. Transformer?
我的假设是,在对序列数据建模时,如果帧间相关性很强,一维 CNN 会比 Transformer 更有效。在我的实验中,纯 1D CNN 的性能轻松超过了 Transformer。因此我最终仅使用 1D CNN 就获得了 0.80 的公共 LB 分数。然而Transformer 仍然有作用,可以在 1D CNN 之上使用(我们可以将 1d cnn 视为某种可训练的分词器)。
Masking
正确处理可变长度的输入对于确保训练测试的一致性和有效的推理是非常重要的,因为我们不一定要填充短视频。
Regularization
Augmentation
Training
赛题:CAFA 5 Protein Function Prediction(生物方向)
👉 第一名:
https://www.kaggle.com/competitions/cafa-5-protein-function-prediction/discussion/466917
Summary
我们的管道GOCurator是基于NetGO 3.0开发的。此外,我们还引入了新的组分方法,从蛋白质三维结构、蛋白质文本描述和科学文献中提取功能信息。由于学习排序模型,我们最终有效地集成了多分量方法。
- LR-MEM,基于GO和GOA的注释,将蛋白质描述、科学文献和蛋白质序列结合在一起。
- FoldSeek-KNN,根据结构信息进行预测。
- GOXML,基于文献信息的极端多标签分类器。
- GORetrieval是一种基于蛋白质描述和蛋白质文献的新型两阶段深度学习框架。
Training Method(s)
我们根据CAFA5证据代码从SwissProt、GOA和GO三个数据库中收集功能注释信息。与NetGO中的时间分裂不同,我们根据CAFA5测试集中蛋白质的物种分布选择蛋白质进行验证。具体来说,我们计算了CAFA5测试集中每个物种的蛋白质比例,并从数据集中采样相应物种的蛋白质,形成1000个蛋白质的验证数据集。通过这种方式,我们已经尽可能地改进了我们的方法的性能。
Model Execution Time
首先,我们使用InterProScan和ESM-1b获取蛋白质结构域/家族/基序信息和蛋白质嵌入,耗时约1-2天,其中大部分时间花在InterProScan上。
其次,我们在几个服务器上分别训练每个组件方法,每个方法大约花费10-15个小时。
然后,用于集成学习的学习到排名模型可以在50分钟内训练完成。对于推断,我们首先使用组分法生成初始预测,对于CAFA5测试蛋白,该预测耗时约2小时。
最后,在所有测试节点上进行集成学习大约需要1.5小时。
参加Kaggle竞赛有很多好处,比如可以提升技能和知识水平、与其他人交流分享经验、获取奖金和荣誉等。赶快拿好这份棕榈实验室为你整理的独家指南,开始你的Kaggle之旅吧!
今年,我们全新升级了kaggle竞赛项目,希望能够帮助你快速补足基础,顺利拿下心仪梦校和大厂!
本次项目的课程设置参考了Top院校BA/DS课程体系设置和核心知识内容,融入kaggle竞赛实战项目中。且零基础同学即可参与。
通过参与实战项目,可以有效提高参与者对Python应用能力,以及将各类数据集从清洗处理、特征工程、建立模型,调整参数,到结果分析的全部操作流程,并产出一份硬核数据科学报告,快速达到媲美Top院校数据类专业硕士的同等水平。
导师将根据同学情况推荐适合参与的kaggle竞赛项目,对于项目中表现优秀的同学来,将有机会获得全球排名,为自己再增加一份强有力的证明。
参与该实战分析项目,可以产出项目报告,作为自己申请/求职作品,积累相关高含金量项目经验,作为写进简历和文书中的重要素材;也可以放上Github的Code file,作为个人项目成果,展示给面试官/招生官。
即使是零基础想要跨专业申请的同学,也可以凭借简历和申请文书中这一段商业分析/数据科学相关的高含金量经历,使自己提升BA/DS相关项目的申请率,更容易拿到互联网大厂数据类岗实习offer。
完成项目的同学,将可以与导师一对一交流未来留学及工作规划,还能获得简历指导与个性化推荐信,含金量十足,为接下来的留学申请添砖加瓦。
同时,还可以获得导师一手内推资源与棕榈海量内推实习机会。
扫描下方二维码,添加学术顾问
回复“Kaggle"马上咨询
你将得到哪些高价值回报?
往期反馈
(往期授课情况)
项目重磅导师
如何报名?
扫描下方二维码,添加学术顾问
回复“Kaggle"马上咨询
机不可失!
让一次辅导计划将你完美武装!