很多人不敢说,在申请CS/DS等这类火爆的专业时,除了理论知识的积累的和学习,最好也要具备相应的实习、竞赛、科研经历,这会是很大的加分项。
美国计算机院校第一梯队的卡内基梅隆大学申请要求指出:除了要求申请人本科成绩优秀、有扎实基础知识、有相关领域研究经验。
此外,CMU在录取过程中会要求申请者提交一份专门的文书来描述自身的参与的计算机竞赛or科研项目,显示学校对于学术背景的要求。
作为Google旗下全球最大的数据科学社区,Kaggle成为申请CS/DS专业时的一块含金量高、快速提升计算机背景的“敲门砖”。
为了帮25fall&26fall的同学更全面地了解kaggle,小编从计算机视觉竞赛、自然语言处理竞赛、多静态竞赛、时序数据竞赛等几个方向,给大家找了一些TOP级别的经典赛题,并附上了Top解决方案,需要的小伙伴赶紧码住!
自然语言处理(NLP)竞赛
方向:NLP-语音识别的多标签多分类任务
介绍:在这次比赛中,参赛者将使用先进的机器学习技能,通过声音识别东非鸟类物种。通过算法以处理连续的音频数据,并通过其呼叫来识别物种。
Top解决方案:
方向:NLP-文本分类-教育
介绍:在本次竞赛中,参赛者将构建算法来评估 3-12 年级课堂使用的阅读段落的复杂性
Top解决方案:
方向:NLP-Token分类-医疗
介绍:在本次竞赛中,参赛者将在患者笔记中确定特定的临床概念。具体来说,参赛者将开发一种自动化方法,将临床概念从考试量规(例如,“食欲减退”)映射到这些概念在医学生撰写的临床患者笔记中表达的各种方式
Top解决方案:
方向:NLP-文本相似度-教育
介绍:在本次竞赛中,参赛者将在新颖的语义相似性数据集上训练模型,通过匹配专利文献中的关键短语来提取相关信息。
Top解决方案:https://www.kaggle.com/competitions/us-patent-phrase-to-phrase-matching/discussion/332243
时序数据竞赛(5场)
方向:ML、时序预测
介绍:该竞赛的目标是预测一组蛋白质的功能。参赛者将开发一个针对蛋白质的氨基酸序列和其他数据进行训练的模型。
方向:时间序列预测-零售
介绍:在本次竞赛(第五次迭代)中,参赛者将使用全球收入最大的公司沃尔玛的分层销售数据来预测未来 28 天的每日销售额。
Top解决方案:
方向:时间序列预测-教育
介绍:在本次竞赛中,参赛者的挑战是为“知识追踪”创建算法,即随着时间的推移对学生知识进行建模。目标是准确预测学生在未来互动中的表现。
Top解决方案:
方向:时间序列预测-金融
介绍:参赛者将使用历史数据、数学工具和技术工具来创建一个尽可能接近确定性的模型。
Top解决方案:
方向:时间序列预测-金融
介绍:参赛者将构建模型来预测不同行业数百只股票的短期波动,可以使用数亿行高度精细的财务数据设计模型,预测 10 分钟内的波动率。
Top解决方案:
多模态竞赛
方向:多模态、数据挖掘、时序预测
介绍:比赛的目标是扭转生成文本到图像模型的典型方向:不是从文本提示生成图像,而是可以创建一个模型来预测给定生成图像的文本提示。参赛选手需要对包含由 Stable Diffusion 2.0 生成的各种(提示、图像)对的数据集进行预测,以了解潜在关系的可逆性。
Top解决方案:
方向:多模态-电商
介绍:在本次竞赛中,参赛者将应用机器学习技能来构建一个模型,以预测哪些商品是相同的产品。
Top解决方案:
方向:多模态-动保
介绍:在这场比赛中,参赛者将分析原始图像和元数据来预测宠物照的“Pawpularity”,在PetFinder数据上训练和测试模型。
Top解决方案:
计算机视觉(CV)竞赛
方向:CV-图像分类
介绍:本次比赛的目的是对孤立的美国手语 (ASL) 标志进行分类。参赛者将创建一个 TensorFlow Lite 模型,该模型使用使用 MediaPipe 整体解决方案提取的标记数据进行训练。
Top解决方案:
方向:CV-图像分割-医疗
介绍:在本次竞赛中,参赛者将创建一个模型,以便在 MRI 扫描中自动分割胃和肠,基于这些扫描的数据集来制定算法,以提出创造性的深度学习解决方案,帮助癌症患者获得更好的护理。
Top解决方案:
方向:CV-图像分割-医疗
介绍:本次竞赛的目标是实施成功且强大的肾小球FTU检测器。参赛者面临的挑战是检测不同组织制备管道中的功能性组织单位(FTU)
Top解决方案:
方向:CV-图像分类-农业
介绍:参赛者的任务是将每个木薯图像分为四个疾病类别或第五个类别,表明健康的叶子。农民借此能够快速识别患病植物,在作物造成无法弥补的损害之前挽救它们。
Top解决方案:
方向:CV-图像分类-天文
介绍:在本次竞赛中,参赛者使用自己的数据科学技能来帮助识别突破性聆听目标扫描中的异常信号。
Top解决方案:
KAGGLE
Q&A
关于新手小白的十大问
流程:
一场比赛一般三个月左右,主办方提供训练数据,然后导师和学生需要设计并训练一个模型推理主办方给出的测试数据。
测试数据一般有两部分,一个是公榜部分一个是私榜部分,公榜部分的测试数据结果,在你提交模型之后就可以看到,私榜部分的测试数据结果在比赛结束之后才可以看到,最终得分也是看私榜部分的测试数据结果。公榜部分的测试数据结果起到一个参考作用,用以指导的模型训练
具体要看比赛的具体参赛人数,举个例子:
如果这个比赛在99 支队伍以内,前40%能获得铜牌,前20%获得银牌,前10%获得金牌。以此类推...........
KAGGLE
近期可报Kaggle竞赛
UM-蒙特卡洛树搜索游戏能力预测
报名截止:2024 年 11 月 16 日
所属领域:数据挖掘、人工智能、强化学习
留学申请:适合于机器学习 ML,人工智能 AI,计算机 CS 研究生项目
求职相关:科技公司 的 AI Engineer,Data Scientist 和 AI Researcher 岗位
报名截止: 2024 年 11 月 03 日
所属领域 : 人工智能,算法相关方向。
留学申请 : 适合于人工智能 AI,数据科学 DS,计算机 CS 研究生项目
求职相关 : 科技公司的 AI Researcher,Data Scientist,ML Engineer 岗位
报名截止:2024 年 10 月 25 日
所属领域:数据挖掘、人工智能、信号处理,天文学
留学申请:适合于机器学习ML,人工智能AI,计算机CS,电子工程EE项目
求职相关:科技公司的AI Engineer,Data Scientist 和AI Researcher岗位
报名截止:2024年12月05日
所属领域:自然语言处理、人工智能、深度学习、大语言模型
留学申请:适合于机器学习ML,人工智能AI,计算机科学CS项目
求职相关:科技公司的AI Engineer,Data Scientist和AI Researcher岗位
报名截止:2024年12月13日
所属领域:数据科学、机器学习、人工智能、时间序列分析、心理健康
留学申请:适合于机器学习(ML)、人工智能(AI)、数据科学(DS)、计算机科学(CS)等相关领域项目
求职相关:适用于科技公司中的AI工程师、数据科学家和AI研究员等岗位
KAGGLE
项目金牌带队老师
北大光学管理学院博士-李老师
长期从事管理学和经济学方面的研究,掌握Stata,Matlab,EViews,R等多种数据分析工具,擅长计量经济学、数值模拟运算等方法。具有丰富的教学经验,得到指导学员的一致好评。
清华大学博士-黄老师
BAT人工智能高级算法工程师。具有丰富的教学经验,目前已经辅导百余名学员完成人工智能、机器学习与计算机视觉相关的科研实训,相关结果多次以论文形式发表在EI/CPCI国际会议上。
长期从事计算机模拟研究,具有深厚的数学、物理、化学、计算机功底。擅长以深入浅出的教学方式让学生在最短时间内了解计算机模拟的基础知识和前沿领域,掌握模拟的核心算法和相关软件的使用。