一不小心,kaggle第一了...

文摘   科技   2023-06-01 15:57   浙江  

关注我 带你康好康的


    如题,上个比赛,拿了银牌第二,和金牌失之交臂,休息了半个月,再次起航,选了个陌生但感兴趣的比赛,



不过这只是暂时的。这比赛快过去一个月了,还有两个月的时间可以上分,不知道两个月后能在哪个位置上,这里主要介绍一下我的思路~因为这比赛数据集巨大,450G,参加的人不多,所以也没有一个非常好的baseline,所有的代码都是我自己一点点搭起来的...写了很多bug(现在仍有很多ugly的代码,但我不太想改了,hh)...最终跑通baseline获得成绩,花了两天的时间

这里介绍一下自己的上分之路,如果有感兴趣的,也可以cue我~

比赛链接:https://www.kaggle.com/competitions/google-research-identify-contrails-reduce-global-warming/overview

baseline

跑通baseline这一步,花了我两天的时间,但这也是地基,不能马虎,前期通过看比赛资料,知道他是一个二分类的图像分割任务,但是是带时序的,也有很多未标注图像,这些都是后续我们可以改进的地方~

第一步跑通baseline,自然先不考虑这些东西,咱们首先考虑他就是一个普普通通的图像分割任务,那就很简单了,直接先上Unet+efficientnet-b0,这一步我的分数是0.5,很普通的成绩,但是先不急,先确保咱们的代码没有疏漏,然后开始改参数,我喜欢先改学习率,从小lr开始调,慢慢增大,找到一个合适的超参,这一步,我的分数直接到了0.58,非常高的提升,notebook区提供的baseline只有0.51,我自己的baseline高了他7个点~

值得一提的是构建cv这一块,发现很多人反映自己的本地cv虚高,不太一致,这一块我也是着重处理,纠结了一整天,最后细读官方的评价标准,最终想通了之前纠结的地方,于是自己写了一个,和lb的趋势非常接近~完美的cv,就可以按照本地cv调参了

改进

有了baseline之后,自然就是继续改进baseline啦~图像任务,数据增强是否可以在这个卫星图数据中有效,不同的优化器,不同的模型,不同的分辨率,等等,这里小律也是做了很多尝试,大部分实验都是失败告终...不过这也正常,习惯了

最终发现卫星图和普通图像还是有区别的,图像上work的,这里不一定work。。。调了很多,发现还是大模型和大分辨率最work...一顿操作猛如虎,结果啥也不是,hh

不过在这个途中,也是将自己的分数提到了0.63,进了金牌区,这时候的我,有点膨胀了。。。不想做实验了,想快点把整个baseline框架搭起来,那就要考虑到伪标签和时序信息了,先搞伪标签。。。利用我之前训练的模型,搞个融合,得到一批伪标签,这个过程中刚好也把自己的融合代码写好了,同步到kaggle上,分数又到了0.65,直接金牌前排了。

花了一个晚上的时间,搞好了伪标签,当晚直接开始训练,然后美美的了无牵挂的睡觉~第二天早早地起床看自己的成绩,发现伪标签太牛啦,直接分数干到了0.67...这个分数,就是奖金区的分数了。

但是后续发现了一点点意外,发现伪标签出来的模型,似乎不好和之前的模型融合,虽然单模非常高,但是融合之后更差了,这不是因为之前的模型差,而且因为伪标签训模型输出的logits分布和原来的差异很大导致的。。。看样子伪标签训出来的只能和伪标签训出来的模型融合?这个疑问只能等后续有空在验证了!

随后,我开始找起了更好的模型,unet太老了,当前sota的模型可以试试,efficientnet太老了,也换个更新的试试,mmsegmentation也可以尝试,这些实验,我快速的在一周的时间内尝试了一遍,发现还是unet最好。。sota的大模型,很容易过拟合训练集,那就来找找更好的backbone,一顿操作下来,发现也还是efficientnet最好,好家伙,我的baseline这么强力的吗?开局就已经是目前试下来最好的结构了?于是,暂且就先这样把!后续有时间继续找更好的模型和backbone!

但这个期间训的几版模型,我也是随意的交到了kaggle,优化了一些融合代码,加了后处理,分数再一次干到了0.682,不小心就到了第一名。。。

大概只能保持几天吧,但至少,应该,或许,大概,能证明自己的baseline的强力吧~

未来还可以尝试的几个点,优化伪标签逻辑,增加时序信息,考虑加上视频理解的一些backbone,比如3D-ResNet等,还有一点可以尝试的就是把卫星图像更多的光谱维度信息加上!但这些其实我一直不敢细下来去做的原因就是。。。太耗卡了!

不耗卡的实验我做了大半了。。。剩下的都是耗卡实验了。。。不太愿意去实验。。。呜呜呜,后期的实验至少需要四卡起步,我已经花了1000在这个比赛了。。。打满全程得花1个达不溜,呜呜呜,这要是没在奖金区,就血亏了

end

以上,个人的一些碎碎念,这个比赛入门略有难度,没啥人打。

如果有大佬感兴趣的话,也可以cue我~不介意组队,但要求有时间,有足够的卡。现在CV比赛没两张3090起步,都不敢参加了,可恶,只能氪服困难!


注意看,眼前这个男人,叫做小律,他本是一家上市公司的CEO

却因为兄弟背叛

权力被架空 股份被清空 失去一切

现在

他只想夺回他的公司 只差一个你的点赞和在看

就能东山再起

关注一下他 他有一套完整的复仇计划等待实施 看他如何一步步重获失去的一

不摸鱼的小律
互联网大厂算法工程师一枚,分享各种技术、职场热点和感悟。不做每日打卡的路人。
 最新文章