【Kaggle】呜呜呜....再也不参加开放数据集的AI竞赛了

文摘   科技   2023-05-07 16:30   浙江  

关注我 带你康好康的


    前言:好久没更新公众号了,原因就是之前说的比赛进入冲刺期,马上就要结束了,突然所有人都开始快速提分,lb每天都有较大的变动,于是又被迫开始忙着做实验了。。。太卷了太卷了,再也不想参加开放数据集比赛了。




Part.1 

书接上文,这里重新介绍一下小律参加的这个kaggle竞赛。

现在的AI画图很惊艳,但是你想出图好就需要提供好的prompt,这个就需要经验了,也因此,诞生了所谓的prompt engineer这一职位。

比赛的初衷呢,就是文生图的逆向工程,给你图,让你反推prompt是什么,这样的话,未来你就可以稳定出图而不担心画出个什么奇怪画风了。。。就像。。下面这样,明明是想画猫系男,没叫你真的画成猫啊喂。

(话说这个图生文的功能,最近midjourney出了,效果还真可以,AI真是太卷啦)

这比赛不同于传统的AI竞赛,官方他不提供数据集,也不限制模型,只看最后谁的解决方案性能最好。

如此,为了拟合我们得不到,也看不到的测试集,最直接的方法就是大量堆数据,堆模型。

一开始看到比赛的我,是非常受它吸引的,毕竟现在aigc这么火,研究一下说不定我身价就涨了呢(做梦中)。

因为队友有A100,前期我们也确实上了不少分,但是我们又不是专业打比赛的。。。没这么多时间,用的卡也是要排队的。20天前,就在我们沾沾自喜,搞了60w数据训练图像,排名是银牌第一名的时候,我们觉得有机会冲到前十拿金了(那时候其实银牌和金牌之间是有一个断层的,金牌区的分数远高于后面),然后前十的一位大佬不经意间透露了他们的训练数据。。。200w+

啊这,原来这比赛,我和大佬差的也不只是技术,还有数据,还有显卡

距离比赛还剩10天,这十天,排行榜的变动非常大,大家每天都在变化,一天不提分至少掉一名,本来是冲着金牌去的,但现在咱也不好说了,原来金牌区的人都是不差卡的。。。自从知道我们数据是那位金牌区大佬的1/4倍之后,我们也是拼命生产,现在有了120w数据。。。翻了一倍,但是只剩十天了。。。我玩出花也不可能有200w的数据。

一张a100,一天能生成出1w的图片加进训练集,我只要有10张a100供我全程使用,10天才有100w的图片。。。阿巴阿巴。而大佬们。。。说不定这时候已经300w的数据了。。。

可能有人会觉得,既然数据不够,那就多调参追上他们。嗯。。。是个思路,但在我这边试过来,每加十万有效的图文对数据,能加0.1-0.2%的分数,大佬们比我多至少100w的数据,中间的差距能靠调参追回来吗。。。何况大佬们也是会调参的

最后,这个比赛,花落谁家,到现在也说不准,大家都在激烈的上分中,我们的目标是上金,但现在还真的不好说。。。奖金区一枝独秀,肯定都是不缺卡,不缺能力的巨佬。后排金牌区和前排银牌区,厮杀激烈,要么是有卡的大佬近期刚冲上来,要么是卡不多的,但是参赛时间长,也积累了一批自己的训练集,我们就处在这个分段。。。不知道能不能杀出重围。还有十天,还有许多未知。

由于现在数据量大起来了,一次训练要花大量的时间,我租的3090机器,为了让它满负荷工作,我经常要等到凌晨,看训练效果决定要不要再起一个实验,然后第二天早上看效果。。。太累了

不知道最后的成绩能不能对得住自己的肝,也希望有机会写一篇金牌总结贴。。。

End 

最后,这种开放数据集的比赛,再也不想丸辣!!!太累了,呜呜呜。。。想上金牌区,钞能力+技术真的缺一不可。

      你好,我是小律,一位数学专业转AI,热爱技术,思考新事物的算法工程师。在多家大厂呆过,目前就职于一家行业独角兽公司。

      这里,不止有算法干货,AI竞赛方案,还有劲燃鼓励,点滴分享!

      我每周至少更新一篇原创文章,也正在努力实现自己的人生目标,期待与你一起进步!



点个在看你最好看




不摸鱼的小律
互联网大厂算法工程师一枚,分享各种技术、职场热点和感悟。不做每日打卡的路人。
 最新文章