魔改一个loss可以发啥水平的文章?

科技 2024-11-17 00:01 江苏

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

内容来自知乎，「计算机视觉工坊」整理，如有侵权请联系删除 https://www.zhihu.com/question/603893186

作者 Frossmann

从细节看，我确定一件时间 —— 你处在新手的兴奋期～当然，这并不是什么坏事情。这是很多同学都会经历的一个阶段，以后就好了。

至于能发哪里，我觉得你现在想这个问题还太早。因为就你现在的结果，写一篇像样（CCF-C以上）的文章，应该是不够的。

首先，一个创新点，自己能解释的通为什么他能work，是一个非常基本的点 —— 要连这一步都做不到，后面就可以洗洗睡了。你自己能说服自己，也只是第一步里面的第一步。接下来，你可以试试跟你同学或者导师说说，看看他们同意不同意。只要他们中有一个人听不懂，那么你可以默认reviewer也不懂 —— 嗯，你没有听错，就是这样。把reviewer想象的弱智一些，对于中稿是很有帮助的。

另外一个常常被忽视的点是，就算别人听明白了，也不代表别人就会买账。举例说明，你在这个loss里面加了一项，你也能解释为什么要有这一项，可是别人真的不见的认同，这新加的一项要长成你文章写的样子。所以，如果目标是顶会，你还得回答，为什么不能长成别样子呢，又或者为什么长成这样子是有道理的。

其次，你的实验，无论是广度，还是深度，做的都不够 —— 为啥不用其他的数据集？这两个数据集饱和了吗？有没有其他什么数据集能更好体现你这个loss的贡献的？为什么不用其他的网络？（r100的网络是个什么鬼？resnet101？）。准确率好一丢丢，多少是一丢丢？换过随机种子么？你确定这是真的好了，而不是个噪声？你有做可视化，比较两个不同的loss下得到的特征有什么异同吗？达到了你想要的预期效果吗？你用的是什么优化器，你这loss除了能涨分以外，还有什么值得称道的？比如，加快收敛？稳定训练？…… 你看看，这里面有多少的事情，你还没有做？

最后，你现在要干的事情，大概和我分享的几篇文章比较接近，虽然你们的领域不一样，你可以看看别人是怎么证明自己的改动是有效的 —— 单单给定量的结果说我的loss好，显然是远远不够的，你要从多个角度来阐述。还有，写这种文章，你要特别注意对比两个loss，你可以看看别人是怎么在文章里面前后呼应的。

作者 AI小怪兽

论文名称：《A Normalized Gaussian Wasserstein Distance for Tiny Object Detection》

作者：Jinwang Wang、Chang Xu、Chang Xu、Lei Yu

论文地址：https://arxiv.org/abs/2110.13389

小目标检测是一个非常具有挑战性的问题，因为小目标只包含几个像素大小。为了解决这一问题，本文提出了一种新的基于Wasserstein距离的小目标检测评估方法。具体来说，首先将BBox建模为二维高斯分布，然后提出一种新的度量标准，称为Normalized Wasserstein Distance(NWD).

2.微小目标提升：加入yolov8

2.1 ultralytics/yolo/utils/loss.py加入 Wasserstein

源码详见：Yolov8损失函数改进：Wasserstein Distance Loss，助力小目标涨点（https://cv2023.blog.csdn.net/article/details/130321185）

作者 skgy

TPAMI

《adaptive neighborhood metric learning》

看了一下，本质上文章的的方法就属于魔改了一篇cvpr的方法损失函数。

只是文章花了大量的篇幅讨论这个损失函数的意义。

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247710850&idx=4&sn=f79e694e86fac2d3755085212bf9563d

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！