研二计算机视觉方向，没有idea也不会写代码，该怎么办？

科技 2024-11-13 07:01 江苏

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

内容来自知乎，「3D视觉工坊」整理，如有侵权请联系删除https://www.zhihu.com/question/596252794

碰上大雾天气，纯视觉方案是如何识别车辆和障碍物的呢？

作者深度之眼-Lee

不得不说你们导师是真的不够称职。

首先要明确你这种交叉领域发论文是有两种方向，第一种叫做纵向，什么意思，就是你们导师要求的魔改网络。

比如说我发现我的YOLO在之前肺结节图片上去做检测，发现我检测的时候小的肺结节检测不到，发现问题了对吗？那么发现问题的时候你有两种方式，第一种我是想通过魔改我的网络的方式改变我的网络的结构，让我的微小的肺结节被检测到，这是其中的一个方向。我纵向的去做，去改变我的一个算法，发现问题解决问题。

这种就是看起来容易想到，但实现难度较大，尤其非科班出身的学员，算法能力拼不过CS的大佬。很难有效果。

第二个是什么？第二种就是我去做一个方案，横向去发论文，这是最常用，也是对硕士研究生来讲最好发论文的方向。

比如还是肺结节的问题，我可以通过改变我的网络的结构去做。那么也可以通过组成一个方案，什么意思，比如说我的大的肺结节可以通过yolo做，如果太小的话，我能不能自己设定一个流程，或者是我能不能使用多个开源数据集，因为有好多其他的开源数据集，它的数据可能微小的肺结节比我现在使用的开源数据集多，那么这样的话，它的数据量大，所以更容易让我获得微小肺结节的信息，那么这个时候它就是一个多元数据集，你在使用的时候就需要加算法B，加入进来了之后跟你原来的一个A结合，它就变成了你的一个解决方案的问题，也就是我们常说的，在你做应用问题的时候的一个方案类型的。

所以说通常来说，我们不光是医学图像，在做所有问题的时候都是样子的。

希望对研一研0正在摸索的同学有启发吧

作者摸头鹰

描述中存在几个层次的问题。

从发论文的角度，单纯的图像分割在医学影像领域不是一个好的方向，毕竟这个方向已经很成熟了。看看近年的MICCAI，研究热点从全监督、半监督场景变到domain adaptation、label noise、annotation free、univseral organs等。想发文章得找一个合适的切入点，而不是泛泛地说自己做医学影像分割。

要克服对代码的恐惧。除了自己，没人会帮你写代码，研一学生就是课题组最底层的存在。而发论文来达到毕业要求，魔改代码的能力是必须的，要把自己的idea实施出来。没有idea，纯粹是相关论文读少了，陷到“闭门造车”的状态。拿到新的课题，

读个三百篇文章（当然不要读垃圾文章），肯定会有够发几篇文章的idea。医学图像发文章不难，有合适的idea用代码实施出来并验证下，就搞定了。想想有很多研究生花时间帮老板做项目，挤出剩下的时间做点科研来满足毕业要求。如果你还有大把的科研时间，不要无病呻吟，珍惜吧。

作者 Sgapptii

同研一，同0基础，我是研0暑假才开始学深度学习的，同图像分割，我是遥感图像语义分割，确实就是魔改模型，只要评价指标有提升，就能发论文。

没有idea，在于你论文看的太少了，特别是顶会、顶刊论文，如CVPR，NIPS，ICCV，AAAI，ECCV，TPAMI等等。建议你多看顶会顶刊，复现代码。看多了，idea就有了。建议每周至少精读一篇顶会并复现代码。

导师不指导很正常，能帮我们看写好的论文给反馈就行。也别指望师兄师姐，每个人的研究方向都不同，他们对别人的研究方向也不一定懂。

所以，还是去顶会顶刊论文和代码里面去找idea吧此外，我个人觉得，越是这种计算机视觉的下游任务，涉及到的网络模块比较多，越好水创新点。

参见语义分割、目标跟踪等等。

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247710553&idx=4&sn=a3f5ccf6d4d5d240336aaeeb6e2f4ef3

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？