点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:Evaluating the Evolution of YOLO (You Only Look Once) Models: A Comprehensive Benchmark Study of YOLO11 and Its Predecessors
作者:Nidhal Jegham, Chan Young Koh, Marwan Abdelatti, Abdeltawab Hendawi
原文链接:https://arxiv.org/abs/2411.00201
1. 导读
这项研究对各种YOLO(你只看一次)算法进行了全面的基准分析,从YOLOv3到最新添加的算法。这是首次全面评估YOLO家族最新成员YOLO11性能的研究。它在三个不同的数据集上评估了它们的性能:交通标志(具有不同的对象大小)、非洲野生动物(具有不同的长宽比,每个图像至少有一个对象实例),以及船舶和船只(具有单一类别的小尺寸对象),确保对具有不同挑战的数据集进行全面评估。为了确保可靠的评估,我们采用了一套全面的指标,包括精度、召回率、平均精度(mAP)、处理时间、GFLOPs计数和模型大小。我们的分析强调了每个YOLO版本的独特优势和局限性。例如:YOLOv9表现出相当高的准确性,但在检测小物体和效率方面存在困难,而YOLOv10由于架构选择而表现出相对较低的准确性,这影响了它在重叠物体检测方面的性能,但在速度和效率方面表现出色。此外,YOLO11系列在准确性、速度、计算效率和模型大小方面始终表现出卓越的性能。YOLO11m在准确性和效率方面取得了显著的平衡,在交通标志、非洲野生动物和船只数据集上分别获得了0.795、0.81和0.325的mAP50-95分数,同时保持了2.4毫秒的平均推理时间、38.8Mb的模型大小以及平均约67.6 GFLOPs。这些结果为工业界和学术界提供了重要的见解,有助于为各种应用选择最合适的YOLO算法,并指导未来的改进。
2. 引言
目标检测是计算机视觉系统的重要组成部分,它能够对图像或视频帧中的物体进行自动识别和定位。其应用范围从自动驾驶和机器人技术到库存管理、视频监控和体育分析。
多年来,目标检测取得了显著发展。最初,传统方法如Viola-Jones算法和基于可变形部件的模型(DPM)使用手工制作的特征,对于人脸检测、行人检测和视频监控等应用十分有效。然而,这些方法在鲁棒性和泛化能力方面存在局限性。随着深度学习的进步,基于网络的方法已成为主要方法。这些方法通常分为两类:一阶段方法和两阶段方法。
一阶段方法,如RetinaNet和SSD(单次多框检测器),在一次通过中完成检测,实现了速度和准确性的平衡。相比之下,两阶段方法,如基于区域的卷积神经网络(R-CNN),首先生成候选区域,然后进行分类,虽然计算量大,但精度高。
在一阶段目标检测方法中,YOLO(You Only Look Once,你只需看一次)因其鲁棒性和效率而脱颖而出。Redmon等人于2015年首次提出YOLO,通过单次评估直接从完整图像中预测边界框和类别概率,重新定义了目标检测。这种创新方法使YOLOv1能够以令人印象深刻的准确性实现实时目标检测。在此基础上,YOLOv2整合了几项关键改进。它引入了Darknet-19框架,这是一个19层的卷积神经网络,提高了特征提取能力。YOLOv2还引入了批量归一化,并采用受VGG架构启发的数据增强技术,以增强模型的泛化能力。YOLOv3通过Darknet-53框架进一步改进了模型,Darknet-53是一个更深的网络,显著提高了特征提取能力。该版本还采用了受特征金字塔网络(FPN)启发的设计,通过将高级语义特征与低级详细特征相结合,实现了对不同尺度物体的更好检测,以及一个三尺度检测机制,提高了对不同大小物体的检测准确性。
继YOLOv3之后,该模型的发展分支到各个社区,产生了几个值得注意的迭代版本。Bochkovskiy等人开发的YOLOv4引入了空间金字塔池化(SPP)和路径聚合网络(PAN)。SPP从多个尺度聚合特征,保留了空间信息,而PAN改进了层间特征的融合,从而提高了速度和准确性。YOLOv5标志着从Darknet框架向PyTorch这一流行的深度学习库的重大转变。这一转变使模型更具可访问性且更易于定制。该架构包含了步幅卷积层,降低了计算负载,并使用了空间金字塔池化快速(SPPF)层,在保持高性能的同时优化了内存使用。YOLOv6和YOLOv7继续沿着这一轨迹发展,采用了创新的架构。YOLOv6引入了RepVGG,一种在推理过程中简化卷积层的架构,以及CSPStackRep块,通过将特征图分成两部分分别处理来提高准确性。此外,YOLOv6还采用了混合通道策略以获得更好的特征表示。YOLOv7利用了扩展的高效层聚合网络(E-ELAN),这是一种通过增强层间信息流来提高效率和有效性的新型架构。
YOLO的最新版本,包括YOLOv8、YOLOv9、YOLOv10和YOLO11,代表了该模型发展的最前沿。Ultralytics发布的YOLOv8引入了语义分割功能,使模型能够对图像的每个像素进行分类,并提供了可伸缩版本以满足从资源受限环境到高性能系统等不同应用需求,同时执行其他任务,如姿态估计、图像分类和定向目标检测(OOB)。YOLOv9在其前辈的架构改进基础上,引入了可编程梯度信息(PGI),优化了训练过程中的梯度流,以及广义高效层聚合网络(GELAN),通过增强层信息流进一步提高了性能。由清华大学开发的YOLOv10在其训练协议中引入了双重分配策略,消除了其前辈所使用的非极大值抑制(NMS)技术的需求,该技术用于消除重复预测并选择置信度最高的边界框。此外,YOLOv10还具有轻量级分类头、空间-通道解耦下采样和排名引导块设计,使其成为迄今为止最高效和最有效的YOLO模型之一。最后,Ultralytics推出的YOLO11保留了YOLOv8的功能,如实例分割、姿态估计和定向目标检测,同时提供了5个可伸缩版本,以满足不同的用例需求。YOLO11用更高效的C3k2块替换了YOLOv8中的C2f块,在不牺牲速度的情况下提高了性能。此外,它还引入了C2PSA(跨阶段部分与空间注意力)模块,该模块改进了特征图中的空间注意力,提高了准确性,尤其是对于小物体和重叠物体。
如图1所示,该目标检测算法经历了多次发展,在准确性和速度方面取得了具有竞争力的结果,使其成为ADAS(高级驾驶辅助系统)、视频监控、人脸检测等众多领域的首选算法。例如,YOLO在农业领域发挥着至关重要的作用,已被应用于作物分类、害虫检测、自动化农业和虚拟围栏等众多应用。此外,YOLO在医疗保健领域也被多次使用,如癌症检测、溃疡检测、药物分类和健康协议执行。
近年来,Ultralytics在推动YOLO的发展方面发挥了至关重要的作用,维护、改进并使这些模型更加易于访问。值得注意的是,Ultralytics简化了YOLO模型的微调和定制过程,这在早期版本中是一项更为复杂的任务。用户友好界面的引入、全面的文档和预构建模块极大地简化了数据增强、模型训练和评估等基本任务。此外,可伸缩模型版本的开发使用户能够根据特定的资源限制和应用需求选择模型,从而促进了更有效的微调。例如,在速度和计算效率优先于准确性的场景中,YOLOv8n比YOLOv8m更受欢迎,使其成为资源受限环境的理想选择。高级超参数调整工具、自动学习率调度和模型剪枝的集成进一步完善了定制过程。持续的更新和强大的社区支持也促进了YOLO模型在更广泛应用中的可访问性和适应性。
本文旨在全面比较和分析YOLO算法的演变。通过对YOLO11这一YOLO家族最新成员进行首次全面评估,本文为该领域做出了重大贡献。我们利用预训练模型并进行微调,在三个具有不同大小和目标的自定义数据集上评估了它们的性能。我们采用了一致的超参数以确保公平和无偏的比较。分析深入探讨了关键性能指标,包括速度、效率、准确性和计算复杂度,通过GFLOPs计数和模型大小来衡量。此外,我们还探讨了每个YOLO版本的实际应用,突出了它们在不同用例中的优势和局限性。通过这项比较研究,我们旨在为研究人员和从业者提供有价值的见解,更深入地了解这些模型如何在各种场景中有效应用。
3. 模型对比分析
比较分析:Ultralytics 与原始 YOLO 模型
模型:在本小节中,我们将使用 Radu Oprea [40] 提供的交通标志数据集,以及表 V 中的相同超参数,对 Ultralytics 提供的模型与它们的原始版本进行比较分析。目的是突出 Ultralytics 模型与原始版本之间的差异,从而证明由于 Ultralytics 不支持 YOLOv4、YOLOv6和 YOLOv7这几个模型,本文未将它们纳入研究范围是合理的。此分析将展示为何专注于 Ultralytics 支持的模型能确保公平且一致的基准评估。
a) Ultralytics 支持的模型与任务:Ultralytics 库为研究人员和程序员提供了各种 YOLO 模型,用于推理、验证、训练和导出。根据表 I 的结果,我们注意到 Ultralytics 不支持 YOLOv1、YOLOv2、YOLOv4 和 YOLOv7。关于 YOLOv6,该库仅支持配置 *.yaml 文件,而不支持预训练的 *.pt 模型。
b) Ultralytics 与原始模型的性能比较:根据我们对表 II 中呈现的交通标志数据集上 Ultralytics 模型及其原始版本的比较分析结果,我们观察到 Ultralytics 模型与原始版本之间的性能存在显著差异。值得注意的是,Ultralytics 的 YOLOv5n(nano)和 YOLOv3 版本表现出优越的性能,这突显了 Ultralytics 所实施的增强和优化。相反,原始的 YOLOv9c(compact)版本略胜一筹,这可能是由于 Ultralytics 对这一较新模型的优化不够充分。这些观察结果表明,Ultralytics 模型已经过大量修改,因此与原始版本进行直接比较是不公平的。因此,在同一基准研究中包含原始版本和 Ultralytics 版本的两个模型,将不会提供公平或准确的评估。因此,本文将专注于 Ultralytics 支持的版本,以确保基准评估的一致性和公平性。
YOLOv3u:YOLOv3 在其前代的基础上,旨在改进定位误差和检测效率,特别是对于较小物体。它使用具有 53 个卷积层的 Darknet-53 框架,速度是 ResNet-152的两倍。YOLOv3 还融入了特征金字塔网络(FPN)的元素,如残差块、跳跃连接和上采样,以增强其在不同尺度上高效检测物体的能力,如图 2 所示。该算法在三个不同尺度上生成特征图,分别以 32、16 和 8 的因子对输入进行下采样,并使用三尺度检测机制来检测使用不同特征图的大型、中型和小型物体。尽管有所改进,但 YOLOv3 在为中大型物体提供精确结果方面仍面临挑战,因此 Ultralytics 推出了 YOLOv3u。YOLOv3u 是 YOLOv3 的改进版本,采用了 YOLOv8 中后来使用的无锚点检测方法,并在准确性和速度方面对 YOLOv3 进行了改进,尤其是对于中型和大型物体。
YOLOv5u:Glenn Jocher 提出的 YOLOv5 从 Darknet 框架过渡到 PyTorch,保留了 YOLOv4的许多改进,并使用了 CSPDarknet 作为其骨干网络。CSPDarknet 是原始 Darknet 架构的修改版本,通过将特征图拆分为单独路径来融入跨阶段部分连接,从而实现更有效的特征提取和降低计算成本。YOLOv5 采用了具有大窗口大小的步幅卷积层,旨在减少内存和计算成本,如图 3 所示。此外,该版本采用了空间金字塔池化快速(SPPF)模块,为输入特征图提供多尺度表示。SPPF 模块通过在不同尺度上池化特征并将它们连接起来工作,从而使网络能够捕获精细和粗略的信息。这有助于更有效地识别各种尺寸的物体。此外,YOLOv5 实现了多种增强方法,如 Mosaic、复制粘贴、随机仿射、MixUp、HSV 增强和随机水平翻转。YOLOv5 有五种变体,卷积模块的宽度和深度各不相同。Ultralytics 通过 YOLOv5u 积极改进此模型,采用了无锚点检测方法,并实现了更好的整体性能,尤其是在检测不同尺寸的复杂物体方面。推荐课程:国内首个面向工业级实战的点云处理课程。
YOLOv8:Ultralytics 推出了 YOLOv8,这是 YOLO 系列的一个重大进化,包含五个缩放版本。除了物体检测外,YOLOv8 还提供了各种应用,如图像分类、姿态估计、实例分割和定向物体检测(OOB)。关键功能包括与 YOLOv5 类似的骨干网络,并在 CSPLayer(现称为 C2f 模块)中进行了调整,该模块结合了高级特征与上下文信息,以提高检测准确性,如图 4 所示。YOLOv8 还引入了名为 YOLOv8-Seg 的语义分割模型,该模型将 CSPDarknet53 特征提取器与 C2F 模块相结合,在物体检测和语义分割基准测试中取得了最先进的结果,同时保持了高效率。
YOLOv9:由 Chien-Yao Wang、IHau Yeh 和 Hong-Yuan Mark Liao 开发的 YOLOv9 使用信息瓶颈原理和可逆函数来在网络深度中保留关键数据,确保可靠的梯度生成并改进模型收敛和性能。可逆函数是能够在不丢失信息的情况下进行反转的,是 YOLOv9 架构的另一个基石。这一特性使网络能够保留完整的信息流,从而使模型参数的更新更加准确。此外,YOLOv9 提供了五个缩放版本供不同用途使用,侧重于轻量级模型,这些模型通常参数不足,在前馈过程中容易丢失重要信息。可编程梯度信息(PGI)是 YOLOv9 中引入的一项重要进展。PGI 是一种在训练过程中动态调整梯度信息以优化学习效率的方法。通过选择性地关注最具信息量的梯度,PGI 有助于保留在轻量级模型中可能会丢失的关键信息。这一进展确保了模型保留了用于准确物体检测的必要特征,从而提高了整体性能。此外,YOLOv9 引入了梯度增强轻量级架构网络(GELAN),这是一种新的架构改进,旨在提高参数利用率和计算效率,如图 5 所示。GELAN 通过优化网络内的计算路径来实现这一点,从而允许更好的资源管理和对各种应用的适应性,而不会牺牲速度或准确性。
YOLOv10:由清华大学研究人员开发的 YOLOv10 在继承前人模型优势的基础上进行了关键创新。该架构具有增强的 CSPNet(跨阶段部分网络)骨干网络,以改善梯度流并减少计算冗余,如图 6 所示。网络结构分为三个主要部分:骨干网络、颈部和检测头。颈部包括 PAN(路径聚合网络)层,用于有效的多尺度特征融合。PAN 通过聚合来自不同层的特征来设计,以增强信息流,使网络能够更好地捕获和组合不同尺度上的细节,这对于检测不同尺寸的物体至关重要。同时,One-to-Many Head 在训练期间为每个物体生成多个预测,以提供丰富的监督信号并提高学习准确性。此外,该版本还提供了从 nano 到特大的五个缩放版本。在推理时,One-to-One Head 为每个物体生成单个最佳预测,从而消除了对非极大值抑制(NMS)的需求。通过消除对 NMS 的需求,YOLOv10 减少了延迟并提高了后处理速度。此外,YOLOv10 还包括无 NMS 训练,该训练使用一致的双重分配来减少推理延迟,以及从效率和准确性角度优化各种组件的模型设计。这包括轻量级分类头、空间-通道解耦下采样和排名引导块设计。此外,该模型还融入了大核卷积和部分自注意力模块,以提高性能,而不会显著增加计算成本。
YOLO11:YOLO11 是 Ultralytics 开发的 YOLO 系列的最新创新,建立在其前身(尤其是 YOLOv8)的基础上。这一版本提供了从 nano 到特大的五个缩放模型,以满足各种应用的需求。与 YOLOv8 一样,YOLO11 提供了许多应用,如物体检测、实例分割、图像分类、姿态估计和定向物体检测(OBB)。YOLO11 的关键改进包括引入了 C2PSA(带自注意力的跨阶段部分)模块,如图 7 所示,该模块结合了跨阶段部分网络和自注意力机制的优点。这使模型能够更有效地跨多个层捕获上下文信息,从而提高物体检测的准确性,尤其是对于小型和重叠物体。此外,在 YOLO11 中,C2f 块已被 C3k2 替换,C3k2 是 CSP Bottleneck 的自定义实现,使用两个卷积,不同于 YOLOv8 中使用的一个大卷积。此块使用较小的内核,在保持准确性的同时提高了效率和速度。
4. 基准测试结果与讨论
交通标志数据集:表VI展示了YOLO算法在交通标志数据集上的性能比较,评估指标包括准确性、计算效率和模型大小。交通标志数据集是一个中型数据集,包含不同大小的物体,非常适合作为基准测试。结果显示,YOLO模型在检测交通标志方面表现出色,展现了一系列精度。最高mAP50-95为0.799,而最低记录精度为0.64。另一方面,最高mAP50为0.893,最低为0.722。mAP50和mAP50-95结果之间的显著差距表明,模型在处理不同大小交通标志时,在较高阈值下难以保持一致,这反映了其检测算法中潜在的可改进之处。
a) 准确性:如图8所示,YOLOv5ul展现出最高的准确性,mAP50为0.866,mAP50-95为0.799。紧随其后的是YOLO11m,mAP50-95为0.795,以及YOLO11l,mAP50-95为0.794。相比之下,YOLOv10n的精度最低,mAP50为0.722,mAP50-95为0.64,紧随其后的是YOLOv5un,mAP50-95为0.665,如图8中的数据点所示。
b) 精确度和召回率:图9阐明了在考虑模型大小的情况下,精确度和召回率之间的权衡。YOLO11m、YOLO10l、YOLOv9m、YOLOv5ux和YOLO11l等模型展现出高精确度和召回率,特别是YOLO11m,其精确度为0.898,召回率为0.826,大小为67.9Mb;而YOLOv10l的精确度为0.873,召回率为0.807,但体积显著更大(126.8Mb)。相比之下,较小的模型如YOLOv10n(精确度0.722,召回率0.602)、YOLOv8n(精确度0.749,召回率0.688)和YOLO11n(精确度0.768,召回率0.695)在两个指标上都表现不佳。这凸显了较大模型在交通标志数据集上的优越性能。此外,YOLOv5um的高精确度(0.849)和低召回率(0.701)表明其易于出现假阴性,而YOLOv3u的高召回率(0.849)和低精确度(0.75)则表明其易于出现假阳性。
c) 计算效率:在计算效率方面,YOLOv10n最为高效,每张图像的处理时间为2ms,GFLOPs数为8.3,如图10和11所示。YOLO11n紧随其后,处理时间为2.2ms,GFLOPs数为6.4;而YOLOv3u-tiny的处理时间为2.4ms,GFLOPs数为19,与其他快速模型相比,其计算效率相对较低。然而,数据表明,YOLOv9e、YOLOv9m、YOLOv9c和YOLOv9s的效率最低,推理时间分别为16.1ms、12.1ms、11.6ms和11.1ms,GFLOPs数分别为189.4、76.7、102.6和26.8。这些发现揭示了准确性和计算效率之间的明显权衡。
d) 整体性能:在评估包括准确性、大小和模型效率在内的整体性能时,YOLO11m成为一贯表现最佳的模型。它实现了0.795的mAP50-95,推理时间为2.4ms,模型大小为38.8Mb,GFLOPs数为67.9,如图8、10、11和表VI所示。紧随其后的是YOLO11l(mAP50-95为0.794,推理时间为4.6ms,大小为49Mb,GFLOPs数为86.8)和YOLOv10m(mAP50-95为0.781,推理时间为2.4ms,大小为32.1Mb,GFLOPs数为63.8)。这些结果强调了这些模型在检测不同大小交通标志时的稳健性,同时保持了较短的推理时间和较小的模型大小。值得注意的是,在准确性和计算效率方面,YOLO11和YOLOv10家族在这个数据集上显著优于其他YOLO家族,因为它们的模型始终优于其他家族的同类产品。
非洲野生动物数据集:表VII中的结果展示了YOLO模型在非洲野生动物数据集上的性能。该数据集包含大型物体,侧重于YOLO模型预测大型物体的能力以及由于数据集大小而导致的过拟合风险。模型普遍表现出强大的准确性,最高性能的模型实现了0.832至0.725的mAP50-95范围。这一相对较窄的范围反映了模型在保持高准确性的同时检测和分类大型野生动物物体的有效性。
a) 准确性:如图12所示,YOLOv9s表现出色,具有0.832的高mAP50-95和0.956的mAP50,展示了其在不同IoU阈值下的稳健准确性。YOLOv9c和YOLOv9t紧随其后,mAP50得分分别为0.96和0.948,mAP50-95得分分别为0.83和0.825。这些结果凸显了YOLOv9家族从少量图像中有效学习模式的能力,使其特别适合较小的数据集。相比之下,YOLOv5un、YOLOv10n和YOLOv3u-tiny的mAP50-95得分较低,分别为0.791、0.786和0.725,表明它们在准确性方面的局限性。YOLO11x、YOLOv5ux、YOLOv5ul和YOLOv10l等大型模型的性能不佳可归因于过拟合,尤其是考虑到数据集规模较小。
b) 精确度和召回率:图13显示,YOLO8l和YOLO11l实现了最高的精确度和召回率,精确度分别为0.942和0.937,召回率分别为0.898和0.896。值得注意的是,YOLOv8n以紧凑的6.55Mb大小实现了相似的结果(精确度为0.932,召回率为0.908),展示了其效率。相比之下,尽管YOLOv3u和YOLOv5ul的体积更大(YOLOv3u为204.86Mb,YOLOv5ul为106.85Mb),但它们的精确度和召回率得分较低(YOLOv3u为0.91和0.88,YOLOv5ul为0.916和0.881),这可能归因于过拟合问题。
c) 计算效率:YOLOv10n、YOLOv8n和YOLOv3u-tiny是最快的模型,处理时间分别为2ms和1.8ms,GFLOPs数分别为8.2和19.1。前两个模型具有相同的处理速度和GFLOPs数,如图14。相反,YOLOv9e的处理时间最慢,为11.2ms,GFLOPs数为189.3,其次是YOLOv5ux,处理时间为7.5ms,GFLOPs数为246.2。这些结果表明,与较小的模型相比,较大的模型往往需要更多的处理时间和硬件使用,强调了模型大小和处理效率之间的权衡。
5. 总结
这项基准测试研究全面评估了各种YOLO算法的性能。它开创性地全面比较了YOLO11与其前身,评估了它们在三个不同数据集(交通标志、非洲野生动物和船舶)上的性能。数据集经过精心挑选,涵盖了广泛的物体属性,包括不同的物体大小、纵横比和物体密度。我们通过研究精确度、召回率、平均精确度(mAP)、处理时间、GFLOPs数和模型大小等广泛指标,展示了每个YOLO版本和家族的优缺点。本研究回答了以下关键研究问题:
• 哪种YOLO算法在一系列综合指标上表现出色?
• 不同YOLO版本在具有不同物体特征(如大小、纵横比和密度)的数据集上表现如何?
• 每个YOLO版本的具体优势和局限性是什么,以及这些见解如何为各种应用选择最合适的算法提供信息?
特别是,YOLO11家族表现出最为一致,其中YOLO11m在准确性、效率和模型大小之间取得了最佳平衡。虽然YOLOv10的准确性略低于YOLO11,但其在速度和效率方面表现出色,使其成为需要效率和快速处理的应用程序的强大选择。此外,YOLOv9整体表现良好,特别是在较小的数据集上脱颖而出。这些发现为行业和学术界提供了宝贵见解,指导选择最合适的YOLO算法,并为未来的发展和改进提供信息。虽然评估的算法表现出色,但仍有改进空间。未来的研究可以专注于优化YOLOv10,以提高其准确性,同时保持其速度和效率优势。此外,建筑设计的不断进步可能为开创
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~