首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

机器学习中有哪些形式简单却很巧妙的idea？

科技 2024-11-21 07:01 江苏

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

内容来自知乎，「3D视觉工坊」整理，如有侵权请联系删除 https://www.zhihu.com/question/347847220/

作者 momo

1.self-gating基本加上都涨点

变体有context gating和SE模块等

核心思想都是用自己gate自己

基本形式是 y = sigmoid(wx)x

2.各种重建，先把输入corrupt一下，然后用autoencoder重建一下，基本都能让feature更robust，何凯明的MAE也是如此。

3.各种dropout，是个地方都可以试着加点dropout，embedding可以加dropout，attention可以加，ffn可以加，mlp可以加，输入上也可以直接加，相当于某种corrupt

4.mixup，也是个神级idea，输入上a类+b类混合一下，然后label也变成a+b混合，基本也是无脑增强，必定涨点

5.对比学习大神器，核心就看如何构造正样本和负样本。有个惊艳的idea，同一个输入foward两次，因为dropout不同，就可以当正样本，也是无脑涨点

6.未完待续

作者黄哲威 hzwer

算力碾压

1.1 改大 batchsize，假装迭代次数对齐

1.2 多训 epoch，但是不明说，把训练长度换成以迭代次数报告，反之亦然，反正不能让人一眼看出来不对齐

1.3 epoch 数不变，但是一个样本用好几回，从而偷偷多过数据

1.4 把模型里下采样次数减小，模型计算量大了好几倍，但是只和别人比参数量

1.5 不在意计算量和参数量的领域狂堆算力

1.6 把算力很大的组件描述一笔带过，效率分析也只分析其它组件

1.7 用重参数化把模型搞的很大，训练很慢但是反正比推理开销

1.8 EMA / 多模型融合涨点，有条件还能自蒸馏

1.9 选个超级小的训练集，这样只要专心解决过拟合

超参数

2.1 通过把 cosine 学习率变化调成固定学习率，或者反过来，来得到想要的实验结果（cosine 降低学习率的最后那一部分一般会让模型性能快速上涨，提前下降学习率就会显得训练高效）

2.2 稍微调大一点学习率，把 baseline 的学习率调小

2.3 把各种超参数都隐藏在代码里面成为 magic number

2.4 优化器都有好多超参数可以调！

2.5 挑随机种子

小修小改

3.1 把模型的 relu 都换成 swish 或者 leaky relu / prelu

3.2 偷偷到处加 SE layer，反正基本上会涨点；加便宜的 attention 连接

3.3 把诸如 pooling, resize 不带参数的组件都换成带可学参数的，多学一点是一点

3.4 模组之间乱拉跳边，多 concat 一些特征反正不亏

3.5 在没 BN 的地方加 BN，在有 BN 的地方把 BN 去掉，还有 GN / IN / LN / WN 等等可以换

3.6 针对训练集和测试集的差异对训练集增广，改训练集分布

增量设计

4.1 加奇奇怪怪的 GAN Loss，一致性 Loss，反正有没有用很难说还能贴很多公式

4.2 把别人在论文里一句话带过的技术详细展开，加上一些魔法公式变换凑半页论文

4.3 要设计组件 x 加到模型上时，造一个可学习的 beta 参数，初始值为 0，改成把 beta * x 加到模型上，最差情况 beta=0 保持不变

4.4 扩展上一条，设计一堆组件，以可学参数的方式加起来

4.5 继续扩展，加一个 NAS 进去

4.6 从别的模型拿一些预训练参数，这样模型起点变高，上限也会变高因为相当于加数据和标注

4.7 搞一些非常复杂的课程学习，花式蒸馏（特征层，特征层的特征，跨模态蒸），别人做不 work 就说需要调参

4.8 不管有没有用，套上强化学习框架，让模型更多拥有自主能力

测试方法

5.1 测十个指标，报告有进步的三个

5.2 做十个数据集的实验，把没效果的五个扔掉

5.3 故意让测试方法和别人的训练场景不对齐，做低 baseline，比如把 RGB 通道搞反让别人挂掉

5.4 发明新的创新评价指标；魔改指标，比如 Y 通道测 PSNR，但是和别人 RGB 测的一起比

5.5 找 trivial 但是别人没考虑的场景，做出极其大的提升

5.6 用大模型比别人小模型，不报告别人的大模型；用针对某种指标训练的模型比别人没训的

5.7 在不同的硬件上测速，放在一起报告

5.8 最近语言大模型的，偷偷在测试 prompt 里加提示，few-shot 和 zero-shot 比

5.9 变相在测试集过拟合，比如泄露数据，泄露随机种子；把测试样本放到上游预训练里

5.10 测试数据集加真实场景，OOD 样本，baseline 掉点很多，这时候加点增广或者 dropout 把点补回来，但是把涨点贡献算到其它地方

5.11 私有测试集，人工评判，改进要多显著都能做出来

5.12 客观比不过比主观，主观比不过 cherry pick

终极方法

6.1 抄一个别人的方法，但是把名字换一遍

6.2 报高性能，问开源就是只有 README

6.3 直接开始写论文，不用做实验，反正恰好比 sota 高那么一点点

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247711370&idx=5&sn=44c3308010e066a18c8f8134043b8776

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？

国内 AI 大模型已近 200 个，为什么没有一个比的上 GPT-4o？

MIT开源！轨迹精度暴涨37%！ROMAN：无惧特征稀疏和感知混淆，超鲁棒的全局定位！

精度0.05mm！一款轻量化DLP单目结构光3D相机

李飞飞团队新作：空间智能版ImageNet来了！

研二计算机视觉方向，没有idea也不会写代码，该怎么办？

具身智能、扩散模型、大模型微信交流群成立啦！

2024年图像匹配挑战赛：银牌解决方案！

1W | 飞行器和地面车辆线路协同巡检项目(租借进行演示)

无惧透明物体！重新思考曲面重建：NeuS再升级！（中科院&NTU重磅开源）

站在AI前沿！为什么现在是学习LLM算法工程师的最好时机？

请问有哪些计算机视觉 CCF-B、C 类期刊和会议比较容易中稿？

今年毕业，要不要选3D视觉这个赛道？

比LoFTR快5倍！比LightGlue精度高20%！ETO：超快局部特征匹配！（浙大章国锋团队）

在所有基准创下新高！微软开源PF3plat：无需位姿先验，全新3DGS重建和新视角合成框架！

当审稿人给的意见，你无法修改的时候怎么办？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉