大模型中有哪些形式简单却很巧妙的上分方法？

科技 2024-11-12 08:01 北京

作者:黄哲威 hzwer
链接：https://www.zhihu.com/question/347847220/answer/26536819499

前大模型时代写过一些深度学习的上分方法：所有数据集上给神经网络刷分的通用方法

这里加一些hzwer分享的也适用于大模型的。

算力碾压

1.1 改大 batchsize，假装迭代次数对齐

1.2 多训 epoch，但是不明说，把训练长度换成以迭代次数报告，反之亦然，反正不能让人一眼看出来不对齐

1.3 epoch 数不变，但是一个样本用好几回，从而偷偷多过数据

1.4 把模型里下采样次数减小，模型计算量大了好几倍，但是只和别人比参数量

1.5 不在意计算量和参数量的领域狂堆算力

1.6 把算力很大的组件描述一笔带过，效率分析也只分析其它组件

1.7 用重参数化把模型搞的很大，训练很慢但是反正比推理开销

1.8 EMA / 多模型融合涨点，有条件还能自蒸馏

1.9 选个超级小的训练集，这样只要专心解决过拟合

超参数

2.1 通过把 cosine 学习率变化调成固定学习率，或者反过来，来得到想要的实验结果（cosine 降低学习率的最后那一部分一般会让模型性能快速上涨，提前下降学习率就会显得训练高效）

2.2 稍微调大一点学习率，把 baseline 的学习率调小

2.3 把各种超参数都隐藏在代码里面成为 magic number

2.4 优化器都有好多超参数可以调！

2.5 挑随机种子

小修小改

3.1 把模型的 relu 都换成 swish 或者 leaky relu / prelu

3.2 偷偷到处加 SE layer，反正基本上会涨点；加便宜的 attention 连接

3.3 把诸如 pooling, resize 不带参数的组件都换成带可学参数的，多学一点是一点

3.4 模组之间乱拉跳边，多 concat 一些特征反正不亏

3.5 在没 BN 的地方加 BN，在有 BN 的地方把 BN 去掉，还有 GN / IN / LN / WN 等等可以换

3.6 针对训练集和测试集的差异对训练集增广，改训练集分布

增量设计

4.1 加奇奇怪怪的 GAN Loss，一致性 Loss，反正有没有用很难说还能贴很多公式

4.2 把别人在论文里一句话带过的技术详细展开，加上一些魔法公式变换凑半页论文

4.3 要设计组件 x 加到模型上时，造一个可学习的 beta 参数，初始值为 0，改成把 beta * x 加到模型上，最差情况 beta=0 保持不变

4.4 扩展上一条，设计一堆组件，以可学参数的方式加起来

4.5 继续扩展，加一个 NAS 进去

4.6 从别的模型拿一些预训练参数，这样模型起点变高，上限也会变高因为相当于加数据和标注

4.7 搞一些非常复杂的课程学习，花式蒸馏（特征层，特征层的特征，跨模态蒸），别人做不 work 就说需要调参

4.8 不管有没有用，套上强化学习框架，让模型更多拥有自主能力

测试方法

5.1 测十个指标，报告有进步的三个

5.2 做十个数据集的实验，把没效果的五个扔掉

5.3 故意让测试方法和别人的训练场景不对齐，做低 baseline，比如把 RGB 通道搞反让别人挂掉

5.4 发明新的创新评价指标；魔改指标，比如 Y 通道测 PSNR，但是和别人 RGB 测的一起比

5.5 找 trivial 但是别人没考虑的场景，做出极其大的提升

5.6 用大模型比别人小模型，不报告别人的大模型；用针对某种指标训练的模型比别人没训的

5.7 在不同的硬件上测速，放在一起报告

5.8 最近语言大模型的，偷偷在测试 prompt 里加提示，few-shot 和 zero-shot 比

5.9 变相在测试集过拟合，比如泄露数据，泄露随机种子；把测试样本放到上游预训练里

5.10 测试数据集加真实场景，OOD 样本，baseline 掉点很多，这时候加点增广或者 dropout 把点补回来，但是把涨点贡献算到其它地方

5.11 私有测试集，人工评判，改进要多显著都能做出来

5.12 客观比不过比主观，主观比不过 cherry pick

终极方法

6.1 抄一个别人的方法，但是把名字换一遍

6.2 报高性能，问开源就是只有 README

6.3 直接开始写论文，不用做实验，反正恰好比 sota 高那么一点点

http://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247550195&idx=3&sn=03e93abb2c6d2c33ad43bf8997aeac2c

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

教育部公布！25考研人数，再降50万！

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

一篇小型语言模型技术最新全面综述

M3DocRAG：文档问答用哪个多模态大模型效果最好？

已公示！“东方理工大学”，来了

聊一聊做角色扮演大模型的经验

绝对顶流！清华博导倾力编写的《图神经网络导论》pdf免费分享

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

ICLR 高分：深入研究多模态大模型的对齐策略

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

双非二战字节算法岗，拿下70k offer.....

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

o1的风又吹到多模态，直接吹翻了GPT-4o-mini

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

微调图像大模型的经验分享

昨夜， LLM 已经彻底凉凉了...

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

微软开源角色Agents，直接模拟了整个世界~

2024最新神书-《大模型应用程序构建指南》免费pdf分享

2024最新,李宏毅深度学习教程pdf免费分享！绝对值得反复阅读的神书！

已注销！985新校区，不建了

RAG黑盒被打开了，可视化RAGViz闪亮全场

LLM性能优化中的一些概念扫盲

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

Cursor一不小心把自家的底牌也放出来了~

[送5本]《动手学机器学习》上海交大ACM班总教头团队重磅新作，带你动手学机器学习！

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

LLM性能优化中的一些概念扫盲

暴跌94%，裁员9600人。。。

[送5本]《大语言模型：原理、应用与优化》大模型未来发展方向大揭秘！

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

DRL2022新书-《深度强化学习》免费pdf分享

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

中央批准：中央候补委员、教育部副部长，任C9大学书记

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

上交2024最新-《动手学大模型》实战教程及ppt分享！

考古OpenAI RLHF基石之作：探索RL和RM阶段的Scaling Law

【完整视频】黄仁勋对话软银孙正义：打造AI代理和物理AI，强调企业必须在AI浪潮中找准定位

2024最新版，人大赵鑫老师《大语言模型》新书pdf分享

上交2024最新-《动手学大模型》实战教程及ppt分享！

饶毅：全世界没有一个学校把博士后纳入“非升即走”

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

李飞飞等14位斯坦福微软大牛等撰写《AGENT AI: 综述多模态交互的前沿展望》免费pdf分享

一篇综述告诉你：如何用大语言模型设计算法

SFT洗数据，有多少细节？

LSTM+Transformer王炸创新，荣登Nature...

突发！三星7nm停供！

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉