大模型面试最新高频问题整理（三）

文摘 2024-07-22 20:40 上海

KV Cache的基本原理？
最本质的原理是避免重复计算，将需要重复计算的结果进行缓存，需要缓存的值为历史token对应的KV值，所以叫KV Cache。预测新的token只与输入的最后一个token相关，输入的最后一个token因为只需要计算注意力值，而注意力的值需要将输入token的V值进行加权即得到结果，进行加权就需要将当前的Q与与所有的K进行计算得到权重，所以只需要缓存历史token的KV值。
LLM训练时为什么会遇到loss spike？
大模型训练中使用Adam优化器，造成梯度变化与更新参数变化不满足独立性，浅层参数长时间不更新，并且大模型训练中batch太大，后期梯度更新又趋于平稳导致的Loss spike。
流水线并行中的Bubble是什么？如何减少？
当设备完成前向传播后，必须等到全部反向传播开始，在此期间设备会处于空闲状态。这其中的等待时间即被称为Bubble。为了减少设备的等待时间，一种常见的做法是尽可能的增加微批量的数量，从而让反向传播尽可能早的开始。
Tokenizer的压缩率是什么？如何提高？

http://mp.weixin.qq.com/s?__biz=MzkwODIxMzA2OQ==&mid=2247487517&idx=1&sn=4b5d08e3df5878a21ab903e914146f96

互联网持续学习圈

清华大学计算机系校友、前微软、阿里高级算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者，持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先，文艺其从，陪你进化二十年。

最新文章

闭源模型的统治时代将结束？Llama3.1系列模型正式开源，最大405B

语言模型是如何获得复杂推理能力的？ICML文章给出新的解释

英伟达又涨了！“中国特供”B20芯片被曝，马斯克豪掷10万块H100训Grok，算力是GPT-4的四倍！

马斯克又整活了！！！特斯拉明年将内部率先启用人形机器人，目标年产10亿台，售价约2万美元

Nvidia提出ChatQA 2，提升LLM的Long Context和RAG能力

重磅！Llama3.1的405B权重和评测提前泄漏

大模型面试最新高频问题整理（三）

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…

微软、Meta继续加码AI，云支出创历史新高 | AI脱水

ICML2024会议召开，Google Research相关活动

Google大语言模型Gemma 2介绍及其微调（上篇）

完全激活稀疏大模型，Q-Sparse突破LLM推理效能

奥特曼深夜发动价格战，GPT-4o mini暴跌99%！清华同济校友立功，GPT-3.5退役

阿里千问团队AutoIF，让LLMs学会自我指导，简单有效，性能显著

【每日Leetcode】贪心系列（二）

千问2技术报告解读

LLM在论文评审中被滥用？ICML2024论文研究结果

【每日Leetcode】BFS系列（一）

AI独角兽开始卖身大厂

如何提升大模型RAG系统的效果？RAG推理增强(二)

2024年大模型LLM还有哪些可研究细分领域？

专为Excel而生的大模型来了！

如何提升大模型的Agent推理规划等能力？

【每日Leetcode】拓扑排序系列

大模型面试最新高频问题整理（二）

AI的尽头是能源？奥特曼投资核能初创公司Oklo有望2027年启动首座反应堆

四万字聊搜索系统

中国AI论文数量全球第一！中科院拿下研究机构双第一，腾讯企业排第三

大模型MOE框架发展系统总结

CoAct：模拟人类社会“全局-局部”多层级规划的多智能体自主协作

【每日Leetcode】DFS系列（一）

高盛研究主管批评“AI泡沫”：投入太多，收益太少，比2000年泡沫更大

AI芯片路线图：3张图表和7大影响

ICML 2024 | Med-ST：解锁时空信息在医学多模态预训练中的能力

【每日Leetcode】堆系列（二）

超越DPO之Step-DPO

LEARN：百川大模型在快手推荐中的应用

【每日Leetcode】并查集系列

大厂开启AI大模型人才抢夺战

Meta关于深度学习推荐系统的Scaling Law的研究

【每日Leetcode】动态规划系列-有状态的序列型

大模型数学能力增强方法总结

Runway凭借Gen-3 Alpha估值将达到40亿美金，为日常性收入的160倍！！

RegMix-用回归任务解决大模型数据混合问题

教育领域大模型技术与应用

微软GraphRAG框架实现逻辑详解

【每日Leetcode】单调栈系列（二）

赢麻了！苹果再获OpenAI董事会观察员席位！0元白嫖ChatGPT，比肩微软

金融领域文档智能应用实践

UniRec：考虑序列时间间隔和item交互频率的序列推荐方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉