周期
共找到 16 条记录
教育   2025-01-10 19:12   江苏  
知乎:姜富春地址:https://zhuanlan.zhihu.com/p/15540962086编辑:「深度学习自然语言处理 公众号」,已授权1.什么是PRM?随着Ope ...
教育   2025-01-09 22:05   江苏  
飞往SFO的沿途风景,Shot on IPhone恰逢年末年度总结盛行,回国无心科研,我便强迫自己分享一下自己的过去半年的科研心路历程。目的有二:1. 继往开来,学有所思。 ...
教育   2025-01-08 21:13   江苏  
导语:最近,模型在长序列下的推理能力得到了大幅加强,出现了诸如o1,Gemini-thinking等强力多步推理模型。在这个过程中,过程级奖励模型(PRMs)是驱动大语言模 ...
教育   2025-01-08 21:13   江苏  
© 作者|都一凡、刘子康、李依凡‍‍机构|中国人民大学研究方向|多模态大模型来自:RUC AI BoxLLM所有细分方向群+ACL25/ICML25/NAACL25投稿群- ...
教育   2025-01-07 20:05   江苏  
主题PhD如何择业之国内or国外、学术界or工业界or创业 时间北京时间 2025.1.11 10:30-12:00内容PhD怎么找工作每种工作的好处和坏处工业界和学术界的 ...
教育   2025-01-07 20:05   江苏  
来自:OpenBMB开源社区LLM所有细分方向群+ACL25/ICML25/NAACL25投稿群->LLM所有细分领域群、投稿群从这里进入!OpenAI o1 和 o ...
教育   2025-01-04 21:36   江苏  
好久不写知乎了,新年除个草。其实这个碎碎念上个月就写好了,没发。现在想想反正写都写了,就图一乐呗,大家随便看看。知乎:周博磊链接:https://zhuanlan.zhih ...
教育   2025-01-04 21:36   江苏  
来源:oldpan原文:https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-5-dynamic-se ...
教育   2025-01-04 21:36   江苏  
来自:大猿搬砖简记这篇文章想来探索Megatron中实现计算通信overlap的方法。具体来说,Megatron的dp、tp和pp部分,都有可以做overlap的地方,本文 ...
教育   2025-01-03 19:41   江苏  
看完技术报告,从infra的视角分享一些个人看法,供大家讨论。首先,训练超大号的MoE模型,仅使用两千张H800加两个月的时间,就能达到如此好的效果,这点实在是太强了。只能 ...
教育   2025-01-03 19:41   江苏  
背景在 AI 相关的面试中,经常会有面试官让写 self-attention,但是因为 transformer 这篇文章其实包含很多的细节,因此可能面试官对于 self-a ...
教育   2025-01-02 15:57   江苏  
腾讯AI Lab和上交发现在面对一个基本的算术问题“2+3=?”时,o1类LLMs为何会表现出过度思考的现象。这个问题虽然简单,但它揭示了当在处理复杂任务时,这些模型是否真 ...
教育   2025-01-02 15:57   江苏  
来自:ChallengeHubLLM所有细分方向群+ACL25/ICML25/NAACL25投稿群->LLM所有细分领域群、投稿群从这里进入!2024年,RAG(Re ...
教育   2025-01-02 15:57   江苏  
来自:SimpleAI and ...最近阅读了 Anthropic 发表于12月20号的一篇文章《Building effective agents》(https://w ...
教育   2025-01-01 19:39   江苏  
大家新年好!祝大家新的一年薪资歘欻的涨,论文嗖嗖的发!没错,就在前几天,Microsoft发布的arxiv里竟然写了OpenAI闭源的大模型的具体参数!(消息来自:xhs博 ...
教育   2025-01-01 19:39   江苏  
1. 主题语言模型不听话怎么办?关于格式忠实性的探索2. 时间2025.1.3 20:00-21:003. 引言遵循给定的格式要求生成结构良好的文本是大语言模型的一项基本功 ...
深度学习自然语言处理
一个热衷于深度学习与NLP前沿技术的平台,期待在知识的殿堂与你相遇~
 热门文章