周期
共找到 50 条记录
文摘   2024-07-24 10:40   上海  
Meta Llama 3.1 多语言大型语言模型 (LLM) 集合是一组经过预训练和指令调整的生成模型,大小分别为 8B、70B 和 405B(文本输入/文本输出)。Lla ...
文摘   2024-07-24 10:40   上海  
这篇论文探讨了预训练语言模型(LMs)如何通过聚合推理路径来进行复杂推理的问题。作者提出了将LM视为在预训练时聚合间接推理路径的观点,并将其应用于逻辑推理和链式思维推理等重 ...
文摘   2024-07-24 10:40   上海  
夕小瑶科技说 原创作者 | 付奶茶根据路透社昨日的最新报道,英伟达正在开发一款专门面向中国市场的芯片,型号为B20,这一版本的芯片主要是为了迎合美国现在对芯片出口管制的策略 ...
文摘   2024-07-23 10:22   上海  
马斯克表示,特斯拉将在明年小规模生产人形机器人,供特斯拉内部使用,并有望在2026年大规模量产,供其他公司使用。对特斯拉来说,打造出真正有竞争力的机器人,需要顶尖的AI、高 ...
文摘   2024-07-23 10:22   上海  
近日,英伟达发布了ChatQA 2模型,其想法是弥合开源模型和领先模型如GPT-4-Turbo之间的差距。文中提出了一种训练方法,以有效地扩展 Llama3-70B 的上下 ...
文摘   2024-07-23 10:22   上海  
LLama3 405B的风声已久,此前有小道消息提到:「Meta Platforms计划在7月23日发布其开源的Llama 3模型的最大版本,据一位Meta员工透露。这个版 ...
文摘   2024-07-22 20:40   上海  
夕小瑶科技说 原创作者 | 海野昨天,第65届IMO(国际数学奥林匹克竞赛)决赛成绩公布,中国队因2分之差憾失冠军。从中国队的得分情况来看,其中第5题是中国队失分最严重的一 ...
文摘   2024-07-22 20:40   上海  
KV Cache的基本原理?最本质的原理是避免重复计算,将需要重复计算的结果进行缓存,需要缓存的值为历史token对应的KV值,所以叫KV Cache。预测新的token只 ...
文摘   2024-07-22 20:40   上海  
点击上方 硬AI 关注我们根据市场共识预期,2024年全球云厂商资本支出预计将达到2,270亿美元,同比增长39%,创历史新高。AI芯片、AI网络、HBM内存和服务器CPU ...
文摘   2024-07-22 16:27   上海  
Google Research 是第 41 届国际机器学习大会(ICML 2024) 的钻石赞助商,该大会是顶级年度会议,本周在奥地利维也纳举行。作为机器学习研究领域的领导 ...
文摘   2024-07-22 16:27   上海  
引言简介Gemma 2模型介绍架构设计训练方法后训练优化关键发现:知识蒸馏的影响性能评估使用体验:Hugging Chat如何提示 Gemma 2基于Hugging Fac ...
文摘   2024-07-22 16:27   上海  
来源:量子位只需激活60%的参数,就能实现与全激活稠密模型相当的性能。微软亚洲研究院的一项新研究,实现了模型的完全稀疏激活,让推理成本大幅下降。而且适用范围广泛,无论是从头 ...
文摘   2024-07-19 10:28   上海  
  新智元报道  编辑:编辑部【新智元导读】GPT-4o mini深夜忽然上线,OpenAI终于开卷小模型!每百万输入token已达15美分的超低价,跟GPT-3相比,两年 ...
文摘   2024-07-19 10:28   上海  
【134. 加油站】在一条环路上有 n 个加油站,其中第 i 个加油站有汽油 gas[i] 升。你有一辆油箱容量无限的的汽车,从第 i 个加油站开往第 i+1 个加油站需要 ...
文摘   2024-07-19 10:28   上海  
论文:Self-play with Execution Feedback: Improving Instruction-following Capabilities of ...
文摘   2024-07-18 13:47   上海  
Qwen2 系列发布了一整套基础和指令调整的语言模型,参数范围从 0.5 到 720 亿,包括四个密集模型,参数数量分别为 5 亿、15 亿、70 亿和 720 亿,加上一 ...
文摘   2024-07-18 13:47   上海  
作者提出了一种估计大型语料中文本被大型语言模型大幅修改或产生的比例的方法。文中的最大似然模型利用专家编写和人工智能生成的参考文本,在语料库级别准确有效地检查现实世界的 LL ...
文摘   2024-07-18 13:47   上海  
【二叉树的层序遍历】/** * Definition for a binary tree node. * struct TreeNode { * int val; ...
文摘   2024-07-17 00:00   上海  
点击上方 硬AI 关注我们一些AI独角兽陷入“生存困境”的同时,大厂开启"另类收购"。   硬·AI   作者 | 申思琦      编辑 | 硬 AI在2024年夏天,人 ...
文摘   2024-07-17 00:00   上海  
“如何提升大模型RAG系统的推理能力,尤其是RAG中的Generation部分,即假定我们已经检索到了Top K的相关文档出来之后,如何排除不相干的信息?如何根据已有信息进 ...
互联网持续学习圈
清华大学计算机系校友、前微软、阿里高级算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者,持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先,文艺其从,陪你进化二十年。
 热门文章