周期
共找到 21 条记录
学术   2025-01-06 22:43   江苏  
2024年,RAG(Retrieval-Augmented Generation)技术经历了从狂热到理性的蜕变,成为大模型应用领域不可忽视的关键力量。年初,AI的“无所不能 ...
学术   2025-01-06 22:43   江苏  
前言最近在研究如果更好的制备通用 SFT 数据,baichuan 这篇文章对通用 SFT和 RLHF 两大技术进行了全面,个人认为非常具有参考意义。Baichuan 将对齐 ...
学术   2025-01-06 22:43   江苏  
来源:oldpan原文:https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-4-which-sche ...
学术   2025-01-06 22:43   江苏  
从实习到工作这些年,我曾在两家外企、两家国内互联网、一家初创公司和一家券商工作过。其中包括Top外企和Top国内互联网。整体下来感触还是很多的,以后可以多分享给大家。国内互 ...
学术   2025-01-06 22:43   江苏  
智能体Agent新鲜吗?并不新鲜,因为我们之前处理LLM的输出的时候,代码中也会有一些判断是否可以采用LLM的输出,还是需要调用别的信息。不过Agent把之前hardcod ...
学术   2025-01-04 20:09   江苏  
看完技术报告,从infra的视角分享一些个人看法,供大家讨论。首先,训练超大号的MoE模型,仅使用两千张H800加两个月的时间,就能达到如此好的效果,这点实在是太强了。只能 ...
学术   2025-01-04 20:09   江苏  
一年过去,我们如何勾勒自己的2024?这里借用一位相熟多年书友的回答,“认真阅读,好好践行。”这种对阅读最朴素的认知,不失为抵抗现实焦虑的一剂良药。我们结合销量、口碑,阅读 ...
学术   2025-01-04 20:09   江苏  
这篇文章想来探索Megatron中实现计算通信overlap的方法。具体来说,Megatron的dp、tp和pp部分,都有可以做overlap的地方,本文探索的是tp部分( ...
学术   2025-01-04 20:09   江苏  
曾经火热的Graph Embedding和GNN在推荐系统上还有前途吗?前段时间回答了一个问题 为什么最近几年,没人在推荐系统里去玩 GNN 模型,GNN 是凉透了吗? 感 ...
学术   2025-01-04 20:09   江苏  
还记得小时候第一次看到《西游记》中孙悟空遇到一堆妖怪的时候,都是拔出一根毫毛变成成千上万个小猴子,把小妖怪都分给每个小猴子,这样大大缓解了美猴王的压力,但是也可能会增加孙悟 ...
学术   2025-01-03 18:22   江苏  
 来源新智元 | 编辑部 HYZ【导读】就在刚刚,噩耗传来:年仅41岁的谷歌DeepMind天才科学家Felix Hill英年早逝。他的一篇博客揭露了AI研究者面临的巨大压 ...
学术   2025-01-03 18:22   江苏  
背景在 AI 相关的面试中,经常会有面试官让写 self-attention,但是因为 transformer 这篇文章其实包含很多的细节,因此可能面试官对于 self-a ...
学术   2025-01-03 18:22   江苏  
我觉得 deepseek v3 主要做成了 2 件事:继 flash attention 之后,又一个相信自己比英伟达懂 GPU 计算,并且做到了的团队;找到了 pretr ...
学术   2025-01-03 18:22   江苏  
大家新年好!祝大家新的一年薪资歘欻的涨,论文嗖嗖的发!没错,就在前几天,Microsoft发布的arxiv里竟然写了OpenAI闭源的大模型的具体参数!(消息来自:xhs博 ...
学术   2025-01-03 18:22   江苏  
今天给大家带来的是好友@Binyuan的一篇想法,主要是对Ilya的“pre-training as we know it will end” 观点的看法。正文如下:最近, ...
学术   2025-01-02 22:16   江苏  
 作者:吕阿华原文:https://zhuanlan.zhihu.com/p/1489055778212月中旬,我浙之光Deepseek宣布完成了v2.5的最后一次升级之后 ...
学术   2025-01-02 22:16   江苏  
今天给大家带来一篇知乎好友@hadiii的一篇文章,汇总Llama3.1、DeepSeek-V3、TÜLU 3和Qwen2.5的后训练Post-Training技术。知乎: ...
学术   2025-01-02 22:16   江苏  
接续上文《2024年大模型总结与展望(技术上篇)》1.3算力        大模型热潮进一步推动计算底座迭代升级。主要表现三大趋势特点:   芯片架构定制化以迎合Trans ...
学术   2025-01-01 10:10   江苏  
介绍大型语言模型 (LLM) 正在彻底改变世界,有望自动执行任务并解决复杂问题。新一代软件应用程序正在使用这些模型作为构建块,以释放几乎每个领域的新潜力,但可靠地访问这些功 ...
学术   2025-01-01 10:10   江苏  
o3 来了,分享一些个人的浅见。关于 Test-time Scaling Law 的进展,比我们想象中的要快得多。但我想说的是,这条路其实有些曲折——它是 OpenAI 在 ...
AINLP
一个有趣有AI的自然语言处理公众号:关注AI、NLP、大模型LLM、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试对对联、作诗机、藏头诗生成器、自动写作等,查询相似词,测试NLP相关工具包。
 热门文章