WXRedian | AINLP

公众号 AINLP

周期

共找到 21 条记录

2024年RAG：回顾与展望

学术 2025-01-06 22:43 江苏

2024年，RAG（Retrieval-Augmented Generation）技术经历了从狂热到理性的蜕变，成为大模型应用领域不可忽视的关键力量。年初，AI的“无所不能 ...

Baichuan Alignment Technical Report 论文精读

学术 2025-01-06 22:43 江苏

前言最近在研究如果更好的制备通用 SFT 数据，baichuan 这篇文章对通用 SFT和 RLHF 两大技术进行了全面，个人认为非常具有参考意义。Baichuan 将对齐 ...

[vLLM vs TensorRT-LLM] ：系统调度schedule比较

学术 2025-01-06 22:43 江苏

来源：oldpan原文：https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-4-which-sche ...

工作近五年，谈谈各类公司和部门的区别

学术 2025-01-06 22:43 江苏

从实习到工作这些年，我曾在两家外企、两家国内互联网、一家初创公司和一家券商工作过。其中包括Top外企和Top国内互联网。整体下来感触还是很多的，以后可以多分享给大家。国内互 ...

千问LLM之LLM的特工行动：工具召唤功能实战案例？Agent 到底是什么？

学术 2025-01-06 22:43 江苏

智能体Agent新鲜吗？并不新鲜，因为我们之前处理LLM的输出的时候，代码中也会有一些判断是否可以采用LLM的输出，还是需要调用别的信息。不过Agent把之前hardcod ...

从infra的视角聊聊DeepSeek-V3

学术 2025-01-04 20:09 江苏

看完技术报告，从infra的视角分享一些个人看法，供大家讨论。首先，训练超大号的MoE模型，仅使用两千张H800加两个月的时间，就能达到如此好的效果，这点实在是太强了。只能 ...

文末赠书 | 技术人的年末书单，这10本最受欢迎！

学术 2025-01-04 20:09 江苏

一年过去，我们如何勾勒自己的2024？这里借用一位相熟多年书友的回答，“认真阅读，好好践行。”这种对阅读最朴素的认知，不失为抵抗现实焦虑的一剂良药。我们结合销量、口碑，阅读 ...

图解Megatron TP中的计算通信overlap

学术 2025-01-04 20:09 江苏

这篇文章想来探索Megatron中实现计算通信overlap的方法。具体来说，Megatron的dp、tp和pp部分，都有可以做overlap的地方，本文探索的是tp部分（ ...

曾经火热的Graph Embedding和GNN在推荐系统上还有前途吗？

学术 2025-01-04 20:09 江苏

曾经火热的Graph Embedding和GNN在推荐系统上还有前途吗？前段时间回答了一个问题为什么最近几年，没人在推荐系统里去玩 GNN 模型，GNN 是凉透了吗？感 ...

千问LLM：什么是 Sharding? 之ZeRO 优化（Zero Redundancy Optimizer）

学术 2025-01-04 20:09 江苏

还记得小时候第一次看到《西游记》中孙悟空遇到一堆妖怪的时候，都是拔出一根毫毛变成成千上万个小猴子，把小妖怪都分给每个小猴子，这样大大缓解了美猴王的压力，但是也可能会增加孙悟 ...

谷歌41岁天才科学家SuperGLUE之父英年早逝！两月前留下绝笔：从事大模型研究让我深陷抑郁！

学术 2025-01-03 18:22 江苏

来源新智元 | 编辑部 HYZ【导读】就在刚刚，噩耗传来：年仅41岁的谷歌DeepMind天才科学家Felix Hill英年早逝。他的一篇博客揭露了AI研究者面临的巨大压 ...

手写self-attention的四重境界 self-attention

学术 2025-01-03 18:22 江苏

背景在 AI 相关的面试中，经常会有面试官让写 self-attention，但是因为 transformer 这篇文章其实包含很多的细节，因此可能面试官对于 self-a ...

评价deepseek v3：又一个相信自己比英伟达懂GPU计算并做到了的团队

学术 2025-01-03 18:22 江苏

我觉得 deepseek v3 主要做成了 2 件事：继 flash attention 之后，又一个相信自己比英伟达懂 GPU 计算，并且做到了的团队；找到了 pretr ...

微软公布OpenAI闭源模型参数！4o-mini 8B！

学术 2025-01-03 18:22 江苏

大家新年好！祝大家新的一年薪资歘欻的涨，论文嗖嗖的发！没错，就在前几天，Microsoft发布的arxiv里竟然写了OpenAI闭源的大模型的具体参数！（消息来自：xhs博 ...

LLM 预训练到头了吗？

学术 2025-01-03 18:22 江苏

今天给大家带来的是好友@Binyuan的一篇想法，主要是对Ilya的“pre-training as we know it will end” 观点的看法。正文如下：最近， ...

DeepSeek-V3技术报告解读

学术 2025-01-02 22:16 江苏

作者：吕阿华原文：https://zhuanlan.zhihu.com/p/1489055778212月中旬，我浙之光Deepseek宣布完成了v2.5的最后一次升级之后 ...

长文 | 大模型Post-Training总结

学术 2025-01-02 22:16 江苏

今天给大家带来一篇知乎好友@hadiii的一篇文章，汇总Llama3.1、DeepSeek-V3、TÜLU 3和Qwen2.5的后训练Post-Training技术。知乎： ...

2024年大模型总结与展望（技术下篇）

学术 2025-01-02 22:16 江苏

接续上文《2024年大模型总结与展望（技术上篇）》1.3算力大模型热潮进一步推动计算底座迭代升级。主要表现三大趋势特点：芯片架构定制化以迎合Trans ...

一本醍醐灌顶的「大语言模型提示工程」教科书，熬夜读完

学术 2025-01-01 10:10 江苏

介绍大型语言模型（LLM）正在彻底改变世界，有望自动执行任务并解决复杂问题。新一代软件应用程序正在使用这些模型作为构建块，以释放几乎每个领域的新潜力，但可靠地访问这些功 ...

OpenAI-o3 与 Monte-Carlo 思想

学术 2025-01-01 10:10 江苏

o3 来了，分享一些个人的浅见。关于 Test-time Scaling Law 的进展，比我们想象中的要快得多。但我想说的是，这条路其实有些曲折——它是 OpenAI 在 ...

« 12 »

AINLP

一个有趣有AI的自然语言处理公众号：关注AI、NLP、大模型LLM、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人，尝试对对联、作诗机、藏头诗生成器、自动写作等，查询相似词，测试NLP相关工具包。

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉