首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
公众号
AINLP
周期
2025年01月
2024年12月
2024年11月
2024年10月
2024年09月
2024年08月
2024年07月
2024年06月
2024年05月
2024年04月
2024年03月
2024年02月
2024年01月
2023年12月
2023年11月
2023年10月
2023年09月
2023年08月
2023年07月
2023年06月
2023年05月
2023年04月
2023年03月
2023年02月
2023年01月
2022年12月
2022年11月
2022年10月
2022年09月
2022年08月
2022年07月
2022年06月
2022年05月
2022年04月
2022年03月
2022年02月
2022年01月
2021年12月
2021年11月
2021年10月
2021年09月
2021年08月
2021年07月
2021年06月
2021年05月
2021年04月
2021年03月
2021年02月
2021年01月
2020年12月
2020年11月
2020年10月
2020年09月
2020年08月
2020年07月
2020年06月
2020年05月
2020年04月
2020年03月
2020年02月
2020年01月
共找到
21
条记录
2024年RAG:回顾与展望
学术
2025-01-06 22:43
江苏
2024年,RAG(Retrieval-Augmented Generation)技术经历了从狂热到理性的蜕变,成为大模型应用领域不可忽视的关键力量。年初,AI的“无所不能 ...
Baichuan Alignment Technical Report 论文精读
学术
2025-01-06 22:43
江苏
前言最近在研究如果更好的制备通用 SFT 数据,baichuan 这篇文章对通用 SFT和 RLHF 两大技术进行了全面,个人认为非常具有参考意义。Baichuan 将对齐 ...
[vLLM vs TensorRT-LLM] :系统调度schedule比较
学术
2025-01-06 22:43
江苏
来源:oldpan原文:https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-4-which-sche ...
工作近五年,谈谈各类公司和部门的区别
学术
2025-01-06 22:43
江苏
从实习到工作这些年,我曾在两家外企、两家国内互联网、一家初创公司和一家券商工作过。其中包括Top外企和Top国内互联网。整体下来感触还是很多的,以后可以多分享给大家。国内互 ...
千问LLM之LLM的特工行动:工具召唤功能实战案例?Agent 到底是什么?
学术
2025-01-06 22:43
江苏
智能体Agent新鲜吗?并不新鲜,因为我们之前处理LLM的输出的时候,代码中也会有一些判断是否可以采用LLM的输出,还是需要调用别的信息。不过Agent把之前hardcod ...
从infra的视角聊聊DeepSeek-V3
学术
2025-01-04 20:09
江苏
看完技术报告,从infra的视角分享一些个人看法,供大家讨论。首先,训练超大号的MoE模型,仅使用两千张H800加两个月的时间,就能达到如此好的效果,这点实在是太强了。只能 ...
文末赠书 | 技术人的年末书单,这10本最受欢迎!
学术
2025-01-04 20:09
江苏
一年过去,我们如何勾勒自己的2024?这里借用一位相熟多年书友的回答,“认真阅读,好好践行。”这种对阅读最朴素的认知,不失为抵抗现实焦虑的一剂良药。我们结合销量、口碑,阅读 ...
图解Megatron TP中的计算通信overlap
学术
2025-01-04 20:09
江苏
这篇文章想来探索Megatron中实现计算通信overlap的方法。具体来说,Megatron的dp、tp和pp部分,都有可以做overlap的地方,本文探索的是tp部分( ...
曾经火热的Graph Embedding和GNN在推荐系统上还有前途吗?
学术
2025-01-04 20:09
江苏
曾经火热的Graph Embedding和GNN在推荐系统上还有前途吗?前段时间回答了一个问题 为什么最近几年,没人在推荐系统里去玩 GNN 模型,GNN 是凉透了吗? 感 ...
千问LLM:什么是 Sharding? 之ZeRO 优化(Zero Redundancy Optimizer)
学术
2025-01-04 20:09
江苏
还记得小时候第一次看到《西游记》中孙悟空遇到一堆妖怪的时候,都是拔出一根毫毛变成成千上万个小猴子,把小妖怪都分给每个小猴子,这样大大缓解了美猴王的压力,但是也可能会增加孙悟 ...
谷歌41岁天才科学家SuperGLUE之父英年早逝!两月前留下绝笔:从事大模型研究让我深陷抑郁!
学术
2025-01-03 18:22
江苏
来源新智元 | 编辑部 HYZ【导读】就在刚刚,噩耗传来:年仅41岁的谷歌DeepMind天才科学家Felix Hill英年早逝。他的一篇博客揭露了AI研究者面临的巨大压 ...
手写self-attention的四重境界 self-attention
学术
2025-01-03 18:22
江苏
背景在 AI 相关的面试中,经常会有面试官让写 self-attention,但是因为 transformer 这篇文章其实包含很多的细节,因此可能面试官对于 self-a ...
评价deepseek v3:又一个相信自己比英伟达懂GPU计算并做到了的团队
学术
2025-01-03 18:22
江苏
我觉得 deepseek v3 主要做成了 2 件事:继 flash attention 之后,又一个相信自己比英伟达懂 GPU 计算,并且做到了的团队;找到了 pretr ...
微软公布OpenAI闭源模型参数!4o-mini 8B!
学术
2025-01-03 18:22
江苏
大家新年好!祝大家新的一年薪资歘欻的涨,论文嗖嗖的发!没错,就在前几天,Microsoft发布的arxiv里竟然写了OpenAI闭源的大模型的具体参数!(消息来自:xhs博 ...
LLM 预训练到头了吗?
学术
2025-01-03 18:22
江苏
今天给大家带来的是好友@Binyuan的一篇想法,主要是对Ilya的“pre-training as we know it will end” 观点的看法。正文如下:最近, ...
DeepSeek-V3技术报告解读
学术
2025-01-02 22:16
江苏
作者:吕阿华原文:https://zhuanlan.zhihu.com/p/1489055778212月中旬,我浙之光Deepseek宣布完成了v2.5的最后一次升级之后 ...
长文 | 大模型Post-Training总结
学术
2025-01-02 22:16
江苏
今天给大家带来一篇知乎好友@hadiii的一篇文章,汇总Llama3.1、DeepSeek-V3、TÜLU 3和Qwen2.5的后训练Post-Training技术。知乎: ...
2024年大模型总结与展望(技术下篇)
学术
2025-01-02 22:16
江苏
接续上文《2024年大模型总结与展望(技术上篇)》1.3算力 大模型热潮进一步推动计算底座迭代升级。主要表现三大趋势特点: 芯片架构定制化以迎合Trans ...
一本醍醐灌顶的「大语言模型提示工程」教科书,熬夜读完
学术
2025-01-01 10:10
江苏
介绍大型语言模型 (LLM) 正在彻底改变世界,有望自动执行任务并解决复杂问题。新一代软件应用程序正在使用这些模型作为构建块,以释放几乎每个领域的新潜力,但可靠地访问这些功 ...
OpenAI-o3 与 Monte-Carlo 思想
学术
2025-01-01 10:10
江苏
o3 来了,分享一些个人的浅见。关于 Test-time Scaling Law 的进展,比我们想象中的要快得多。但我想说的是,这条路其实有些曲折——它是 OpenAI 在 ...
«
1
2
»
AINLP
一个有趣有AI的自然语言处理公众号:关注AI、NLP、大模型LLM、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试对对联、作诗机、藏头诗生成器、自动写作等,查询相似词,测试NLP相关工具包。
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉
热门文章
突发跳水,失守3200点!刚刚,财政部重磅发声!
孙哥拉李培楠做最后的告别
白板打100万战功/ 0损兵秒姜维飞熊,最强孙权队伍/定军山可用【白板T0专杀满红+战法搭配】
体检报告这10类“异常”,不用过度担心
为什么他就可以不服兵役?韩人气男演员承认免兵役引不满?
最近孕期和哺乳期妈妈都在担心“这件事”, 不幸“中招”该怎么办
改善肾友预后最重要的2件事,聪明的人早就规划了!
洛杉矶山火撤离了15万人,比尔·盖茨的预言又一次成真了
苹果又降价,iPhone在中国真的卖不动了?
曾碾压华为的通信巨头:巨龙,是如何消亡的?
看完47岁长沙中年创业者死亡事件,冲击力有点大……
复出2场又罢赛!但这次不想怪小卡...
答读者问:自慰时一碰就硬,实战时却软如海绵,咋回事?
智商很高,就是心太软的三个星座女
“亡命徒的克星”,他的人生太刺激
金川集团2024年度十大新闻
真实故事||男朋友是郑州人,我和他正正经经地谈恋爱,不敢说出我妈揣的那把刀。
张颂文代言“翻车”!海澜之家的P图水平,被网友骂惨了……
盒马奋力一跃
惊爆!北约对乌举起“制裁大棒”
所以,让谁来接盘呢?
艺术史上的今天——又一位坚守者倒下了
惊天大变?援俄的朝鲜军队,要是调转兵锋,奇袭韩国!结局真不敢想象
1.10股市早8点丨A股:三九四九冰上走
说说我选择的股(20250110)
请告诉儿女:找对象,有房有车已经过时了,需要有“新三样”【早课】第2198期
杏林早报 | 冬季慢病巧调养——慢性咳嗽
赚钱效应回暖了
朗诵:新的一年——愿你梦想滚烫,好运连连
1月1日起:农村用电缴费标准公告!每度电多少钱?“一户多人口”家庭将省一笔钱!新规来了!
2024年,招商蛇口,亮出一副好牌
一位安全总监的年度总结与反思
赵露思骑虎难下了
“一个男人是玩一玩,还是真爱,其实很明显”
离谱!太离谱了!!
《万物契约》转向单机,并不让人意外
王星星主演缅北诈骗短剧?鹿晗做慈善洗白?猴子男在外养小妹?矮胖男是电诈集团大股东?谢霆锋张柏芝复婚? 大眼花x需求巨大?
冬季减肥困难我知道,但这个原因我是真没想到!
内政:小乔最强玩法-鱼鳞阵解读-四不像阵法
很意外,是外卖打响了新年“反内卷”第一枪,影响巨大
活成自己,很难,但他做到了
[1月9日]指数估值数据(高溢价的ETF还能买吗;红利指数估值表更新;抄底达人徽章来了)
不拼到最后不知道结果,雷厉绝境翻盘!第37届排位赛全明星90-99级分组冠军——二〇二四1队
深度 | 时尚零售如何借新场景突围?
建议:不要和任何人说太多话
做单机还是搞网游,燕云十六声还在纠结
招聘丨新年新征程,2025在高通开启你的高光时刻
展望2025!大湾区四城地铁新线开通预测!
看了剧版《百年孤独》才明白:生命的解药,在你自己手里
CES“奇葩大赏”,自留无用,送朋友挨打
把话放这了,全上海最好吃好玩的年货集(之一
北京楼市:朝阳跌疯了
2025年:别高估人性,别不识人心
华为手机重回第一,小米第二
马斯克,再度放话!
想不到她红了这么多年,依旧没对手啊!
这个板块四连阳!
有1岁孩子感染甲流出现急性坏死性脑炎去世,这类新闻怎么看?
“燕冬萍的微笑”,既不是毒药、也不是解药,而是刺激所有人都要思考自己真正的需要!
6亿票房背后,是一束“小小”的光
曾经被骂太胖,现在这么惊艳?
全部腰斩!北京最惨小区排行榜
全国4所高校冲刺改名,2025年有望由学院升级为“大学”,今年适合低分捡漏
有了侧支循环,就不用放支架了吗?
涨停!涨停!新热点爆了......
海绵玩2K丨OL1,近代指环王!还挺好玩儿,SSR-罗伯特.霍里(经典版):装备1级快速出手和3级接球的空间四号位!
无证网约车司机要求平台“报销”罚款,客服答复很有水平!
丹麦政府居然松口了
渣女?她被前男友曝光欠钱劈腿,两年后才发文自我澄清?
重磅!杭州新建3座高铁站,交通格局巨变!