AI时代的“四大家族”：谷歌、OpenAI、Meta与斯坦福大学

文摘 2024-07-30 11:31 北京

光速（Lightspeed）整理了在AI研究领域最有影响力的四大家族：谷歌、OpenAI、Meta、斯坦福大学。

本文整理了AI四大家族的部分核心论文以及其价值，以及部分作者离开后的最新动向（原文有若干错误，一并更正）。

1.谷歌

TensorFlow: A system for large-scale machine learning （2016）

TensorFlow 对机器学习开发人员的生产力产生了重大影响。它允许开发人员定义机器学习模型，而无需编写用于数值计算的低级代码，从而简化了开发流程并减少了构建和试验模型所需的时间。

此外，TensorFlow 可以部署在各种硬件平台上，包括 CPU、GPU 和 TPU（张量处理单元）。这种灵活性使开发人员可以根据自己的特定需求选择最佳硬件，并高效地训练大型模型。

离职的作者及其动向：

Geoffrey Irving：英国人工智能安全研究所（AISI）的研究总监
Manjunath Kudlur：Useful Sensors 首席技术官、联合创始人
Rajat Monga：2020年-2023年是Inference.io的联合创始人、CEO，2024年5月已加入微软担任AI框架平台首席副总裁（CVP AI Frameworks）
Vijay Vasudevan：Lutra AI联合创始人
Pete Warden：Useful Sensors CEO（没错就是此前跟Manjunath Kudlur一共从谷歌出来创业，但现在已经分道扬镳，或许其中还有什么故事）
Xiaoqiang Zheng：成立或者加入了一家隐形模式初创公司（Stealth mode startup）

Attention Is All You Need (2017)

Transformer 是模型架构的一个重大突破。在本文发表之前，大多数序列传导模型都依赖于循环神经网络 (RNN) 或卷积神经网络 (CNN) 来捕捉序列中元素之间的关系。由于 RNN 具有顺序性，因此训练速度可能特别慢。

本文提出了一种新架构 Transformer，它完全依赖于一种称为“自注意力”的注意力机制。这使模型能够直接关注输入序列的相关部分，从而更好地理解长距离依赖关系。Transformer 架构通过消除 RNN 来加快训练速度，在机器翻译任务上表现出色，并广泛适用于文本摘要、问答和文本生成等任务。

这篇论文的作者——Transformer论文八子已经悉数离职，其最新动态为：

Niki Parmar：Essential AI联合创始人
Ashish Vaswani：Essential AI联合创始人、CEO
Jakob Uszkoreit：Inceptive联合创始人、CEO
Llion Jones：Sakana AI联合创始人
Aidan N. Gomez：Cohere联合创始人、CEO
Lukasz Kaiser：OpenAI研究员
Illia Polosukhin：NEAR Protocol联合创始人
Noam Shazeer：Character.AI CEO（这个光速的图里漏掉了）

Training Compute-Optimal Large Language Models (2022)

本文探讨了训练 LLM 的最佳计算预算的概念，认为当前的模型往往训练不足，因为人们注重扩展模型大小，同时保持训练数据量不变 - 而为了实现最佳计算使用率，模型大小和训练数据量应按比例缩放。本文介绍了 Chinchilla，这是一种使用这种最佳计算方法训练的大型语言模型。

离职的作者及其动向：

Arthur Mensch：Mistral AI联合创始人、CEO
Karen Simonyan：Inflection AI联合创始人、首席科学家。今年3月被微软收购，现在为Microsoft AI首席科学家

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2023)

通常，LLM 可以给出看似正确的答案，而无需揭示其背后的推理过程，但思路链提示可以显著改善大型语言模型 (LLM) 执行推理任务的方式，将推理步骤的示例纳入用于指导 LLM 的提示中，引导其在解决问题时逐步明确地展示其推理过程。使用这种技术训练的 LLM 在数学应用题、回答常识性问题和执行符号操作等推理任务上表现出更好的表现。

该论文的作者，光速全给搞错了。我们重新梳理一下：

Jason Wei：OpenAI技术团队成员；
Maarten Bosma：此前加入Inflection AI，今年4月加入微软技术团队

其他作者仍在谷歌或者谷歌DeepMind。

Flamingo: a Visual Language Model for Few-Shot Learning (2022)

本文介绍了 Flamingo，这是一种专为 VLP 任务中的小样本学习而设计的视觉语言模型 (VLM)。虽然以前的研究主要关注语言或视觉的小样本学习，但 Flamingo 专门解决了组合 VLP 领域的挑战。Flamingo 利用预先训练的模型进行图像理解和语言生成，从而减少了微调所需的数据量。

这篇论文光速没有整理离开的作者及其动向。大部分作者仍然在谷歌，只有两位离职：

Jacob Menick：OpenAI研究团队
Karen Simonyan：Microsoft AI首席科学家

2.OpenAI

Language Models are Unsupervised Multitask Learners (2019)

过去，训练 LLM 涉及监督学习，需要大量针对所需任务的标记数据。本文探讨了无监督学习的潜力，其中模型从大量未标记的文本数据中学习。

通过对大量未标记的文本数据进行训练，LLM 可以自然而然地学会执行各种任务（多任务学习），而无需明确的任务特定监督。这种无监督学习使模型能够捕获一般的语言理解和可应用于各种下游任务的能力。无监督学习还可以提高效率 - 当针对特定任务进行微调时，LLM 可以从较少量的标记数据中学习。

离职的作者及其动向：

Dario Amodei：Anthropic联合创始人、CEO
Rewon Child：此前加入Inflection AI，现在为微软技术顾问
David Luan：Adept联合创始人、CEO
Ilya Sutskever：Safe Superintelligence联合创始人、首席科学家

Language Models Are Few-Shot Learners (2020)

本文表明，LLM 只需几个示例（小样本学习）即可学习新任务，这使得它们更适合各种任务，在这些任务中，获取大量标记数据可能成本高昂或困难重重。这挑战了 LLM 始终需要大量数据才能获得良好性能的传统观点，并凸显了 LLM 的小样本学习能力——提高了样本效率，这意味着仅使用几个示例进行微调就可以在新任务上获得令人惊讶的良好性能，并加快了模型部署速度，这意味着即使在标记数据稀缺的情况下，模型也可以快速适应。

该论文的作者Dario Amodei、Jack Clark、Benjamin Mann、Sam McCandlish、Tom B. Brown全部是Anthropic的联合创始人。

Scaling Laws for Neural Language Models (2020)

通过量化模型大小、数据大小、计算机和性能之间的关系，本文在理解如何优化用于训练大型语言模型（LLM）的计算资源方面取得了重大突破。

通过了解这些扩展规律，研究人员和开发人员可以就如何为 LLM 培训分配计算资源做出明智的决策。

该论文的Dario Amodei、Jared Kaplan、Sam McCandlish是Anthropic的联合创始人，Tom Henighan加入了Anthropic的技术团队。

3. Meta——Facebook AI Research

Roberta: A robustly optimized bert pretraining approach (2019)

该论文重点介绍了 BERT（Transformers 的双向编码器表示）预训练过程的改进，与 BERT 相比，该论文在各种 NLP 任务上的表现普遍更好，训练收敛速度更快，从而使开发人员能够更快地迭代模型并减少时间。这意味着缩短了训练时间，使开发人员能够更快地迭代模型，并在微调阶段花更少的时间在超参数上。尽管 Roberta 的论文不如其前作那么具有变革性和知名度，但它的独特之处在于，几位合著者通过创立或领导新的初创公司来发展 AI 生态系统，其中包括 Tome、Character.ai 和 Birch.ai 的高管。

离职作者及其动向：

Ves Stoyanov：Tom人工智能主管
Yinhan Liu：此前为Birch.ai联合创始人、CTO，在2024年2月成立LeyLine并担任CEO
Myle Ott：Character.AI创始研究员
其他作者：加入了Meta或者DeepMind

Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences (2019)

传统上，分析蛋白质结构和功能依赖于需要标记数据（例如，实验确定的结构）的技术。本文探讨了在大量蛋白质序列数据集（2.5 亿）上使用无监督学习来学习蛋白质的固有属性。通过对大量未标记的序列数据训练深度学习模型，该模型可以学习捕获有关蛋白质的重要生物信息的表示。这包括二级结构、残基间接触甚至潜在生物活性等方面。

离职作者及其动向：

郭文景：Pika联合创始人、CEO
Myle Ott：Character.AI创始研究员
Joshua Meier：Absci AI主管
Jerry Ma：USPTO新兴技术总监兼首席人工智能官
Siddharth Goyal：谷歌研究员（光速这里又搞错了...)
Alex Rives：EvolutionaryScale首席科学家
Rob Fergus：DeepMind研究科学家，纽约大学计算机科学教授

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (2020)

LLM 经过大量文本数据的训练，但经常难以完成需要访问和推理特定事实知识的任务。本文提出了一种称为检索增强生成 (RAG) 的新模型架构。RAG 结合了两个关键组件 - 检索（一个根据输入提示或问题从外部知识库检索相关文档的模块）和生成（一个强大的 LLM，它使用检索到的文档及其自身知识来生成响应）。

这种双内存架构提高了知识密集型任务（问答、总结事实主题）的性能，并且语言更加精确和真实。RAG 为 LLM 知识访问受限问题提供了解决方案。它表明，通过将强大的语言模型与外部知识源相结合，我们可以在知识密集型任务上取得更好的结果。

离职作者及其动向：

Douwe Kiela：Contextual AI联合创始人、CEO
Heinrich Küttler：此前加入Inflection AI，今年4月加入马斯克的xAI
Fabio Petroni：Samaya AI联合创始人、CTO

4. 斯坦福大学

On the Opportunities and Risks of Foundation Models （2021）

随着模型（例如 BERT、DALL-E、GPT-3）的兴起，人工智能正在经历范式转变。这些模型在大规模数据上进行训练，并可适应各种下游任务。我们将这些模型称为基础模型，以强调其至关重要但不完整的特性。

本报告详细介绍了基础模型的机遇和风险，从其功能（例如语言、视觉、机器人、推理、人机交互）和技术原理（例如模型架构、训练程序、数据、系统、安全、评估、理论）到其应用（例如法律、医疗保健、教育）和社会影响（例如不公平、滥用、经济和环境影响、法律和道德考虑）。虽然基础模型基于标准的深度学习和迁移学习，但它们的规模带来了新的新兴能力，而且它们在如此多任务中的有效性刺激了同质化。同质化提供了强大的杠杆作用，但需要谨慎，因为基础模型的缺陷会被所有下游适应的模型继承。尽管基础模型即将被广泛部署，但我们目前还不清楚它们是如何工作的，何时会失效，以及由于其新兴特性，它们能做什么。为了解决这些问题，对基础模型进行大量关键研究需要与其社会技术本质相称的深度跨学科合作。

其中一位作者Percy Liang是斯坦福大学计算机科学副教授，也是Together AI的创始人之一。

Efficiently Modeling Long Sequences with Structured State Spaces (2021)

这篇论文通常缩写为 S4，它提出了一种利用状态空间模型 (SSM) 处理长序列的新方法。RNN 和 CNNS 很难捕捉非常长的序列（数千个元素或更多）中的长距离依赖关系。S4 通过使用 SSM 来解决这个问题，SSM 具有更有效地处理长距离依赖关系的理论能力。

S4 还引入了一种名为“结构化状态空间”的新参数化技术，该技术提供了一种利用 SSM 的优势来处理长距离依赖关系同时保持计算效率的方法。这为构建能够有效处理非常长序列的模型打开了大门，同时与传统方法相比，训练和使用速度更快。

教授动向：

Karan Goel：Cartesia AI创始人、CEO
Albert Gu：Cartesia AI首席科学家
Christopher Ré：在担任斯坦福大学信息实验室计算机科学系副教授的同时，也作为联合创始人成立了SambaNova Systems与Snorkel AI

END.

延伸阅读

大语言模型专题 | 计算机视觉专题

AI模型更新 | AI技术博客 | AI深度报告

http://mp.weixin.qq.com/s?__biz=MzIxNTY4NzIyNw==&mid=2247486903&idx=1&sn=7dc7346a7b3e9086e4b71711a528969b

猜想笔记

探索AI边界

最新文章

Runway CEO：AI时代终结，真正的新媒体诞生

Kimi投放1亿、豆包投放2亿，国产AI在投流上杀疯了

a16z确认拥有2万块H100 GPU，为初创公司提供低价算力换取股权

OpenAI计划于12月发布新模型Orion，你需要了解五个背景信息

Anthropic教会大模型以人类的方式使用电脑，RPA不存在了？

萨姆·奥特曼联合创立的加密货币“世界币”重大发布

红杉资本最新发布：o1模型如何推动生成式AI进入推理竞赛？

字节跳动悄悄发布第二代机器人大模型GR-2，初步具备世界模型能力

豆包“王炸”：字节跳动一天发布两款视频生成大模型

一文收藏最全面的大模型技术图表

被称为第一个杀手级应用的Cursor，到底比Github Copilot强在哪里？

大模型会是一场泡沫吗？

贾扬清团队发文阐述关于H100 GPU的一切

《时代》周刊评选2024年AI影响力100人，梁汝波、王小川入选领导者

红杉资本熔炉时刻第9集：50岁成立ServiceNow，到避免1500亿美元的错误

超10万钉钉低代码应用完成AI化

累计融资近10亿元，清华系AI公司「无问芯穹」要做大模型时代首选的“算力运营商”

23名员工，8000张H100，融资4.65亿美元，发布1亿Tokens上下文大模型

传米哈游联合创始人蔡浩宇创立AGI公司Anuttacon，两位大佬已加入

夸克发布全新PC端，系统级全场景AI能力升级AI电脑

英伟达撕下了大模型长文本的遮羞布

为企业定制大模型，AI21 Labs估值达14亿美元，英伟达也投资了

A16z发布Top100生成式AI产品排行榜：字节跳动6款上榜

原腾讯机器人实验室1号员工创业，投身具身智能，2024年完成商业化

FLUX挑战Midjourney文生图王者地位，网友已经玩疯了

福布斯发布Cloud 100云计算榜单：平均市值82亿美元

日本公司Sakana AI发布“AI科学家”，自动撰写论文一篇15美元

特斯拉Dojo：埃隆·马斯克打造人工智能超级计算机的大计划

钢铁、服务器和电力：赢得下一阶段AI竞赛的条件

格雷格·布洛克曼是如何加入OpenAI的？

阿里云推出首个域名AI大模型应用

华为云初创生态出品大模型报告：2024年中国AI大模型场景探索及产业应用

OpenAI再次流失三位高管，萨姆·奥特曼回归不到一年最大的成就是拆家？

火山引擎119页生成式AI商业落地白皮书：给CXO的AI转型战术指南

硅谷大模型洗牌，大厂正在批量收购AI公司CEO

Stable Diffusion作者团队成立AI公司“黑森林实验室”，已获a16z领投3100万美元融资

前Stability AI CEO成立的去中心化新公司SchellingAI：如何思考民主化AI

苹果发布Apple Intelligence技术报告：没有选英伟达，在8192块TPU上训练【全文翻译】

“Salesforce之死”：为什么AI将改变下一代销售技术？

AI时代的“四大家族”：谷歌、OpenAI、Meta与斯坦福大学

Anthropic表明对SB 1047 AI监管法案立场：如果修改就支持

Coatue发布具身智能报告：通用机器人不会有ChatGPT时刻

如何使用 Llama 3.1 405B 创建合成数据？

OpenAI加入AI搜索大战！正式内测SearchGPT，下周向Plus订阅用户推出

Llama 3.1论文精读：为什么模型参数是4050亿？

Mistral发布旗舰模型Mistral Large 2：1230亿参数，代码生成、数学和推理能力显著增强

刚刚，Meta 发布全球最大开源模型Llama 3.1 405B，15项测试拿了7个第一

xAI的10万卡H100超级集群上线，马斯克亲自在工厂接光纤

苹果没有发布7B小模型，而是发布了开源数据集测试平台DCLM

刚刚，OpenAI与Mistral同时发布了各自最强小模型，针尖对麦芒

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

AI时代的“四大家族”：谷歌、OpenAI、Meta与斯坦福大学

Jason Wei：OpenAI技术团队成员；

Jacob Menick：OpenAI研究团队

Ves Stoyanov：Tom人工智能主管

Siddharth Goyal：谷歌研究员（光速这里又搞错了...)

Alex Rives：EvolutionaryScale首席科学家