写在前面
WeThinkIn最新福利放送:大家只需关注WeThinkIn公众号,后台回复“简历资源”,即可获取包含Rocky独家简历模版在内的60套精选的简历模板资源,希望能给大家在AIGC时代带来帮助。
AIGC时代的《三年面试五年模拟》算法工程师求职面试秘籍(持续更新)独家资源:https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main
Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章(持续更新),点击链接直达干货知识:https://zhuanlan.zhihu.com/p/684068402
以下文章来源于:夕小瑶科技说
作者:付奶茶
本文仅用于学术分享,如有侵权,请联系后台作删文处理
全球知名的风险投资机构红杉资本近日发布了一份专注于生成式人工智能的年度研究报告。
该报告通过广泛的数据分析和行业专家的深入访谈,详细总结了过去一年生成式人工智能领域的发展历程。
这一年,人工智能从快速反应向推理能力进化,出现了o1这样现象级的真正通用推理能力的模型,实现AI真正开始“深层次的思考”。此外,报告解读了这一技术对资本市场和商业格局的深远影响,还探讨了其对人类社会发展的潜在影响。
报告中提出的关键发现,为我们预测未来行业趋势和深入理解生成式人工智能的全面意义提供了重要的启示。奶茶给大家总结了其中的关键信息,带大家一起Get一下!
报告名称:
《Generative AI: A Creative New World》
原文链接:
https://www.sequoiacap.com/article/generative-ais-act-o1/
本文将分成十个部分展开谈谈:
巨头浮现,靠实力上桌 从“快思考”到“慢思考” 直到今天,AlphaGo的含金量还在上升 AI 思维模式:从预训练到深度推理 应用层的现状如何? 服务即软件的新时代 新一代代理性应用程序 AI 的转型会摧毁现有的云公司吗? 投资者们的钱花到哪里了 结语
巨头浮现,靠实力上桌
目前,生成式AI的基石已经逐渐稳固,而且形成了一组规模化玩家与联盟的均衡局面。
这其中包括了微软与OpenAI,亚马逊与Anthropic、Meta与谷歌的DeepMind。
随着巨头们的投入与“卷”,大量的资本和经济引擎的调动,使得游戏的规则变成, 只有拥有玩得起的资本的玩家才能继续参与竞争。尽管目前这场竞争远远没到结束的终点(正在以博弈论的方式不断升级),但是目前的市场结构本身正在固化,而且我们将拥有越来越便宜且丰富的下一个词预测(next-token predition)。
从“快思考”到“慢思考”
这不仅仅是对生成回答速度的形容。
谈及2024年的大语言模型中的C位,毫无疑问是OpenAI的o1。
在o1问世之前,无数的小道消息四处挖着OpenAI秘密研发的项目,草莓、Q*的传闻层出不穷。
当o1正式发布后,它的意义远超过OpenAI在排行榜上的领先地位。它标志着现有生成式AI架构的显著进步,迈向了一个新阶段——具备真正通用推理能力的模型。
在最初的大语言模型出现时,预训练语言模型主要基于大规模语料库来预测下一个Token,依赖于训练时的计算速度,从而实现快速推理。然而,这种方式的推理能力是有限的。与之不同的是,o1在回答之前会先“停下来思考”,虽然这需要更多的计算资源来支持推理过程,速度上可能更慢,但这才是真正的推理,不是吗?
从生成式AI的诞生到今天,大语言模型LLM已经从最初的预训练模型,迅速回应进化到o1这样在推理时进行深度思考的模型。这种进步不仅仅是提供快速的模式匹配,而是赋予AI系统在推理时进行深度思考、问题解决和认知操作的能力。这是一种“授人以渔”上的进步,它将AI的潜能推向了一个新的高度。
直到今天,AlphaGo的含金量还在上升
那模型停下来思考的时候,它在做什么呢?
报告中提到了2016年那个改变了深度学习的春天:AlphaGo对战韩国围棋国手李世石。这是一次 AI 对人类的比赛,也是让全世界第一次看到 AI 不再仅仅是模仿,它在“思考”。
AlphaGo通过从围棋数据库中学习大约3000万步棋,并通过自我对弈不断进化,从而显著提升了其技能。
与传统的AI游戏如Deep Blue不同,AlphaGo不依赖于预训练模型来快速做出反应,而是选择停下来进行深入推理。
在推理过程中,AlphaGo首先模拟并评估未来可能出现的场景,然后根据评估结果选择得分最高的策略进行回应。随着AlphaGo在推理过程中投入的时间越长,其表现逐渐提升,最终甚至超越了世界顶级的人类棋手。
在尝试模仿AlphaGo的胜利策略时,大语言模型采用了构建价值函数的方法,用以为模型生成的回答进行打分。
在围棋的场景中,这种方法相对简单,通过模拟整局比赛来确定胜者,从而计算出下一步的最佳选择。在编程中,这一方法也相对直接,可以通过运行测试来验证代码的有效性。
然而,在生成文本的场景中,如评估文章的质量、判断旅行计划的合理性或总结长文档的关键点时,情况则大为不同。这些任务涉及到更多开放性和结构化的问题,这些领域的任务明确性和逻辑性不如编程或数学,模型的表现更弱。
尽管草莓的具体技术细节仍然保密,毕竟是咱们CloseAI。
但是其核心理念就是利用模型生成的思维链进行强化学习,根据对这些思维链的分析显示,模型的推理方式已经非常贴近人类的思维模式。
例如,o1展示了在遇到难题时能够回溯推理路径的能力,这是推理时间增加的直接结果。它不仅能像人类一样思考问题(比如,通过想象球面上的点来解决几何问题),还能以全新的方式解决问题(例如,在编程竞赛中采用人类未曾使用过的方法)。
AI 思维模式:从预训练到深度推理
报告指出,AI的下一个重大突破将是从简单的预训练反应(原文中称“系统 1”)向更深层次、更有意识的推理(原文中称“系统 2”)的转变。这意味着仅仅让模型掌握知识是不够的——AI需要学会在实时决策中暂停、评估并进行推理。
预训练可以看作是系统1,它依赖于模式的模仿。无论是AlphaGo通过数百万围棋对局训练出的技能,还是大型语言模型通过大量互联网文本训练出的语言能力,它们的核心都是模仿。然而,模仿虽然强大,但并不等同于推理。它无法应对复杂的新问题,尤其是那些在训练中从未遇到的情况。
在这种情况下,“系统2”思维就显得尤为重要,这也是当前AI研究的核心。当AI模型“停下来思考”时,它不仅仅是依赖已学到的模式。相反,模型在探索多种可能性,评估各种潜在的结果,最终基于逻辑推理做出决策。
对于许多任务来说,系统1的快速反应是足够的。例如思考“不丹首都是什么”这样的问题时,停下来多想并不会带来更多帮助——你要么知道答案,要么不知道。在这种情况下,快速的模式回忆就已经足够有效。然而,对于更复杂的问题,比如数学和生物学领域的突破性发现,快速的本能反应并不能解决问题。这些重大进展通常依赖于深思熟虑、创造性解决问题的能力。
AI要想应对类似的挑战,也需要突破快速反应的限制,花时间进行深入推理,正如人类的重大进步所依赖的那种深度思维一样。
New Scaling Law:花钱的地方变了
o1的论文中提出,现在迎来了一个新的扩展规则:
过去的大语言模型一直以来遵循一个成熟的扩展法则,即你在预训练模型中投入的计算和数据越多,模型的性能就越好。但是o1 开启了一种全新的计算扩展方式:给予模型的推理时(或“测试时”)的计算越多,模型的推理能力就越强。
当模型能够思考几个小时、几天甚至几十年时,会发生什么?我们能否解决黎曼假设?能否回答阿西莫夫的最后一个问题?
这种转变将带领人类从一个依赖庞大预训练集群的世界,转向推理云——能根据任务复杂性动态扩展计算能力的环境。
遥遥领先的模型会统一世界吗?
随着OpenAI、Anthropic、Google和 Meta 热火朝天的AI军备赛的进行,各大巨头不断提升推理的能力,但是这一切的终点是什么呢?
我们会迎来一个主导一切的“超级模型”吗?
在生成式AI市场初期,曾有一种假设认为某一家模型公司可能会变得极为强大,以至于独占所有应用程序的市场。但这种预测并未完全成真,主要有两个原因。
首先,模型开发领域的竞争异常激烈。各家公司都在努力超越对手,争夺技术的领先地位。尽管理论上有可能通过广泛的自我博弈和持续优化实现技术飞跃,但到目前为止,我们还没有看到这种情况的出现。实际上,自从上次开发者大会以来,GPT-4的每词元成本已经下降了98%,这反映出模型层面的竞争之激烈。
其次,除了ChatGPT之外,其他模型并未能成功渗透到应用层,成为广泛使用的产品。现实世界的复杂性使得顶尖研究人员往往不愿意深入每一个垂直领域的所有工作流程。对他们来说,专注于API层面更为高效和合理,而将应对现实世界的复杂性留给开发者,这已成为当前的趋势。
对于应用层的开发者来说,这是无疑一个利好消息。他们有更多的机会和空间来创新和实现自己的应用,而不是仅仅依赖于某一家公司的模型。这种竞争和分工促进了整个行业的健康发展和技术创新。
现实世界的复杂性
如果你是科学家的话,实现目标的策略和执行方法与一般的软件工程师的实践大相径庭。而且就算都是工程师,不同公司、不同个体的工作模式也存在显著差异。
尽管研究实验室在不断拓展通用推理的边界,但在实际应用中,我们往往需要依赖特定场景或领域的推理能力,以确保人工智能代理的有效性。现实世界的复杂性意味着,许多领域和应用的推理需求无法通过通用模型高效解决。在这种情况下,认知架构应运而生。它定义了系统如何进行“思考”,即如何通过代码和模型的交互来处理用户输入,并据此生成行动或响应
应用层的现状如何?
那如果最近几年想在AI圈子里面创业,选择什么方向或者层次能赚大钱呢?
报告中指出,如果你需要选择一个具体的层次来进行竞争,就需要考虑一下以下难题:
是否考虑在基础设施层挑战NVIDIA和大型云服务提供商 在模型层与OpenAI和马克·扎克伯格竞争 在应用层寻找机会
嗯,怎么说呢,前两种确实很难!但是应用层看起来很有希望!
因为,尽管基础模型功能强大,但它们也存在一些问题:主流企业往往难以接受那些不透明的“黑盒”模型、产生幻觉的输出以及复杂的工作流程。同时,普通消费者面对空白的输入框时,往往不知如何下手,而这些正是应用层可以利用的突破口。
两年前,许多应用层的公司被批评为仅仅在GPT-3之上添加了一层简单的包装,就像咱们见过很多次的蒙在GPT上的布:
但是,直到今天,这些蒙布已经证明是创造长期价值的有效方式之一。因为蒙布已经演变成了认知架构,不仅仅是在基础模型之上添加一个简单的用户界面,而是构建了复杂的认知架构,通过多个基础模型,并配备了路由机制,结合向量或图数据库用于检索和生成(RAG),同时还包括了确保合规性的措施和模仿人类思维流程的应用逻辑。
服务即软件的新时代
随着云计算的兴起,“软件即服务”(SaaS)模式已经成为行业的新标准,推动软件企业向云服务提供商转型,催生了一个价值高达3500亿美元的庞大市场。
在人工智能时代,通过代理推理技术,软件公司能够将原本需要人力完成的工作自动化,实现"服务即软件"的转变,这使得AI行业的企业目标市场不再局限于传统的软件领域,而是拓展到了规模高达数万亿美元的服务行业。
报告中介绍了优秀的案例:
Sierra 是一个很好的例子。B2C公司将Sierra集成到他们的网站上,用于与客户沟通和处理客户问题。
任务目标非常明确——解决客户的问题。Sierra的计费方式是基于解决问题的数量来收费,而不是基于“席位”数量。
这种按完成任务的次数收费的模式,正是许多AI公司的发展方向。Sierra之所以成功,很大程度上归功于它优雅的失败处理机制——当AI处理失败时,会自动转交给人工客服。
然而,并不是所有公司都能享受这种幸运。
越来越多的公司选择以“副驾驶”模式(即人机协作)开始部署,通过这种方式积累经验,逐渐过渡到“自动驾驶”模式(完全自动化,无需人工干预)。
GitHub Copilot就是这种模式的一个典型例子。
新一代代理性应用程序
随着生成式人工智能(AI)推理技术的进步,一类新型的代理应用程序正在崛起。这些新兴的公司展现出了与云计算时代的前辈们截然不同的特点:
利润池的转变:云计算公司主要关注软件利润,而新兴的AI公司则专注于服务利润。 销售模式的差异:云计算公司通常通过软件订阅模式(如按座位收费)销售产品,而AI公司则根据服务成果(如按结果收费)来销售。 市场策略的对比:云计算公司倾向于采用自下而上的策略,通过无缝的分发方式来推广产品。相比之下,AI公司更倾向于自上而下的策略,强调高接触和高信任的交付模式。
在知识经济的多个领域,我们都可以看到这些新一代代理应用程序的身影。以下是一些例子:
Harvey:一个AI驱动的法律顾问。 Glean:一个AI工作助手,提高工作效率。 Factory:一个AI软件工程师,协助开发软件。 Abridge:一个AI医疗抄写员,简化医疗记录。 XBOW:一个AI渗透测试员,评估网络安全。 Sierra:一个AI客服代理,提供客户支持。
这些代理应用程序通过降低服务的边际交付成本,与推理成本的显著下降相一致,正在不断扩展市场并创造新的商机。
AI 的转型会摧毁现有的云公司吗?
在调研过程中,报告的主创团队与云公司进行了访谈,他们最关注的问题是:“AI的转型是否会对你们现有的云公司构成威胁?”
起初,主创团队的回答是“不会”。他们认为,初创公司与老牌公司之间的竞争就像一场赛马,初创公司在构建分销,而老牌公司则在专注于产品。他们质疑的是,那些拥有创新产品的年轻公司能否在老牌公司推出新产品之前,快速吸引大量客户?
考虑到AI领域的许多突破都源于基础模型,主创团队的默认假设是老牌公司会表现得很好,因为这些基础模型对他们和初创公司同样可得,而且他们拥有数据和分销的先发优势。他们认为,初创公司的主要机会并不在于取代现有的软件公司,而在于争取那些可以自动化的工作。
然而,随着最近令人惊叹的技术进步,主创团队开始对这个答案不在笃定了。
他们发现,将模型的原始能力转化为吸引人的、可靠的端到端商业解决方案需要大量的工程工作。他们开始思考,如果他们大幅低估了“AI原生”的含义会怎样?
二十年前,传统的现场软件公司曾嘲笑SaaS的概念,认为这没什么了不起,他们可以自己运行服务器,通过互联网交付这些东西。然而,这个看似简单的概念,却引发了商业模式的全面重塑。产品开发从瀑布式开发和产品需求文档转向敏捷开发和AB测试,市场策略从自上而下的企业销售和高档晚宴变成了自下而上的产品驱动增长和产品分析。很少有现场公司成功完成这种转型。
如果AI也引发了类似的转变呢?AI的机会是否可以同时体现在销售工作和取代软件上?
投资者们的钱花到哪里了
报告中为投资者分析了资金主要投入的领域以及资金流向:
基础设施:最主要的部分,但是驱动因素主要是博弈论的竞争行为,而非传统的微观经济学。
模型:是超大规模企业与金融投资者的竞技场。企业通过使用资产负债表来交换收入报表,投资最终将以收入的形式回流到云业务中。金融投资者常受到“被科学惊艳”偏见的影响,尽管这些模型看起来先进且团队表现出色,但在这一领域微观经济学的重要性似乎有所下降。
开发者工具和基础设施软件:对于战略投资者而言,这一领域的吸引力较小,但对风险投资家而言则更具吸引力。
应用程序:这是风险投资者Most感兴趣的领域。在云过渡期间,约有20家应用层公司的年收入超过10亿美元,另有约20家是在移动过渡期间成立的。
结语
在生成式人工智能的新时代,我们能够预见到推理研发的深远影响将渗透至应用层面,推动智能应用的复杂性和效能迅速提升。目前,认知架构依赖于在“解放”技术上跨一大步来实现功能,但随着这些技术逐渐融入模型核心,预计智能应用将变得更加强大。
根据过去的一年生成式AI地进展以及行业的方向的转变,研究领域将继续向推理和新扩展法则的转向,新一轮的竞争已然拉开序幕。
如果展望未来,多智能体的系统,如工厂中的机器人,可能会成为普及的建模推理和社会学习工具,成功地模拟感知、推理和行动的过程,使人工智能能够以创新和实用的方式进行探索,而这很有可能就是通用人工智能(AGI)的体现!
推荐阅读
1、加入AIGCmagic社区知识星球
AIGCmagic社区知识星球不同于市面上其他的AI知识星球,AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、大模型、AI多模态、数字人、全行业AIGC赋能等50+应用方向,内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等。
那该如何加入星球呢?很简单,我们只需要扫下方的二维码即可。知识星球原价:299元/年,前200名限量活动价,终身优惠只需199元/年。大家只需要扫描下面的星球优惠卷即可享受初始居民的最大优惠:
2、《三年面试五年模拟》算法工程师面试秘籍
《三年面试五年模拟》面试秘籍旨在整理&挖掘AI算法工程师在实习/校招/社招时所需的干货知识点与面试方法,力求让读者在获得心仪offer的同时,增强技术基本面。
Rocky已经将《三年面试五年模拟》面试秘籍的完整版构建在Github上:https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main,欢迎大家star!
想要一起进行项目共建的朋友,欢迎点击链接加入项目团队:《三年面试五年模拟》版本更新白皮书,迎接AIGC时代
3、Sora等AI视频大模型的核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用AI视频大模型,从0到1训练自己的AI视频大模型,AI视频大模型性能测评,AI视频领域未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Sora等AI视频大模型文章地址:https://zhuanlan.zhihu.com/p/706722494
4、Stable Diffusion 3和FLUX.1核心原理,核心基础知识,网络结构,从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画,从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型,Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion 3和FLUX.1文章地址:https://zhuanlan.zhihu.com/p/684068402
5、Stable Diffusion XL核心基础知识,网络结构,从0到1搭建使用Stable Diffusion XL进行AI绘画,从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型,AI绘画领域的未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion XL文章地址:https://zhuanlan.zhihu.com/p/643420260
6、Stable Diffusion 1.x-2.x核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用Stable Diffusion进行AI绘画,从0到1上手使用Stable Diffusion训练自己的AI绘画模型,Stable Diffusion性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion文章地址:https://zhuanlan.zhihu.com/p/632809634
7、ControlNet核心基础知识,核心网络结构,从0到1使用ControlNet进行AI绘画,从0到1训练自己的ControlNet模型,从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
ControlNet文章地址:https://zhuanlan.zhihu.com/p/660924126
8、LoRA系列模型核心原理,核心基础知识,从0到1使用LoRA模型进行AI绘画,从0到1上手训练自己的LoRA模型,LoRA变体模型介绍,优质LoRA推荐等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
LoRA文章地址:https://zhuanlan.zhihu.com/p/639229126
9、Transformer核心基础知识,核心网络结构,AIGC时代的Transformer新内涵,各AI领域Transformer的应用落地,Transformer未来发展趋势等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Transformer文章地址:https://zhuanlan.zhihu.com/p/709874399
10、最全面的AIGC面经《手把手教你成为AIGC算法工程师,斩获AIGC算法offer!(2024年版)》文章正式发布!
码字不易,欢迎大家多多点赞:
AIGC面经文章地址:https://zhuanlan.zhihu.com/p/651076114
11、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布!
码字不易,欢迎大家多多点赞:
算法工程师三年面试五年模拟文章地址:https://zhuanlan.zhihu.com/p/545374303
《三年面试五年模拟》github项目地址(希望大家能多多star):https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer
12、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识,从0到1搭建AI绘画框架,从0到1使用AI绘画框架的保姆级教程,深入浅出介绍AI绘画框架的各模块功能,深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
AI绘画框架文章地址:https://zhuanlan.zhihu.com/p/673439761
13、GAN网络核心基础知识,网络架构,GAN经典变体模型,经典应用场景,GAN在AIGC时代的商业应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
GAN网络文章地址:https://zhuanlan.zhihu.com/p/663157306
14、其他
Rocky将YOLOv1-v7全系列大解析文章也制作成相应的pdf版本,大家可以关注公众号WeThinkIn,并在后台 【精华干货】菜单或者回复关键词“YOLO” 进行取用。