OpenAI重启大模型编号,“草莓”能否开启人工智能新篇章?

科技   科技   2024-09-27 18:17   北京  

点击上方蓝字关注我们


科技旋涡编辑|孙浩南

随着OpenAI推出“草莓”大模型以及其收入达到十三亿美元的消息,人工智能领域再度引发热议。不论是OpenAI的GPT系列还是其他国际及国内的先进模型,都在不断刷新我们对AI能力的认知。本次直播将探讨国内外大模型技术的最新进展,以及对未来的展望。



为此,科技旋涡与钛媒体特意邀请了北京工业大学元宇宙云图智能研究院执行院长 何伟 与易观分析研究合伙人 陈晨。在《钛度热评》主理人张茜担任主持人的帮助下一起探讨和分享各自的观点以及对行业的分析。



OpenAI“草莓”大模型的发布对人工智能领域带来了哪些新变化?

科技旋涡

/ 01



陈晨


易观分析研究合伙人

这次OpenAI发布的模型,官方称之为o1。我们看到它这次强调的是更加注重复杂推理的能力,这是它的一个核心能力。这意味着它会在科研、编程、数学等领域解决比以往更难的问题。


我们知道,单模态模型其实主要有两大块:一个是训练,一个是推理。这次针对推理能力的提升,我们看到大模型已经可以通过自身学习和进化的能力来优化解决复杂问题的能力。


在应用方面,我们会看到它的推理速度肯定是要慢于现在常规的大模型。相应的,这个成本也是更高的。OpenAI也非常强调说,它的模型开始走向高级推理的能力。我们认为,未来如果在应用上,可以看到模型的能力已经出现了一个进一步的分化。这个分化指的是模型解决问题的方向出现了分化,包括大模型与小模型,通用模型与高阶推理模型的能力分化。未来我们可以根据实际场景需求来选择,是选择大而全的模型,还是更高阶的模型。


o1更适合科研、编程等场景,相对来说对性能要求更高,但时效性要求没有那么高。未来,大模型厂商如何有效地整合不同类型的模型,驾驭多个模型的能力,用更经济的方式满足不同场景的需求,是一个关键的考量因素。


另外,这次o1模型展示了它生成的思考过程,虽然不是一个特别完整的,但是展示了它大致的思考过程,以及如何定义解方程等。这实际上扩展了模型的表达能力,提高了可解释性。未来可以针对这部分进行更有针对性的优化训练。


未来在一些原本专业性要求较高、对可解释性要求非常高的行业场景,比如医疗、法律、金融等,原本可能不太敢用模型直接解决的问题,随着可解释性的提升,这类场景的应用开放程度究竟可以达到什么程度,是否真的可以满足实际的行业需求,还需要进一步探索。



何伟


北京工业大学元宇宙云图智能研究院执行院长


当时邀请我讨论OpenAI发布的草莓大模型时,我其实有些犹豫。为什么犹豫呢?因为首先我没有评测过这个草莓大模型,所以在技术角度和未来的应用角度来说,可能没有过多的权威性,因为没有用过,所以对它的判断可能没有那么高。


但是,从以往的发展来看,每一次革新都带来了变化,这次的大模型名称也发生了变化,实际上换了一个赛道。我在想,为什么叫草莓?这个名称可能体现了这家公司未来的一些定位和战略问题。我还专门在网上搜了一下,看看有没有关于草莓模型名称的说法,但没有找到相关信息。不过从网络上的内测反馈、新闻媒体报道以及很多讨论来看,可以看出一些端倪。


前不久我看了一篇报道,似乎是一个组织机构做了类似的分享,有三四个人讨论了这个问题。分享的内容体系和架构上,我觉得与我们现在讨论的问题类似。从目前的情况来看,我认为它的推理能力肯定要比GPT-4等之前的模型要强。我看了新闻爆出的消息,了解到它现在采用的训练模式可能是思维训练模式。这种模式不同于原来的决策式判断学习方式,而是变成了一种思维链的方式,比之前的模型能力更强。


举例来说,现在不管是GPT-4还是国内的一些大语言模型,大部分的训练其实都是机器不会自主判断和思考。而这种思维链模式的逻辑架构的出现,会让大模型产生自我判断和意识,相当于人类意识觉醒前的状态。因此,从这个过程来看,我认为它对模型的训练、模型最后的推理能力,一定会有所提升。虽然我没有做评测,但从发展的角度来看,这无疑是向前迈出的一步。


另外,这种训练方式的出现,打破了现有的评测体系和指标。这意味着我们后面不论是国内还是国外的模型,可能会有一个新的突破,更专注于模型本身及其应用场景的结果。所以在我看来,这可能是一个非常好的表率,至少不再是为了迎合那些指标评价体系去做评测。因为很多基于这些体系的结果,实际上并不实用。




孙浩南


科技旋涡-主编


我认为首先是能力上的提升,CEO奥特曼称它是一种新范式的开始:可以进行通用复杂推理的人工智能。在解决博士水平的物理问题时,GPT-4o还是“不及格”59.5分,o1一跃来到“优秀档”,得分是92.8分。在2024 IOI信息学奥赛题目中,o1的微调版本在每题尝试50次条件下取得了213分,属于人类选手中前49%的成绩。如果允许它每道题尝试10000次,就能获得362.14分,高于金牌选手门槛,可获得金牌。另外它还在竞争性编程问题 (Codeforces) 中排名前89%,在美国数学奥林匹克 (AIME) 预选赛题目中跻身美国前500名学生之列。


其次,“草莓”模型的应用领域也随之拓宽。过去,许多AI应用受限于特定领域或者特定任务,而现在,更强的推理能力和多模态处理能力使得“草莓”模型可以在多个行业中找到应用场景。无论是医疗健康、金融分析还是教育娱乐,“草莓”模型都能够提供更加智能化的服务,这无疑将极大地丰富现有的AI生态系统。


此外,“草莓”模型的发布也标志着AI技术的商业化进程迈入了一个新的阶段。随着技术成本的下降和技术门槛的降低,更多的企业和个人开发者有机会接触到这项先进技术。这不仅有助于促进AI技术的普及,还将激发更多创新应用的诞生。


最后,从长远来看,“草莓”模型的发布还可能改变整个AI行业的竞争格局。它激励了行业内其他参与者加快自身的技术创新步伐,同时也为初创企业和个人提供了更多参与AI技术研发的机会。总而言之,“草莓”大模型的发布不仅代表了技术上的突破,更是推动了整个AI产业向前迈进的重要一步。


国内外大模型的降价是否意味着大模型正在加速落地?

科技旋涡

02



陈晨


易观分析研究合伙人

最近这一波大模型降价,最初在5月份时,大部分还是针对各家轻量级模型的降价。但近期,已经卷到了主力模型。正如何老师所说,市场确实非常“卷”。我认为这其中一部分原因是通过技术手段优化了训练成本,加上规模化应用,能在一定程度上降低模型成本,暂时支撑价格战的持续。


从用户角度来看,我们在用户研究中同样看到了类似的问题:C端用户对于AI应用的留存率较差。我认为这一波降价真正可能利好的是开发者端,尽管这些用户是C端用户,但他们更倾向于专业个人用户。大模型厂商通过降价降低使用门槛来吸引这类用户,也可以抢占市场阶段,促进更多AI应用的出现。


从B端来看,对于AI应用厂商来说,这波降价可能会是一个利好情况。原本因成本原因处于观望状态的企业可能会尝试引入降价后的模型。有几家厂商表示,降价后的调用量有一定增长,这对AI应用厂商是一个吸引。


另外,很多企业客户会选择私有化部署,要么自建模型,要么用开源模型加企业专有数据训练。这类客户受价格战影响较小。而对于采用调用服务的客户来说,除了价格外,他们更看重模型的准确率、稳定性以及是否能稳定运行和迭代。企业在实际应用场景中更看重模型能实现多少业务价值。


对于一些已经稳定使用原有模型的企业,他们未必会因为降价而更换模型。但降价可能会释放一些新的场景需求,原本受限于成本投入只能应用到几个核心场景的企业,可能会考虑将模型应用到更多场景中,并选择多个模型部署的方式,通过组合来增强模型与场景的适配性。



何伟


北京工业大学元宇宙云图智能研究院执行院长

我觉得这次降价可能并不是意味着技术的加速落地,而是意味着市场可能更卷了。这是最直观的现象,国外的情况我不清楚,我们只谈国内的认知、参与反馈的现象以及市场给我的反馈。


我认为降价最明显的表征就是市场更卷了,意味着一片红海。因为降价会导致获客成本、服务成本降低,价值链降低,从而需要拉拢更多的资源或用户。但从目前的应用来看,大部分人使用的都是比较浅显的技术。大众消费领域并不是特别有门槛,只需要套个壳或调用API就能推出新产品。


对于大众消费领域而言,降价只是在这个层面上有所体现,但技术并不是加速落地,而是循序渐进。从现在的角度来看,大部分产品都还处于浅显应用阶段。昨天我在北京市一个元宇宙高级研修班上做了分享,有50到60位企业家参加。我做了一个调研,问有多少人用过对话类应用大模型,结果50个人里面连五分之一的人都没有。再问有多少人用过图像生成类应用,也只有五六个人。问到视频类应用,则没有一个人使用过。这里面还有很多做数字孪生的企业,但都没有用过。


这说明大部分情况仍然是某些领域的自嗨现象,尽管注册了,但活跃度不高。我在给研究生上课时也做了统计,40名研一学生中,用过AIGC相关内容的只有十几个,视频类的只有四五个人。这说明实际的沉淀量很低,所谓的技术加速落地并不存在。只能说大模型正在加速落地,但技术本身并没有加速落地。这是我从教学和应用的角度回答这个问题的看法。




孙浩南


科技旋涡-主编

我认为国内外大模型的降价是一个比较重要的市场信号,当价格下降时,意味着更多的用户和企业可以负担得起这项技术。几天前我刷抖音看到多数泡面涨价5毛钱,有一款加量不加价的泡面却连续几个月销量同比增长超20%。可见市场或者说消费者对于价格的敏感程度,对于大模型而言,这意味着更多的开发者、企业甚至是个人用户能够接触到先进的AI技术。这直接降低了采用大模型的门槛,使得更多的人能够探索和应用这项技术。


其次,随着价格的降低,大模型的使用成本变得更加合理,这鼓励了更多的企业在实际业务场景中尝试部署大模型。无论是小企业还是大型企业,都能够更容易地将大模型集成到他们的产品和服务中去。这样一来,技术的落地应用就会变得更加广泛。


再者,降价还意味着厂商之间存在着激烈的竞争,这种竞争不仅仅是价格上的,更是性能和服务上的。为了在市场中脱颖而出,厂商会不断改进他们的模型,使其更加高效、更加准确,同时也提供更好的支持和服务。这样的竞争最终受益的是用户和技术本身。


最后,降价也反映了技术成熟度的提升。随着技术的进步,开发和维护大模型的成本也在下降,这使得厂商能够以更低的价格提供相同甚至更高质量的服务。这也表明大模型技术正逐渐从实验室走向市场,成为实际可用的解决方案。


总的来说,国内外大模型的降价确实预示着技术正在加速落地,这不仅体现在技术的普及度上,也体现在技术本身的持续进步和市场的积极响应上。


开源文化对大模型的发展有何推动作用?

科技旋涡

03



陈晨


易观分析研究合伙人

确实如两位老师所说,开源的好处非常多。开源精神本身就是一种资源共享的方式,能够创造一个易于促成创新的环境。无论是模型性能、AI技术的广泛应用还是产业升级的活力,开源都提供了很多有利的因素。降低技术门槛这一点是毋庸置疑的,这样可以让更多的开发者参与到AI的研究中,进行二次开发和应用。


在与很多开发者的交流过程中,我们确实看到大多数开发者都非常愿意参与到开源项目中。另外,在应用方面,开源软件的推广也为中小企业提供了更经济实惠的解决方案,使它们能够参与到AI相关的应用中,带来更多商业机会。很多企业现在基于开源模型进行二次开发,创建符合自身需求的定制化模型,这本身也能推动整个产业链的创新。


正如两位老师提到的,闭源模型也有其自身的优势。闭源模型的成熟度和可控性更强,经过了非常成熟的开发验证,可以较快地应用到不同行业中,满足特定需求。对于需要处理大量数据、实时响应或高计算需求的应用,闭源模型非常重要。


未来,我认为开源和闭源一定会是长期并行发展的状态。它们都是生态系统的重要组成部分:一方面通过开放协同更快促成创新;另一方面通过闭源模式提供更加成熟的开发验证,落实到具体场景中,提供切实可行的解决方案。两者都是非常重要的,可以共同促进生态的发展。



何伟


北京工业大学元宇宙云图智能研究院执行院长

如果说开源相当于闭源的对立面,那么开源的门槛、教育成本和技术所带来的百花齐放的作用是显而易见的。就像我们国内的很多底座都是基于开源技术发展起来的,从最初的跟随到现在拥有自己的知识产权和技术能力,这是开源带给我们的最直接感受。


开源能够显著降低技术门槛,包括教育准入也会变得非常低。同时,开源之后带来的整个生态链的百花齐放更为明显。但是,开源也可能存在问题。


开源使得大家都在做应用,而大厂则在做底层的架构和技术支撑。开源涉及不同的群体:大厂、中小厂、创业者和普通用户,这就可能导致一些问题,最主要的问题是安全和数据管理。开源的数据没有受到法律或道德的约束,而数据、算法和算力是大模型的三驾马车。算力有钱就能搞定,算法是一个机制问题,而数据则是核心。开源之后的数据泛滥,缺乏第三方监管,这带来了数据不可控的风险。


开源的好处显而易见,但不好的地方在于数据的不可控性和监管缺失。数据是大模型的核心,如何监管数据是最重要的问题。此外,大模型产生的新产品线所带来的商业问题、盈利问题和产权归属问题也需要解决。




孙浩南


科技旋涡-主编

开源文化的核心是共享和协作,它允许任何人查看、使用和改进大模型的源代码。这种开放性使得全球的研究者和开发者都能够参与到技术的改进过程中来,通过开源,很多原本需要高昂研发费用才能开发的技术,现在可以免费或低成本地获得。这降低了新技术的准入门槛,使得更多的组织和个人可以参与到AI技术的研究和应用当中。


另外,还能增强透明度与信任。开源模型使得技术更加透明,这有助于建立用户对技术的信任。当用户知道他们使用的模型是如何工作的,他们更有可能接受并依赖这些技术。此外,透明度也有助于发现潜在的问题和漏洞,从而及时修复,保障技术的安全性。


当然,也并非说开源一定比闭源好。开源模型也并非完全是免费的午餐,大型企业使用开源模型有很多隐性成本,比如采购算力、软件适配等。开源模型适合一些预算有限的中小企业,也适合部分大型企业用于自主可控的内部自研项目,但在一些动辄百万元、千万元级别的严肃商业项目中,闭源模型还是最佳选择。


对于大模型厂商来说,随着盈利压力变大,模型开源成为了一种“策略”——企业会倾向开源上一代技术落后、参数更小的模型,引导用户付费使用技术更新、参数更大的闭源模型。


所以,开源、闭源模型对于大模型产业的发展都有各自不同的贡献,无论开源、闭源,核心目的都是给开发者更多选择。开源和闭源的大模型在未来会是并存和互补的关系,而不是竞争关系。




大模型技术在未来几年内,将会有哪些关键的发展趋势?

科技旋涡

04



陈晨


易观分析研究合伙人

何老师提到算法优化的重要性,对此我感触很深。我记得之前我们探讨过为什么OpenAI的模型能力更强,即便使用相同的模型,OpenAI对模型架构的驾驭能力更强,对数据的吞吐量更高。这表明对算法和架构的优化,以及组织能力的重要性。


OpenAI之前提出了一套五级评估体系,目前,Open I将草莓模型定位于推理者级别,未来我们希望在更复杂的场景中看到大模型的能力展现。


另外,我认为大小模型的协作将是推动技术前进的重要方式。大模型具有强大的推理分析和创新能力,而小模型则具备实时性和灵活性,适用于多种应用场景。这种协作模式可以提升处理相应场景业务的效能。


端云混合模型模式有望塑造新的交互入口。不论是AI手机还是其他可穿戴设备,未来更多模态数据的引入将使得计算能力和数据处理能力更加高效地分配。打造超级入口的可能性越来越小,取而代之的是一种更加多元、灵活的端侧设备生态,入口也将更加多元和灵活,不再局限于某个特定入口。


因此,我们期待会有更多应用和服务在这些场景中生长出来。这些入口可以根据用户需求和场景进行定制,更好地满足个性化需求,提升用户体验的多样化和精细化。



何伟


北京工业大学元宇宙云图智能研究院执行院长

我前面提到过大模型最需要的三个条件:算法、算力和数据。首先,我们来看看算力。算力方面,目前全球第一的英伟达,以及很多国家在推动算力基础设施建设,将大量财政收入投入到算力支出中。但我认为,算力并不是我们需要过分关注的部分,因为硬件更新速度太快,算力设施很快就会被淘汰。


以英伟达为例,它的市值在未来两三年可能会下降,这是一个泡沫。那么,我们应该关注什么?我认为是算法和数据,但更优先的是算法。数据并不稀缺,特别是开源和产业应用生态出现后,数据大量涌入。但我们缺少的是行业壁垒内的数据,如公民个人信息、国家安全数据等。因此,算法才是关键。


例如,知识产权保护可以保护外观和结构,但软件中的算法难以保护。所以,科研机构和企业应该将重心放在算法优化上。


另一个值得关注的领域是多模态。我在2022年的世界人工智能大会上发布了一份《多模态融合交互技术白皮书》,提到多模态技术的重要性。多模态不仅是文本、图像、声音和视频,还包括各类传感器数据,如雷达、红外、脑机接口等。多模态技术在未来几年将成为关键技术,包括元宇宙等领域。


我认为,在大众消费领域,多模态技术是值得重点关注的。尽管目前一些巨头如社交媒体平台依赖文本和图像,但未来真正的行业应用将转向更广泛的模态。




孙浩南


科技旋涡-主编

我认为,第一点,高效化与轻量化将是一种趋势。随着技术的发展,人们对于计算资源的需求越来越高,但同时也希望能够将这些技术应用到更广泛的设备上,包括移动设备和物联网设备。AI手机、AR眼镜、智能戒指等小型化硬件在AI与大模型的加持下变得更有潜力,因此,大模型需要变得更加高效,占用更少的计算资源,同时保证足够的性能。我们已经看到一些技术,如模型压缩、量化和剪枝等方法的应用,这些都是为了实现这一目标。


第二点,个性化与定制化的需求会日益增加。现在的许多大模型是通用型的,但未来的趋势是让模型能够适应特定的场景和用户需求,比如医疗、金融、制造等领域。这就意味着模型需要有更强的适应能力和灵活性,能够根据具体的应用场景进行微调和优化,推动模型在专业领域内的知识积累和技能提升,以满足特定行业的特殊需求。


第三,多模态处理将成为新的发展方向。传统的模型往往专注于处理单一类型的数据,比如文本或图像。然而,未来的大模型将需要处理多种类型的数据,如文本、图像、音频甚至是视频,以提供更加丰富和完整的用户体验。


还有,伦理与安全的重要性将日益凸显。随着大模型的广泛应用,我们需要确保这些技术不会被滥用,并且在设计和使用过程中考虑到用户的隐私和数据安全。



大模型在未来几年内将如何改变我们的工作方式和社会互动?

科技旋涡

05



陈晨


易观分析研究合伙人

我认为,AI Agent(智能体)的发展对未来的工作方式将产生重要影响。目前,Agent主要通过代理交互来处理任务,但随着其能力的发展,交互范式将进一步延伸,更深入地融入日常工作流程。从现在的助手角色转变为伙伴角色,Agent的特点是基于需求出发,可以与场景深度融合。


随着多模态能力的提升,Agent的自主行为决策和适应能力将增强,从而提高互动能力。因为Agent通过理解意图来做决策和执行动作,这使得它成为用户与各类服务之间的桥梁。通过调用API和其他工具,Agent可以直接提供用户所需的服务,掌握应用生态的分发权。


因此,企业服务可能会在这个领域做出更多动作。此外,不仅仅是单个智能体,群体智能的发展将使互动进入更高层次的协同智能化阶段。未来,这些智能体可能作为社会的一部分,真正参与到各类社会活动中,这将是改变未来的一大趋势。



何伟


北京工业大学元宇宙云图智能研究院执行院长

孙老师和陈老师提到的提示词问题,我认为在更遥远的未来可能不存在这个问题了。如果提示词成为一个职业或岗位需求,那么就不能称为大模型或智能体了。因为大模型的本意是减少对提示词的依赖,尽管目前我们仍然需要这些提示词来引导模型生成更准确的内容。


然而,未来的模型不应该如此,它们应该是真正意义上的智能体,能够自主思考和行动。现阶段的模型还不具备真正的智能,因为它们的“智能”是由我们赋予的。如果不够智能,那就不符合未来的预期。未来的模型应该是真正智能的,不需要人为过多干预。


因此,我认为,未来的门槛应该是降低的、进阶式的,不需要像现在这样需要训练、喂养和使用提示词。这不符合我们所期望的大模型时代。


这也回应了主持人的问题,未来的世界应该是无主体的,门槛降低且进阶式的,而不是传统的需要不断训练和喂养的方式。




孙浩南


科技旋涡-主编

我认为在未来几年内吧,就是短期来看可能会有工作方式的转变。之前有专家预测未来十年内,大约50%的工作可能会变成提示词工程,这意味着很多任务将通过与大模型的自然语言交互来完成。这不仅会影响编码工作,还会影响到创意写作、客户服务等多个领域。大模型能够自动生成文本、图像等内容,提高工作效率,减少重复劳动,并释放人类的创造力。


另外,社会互动的变化。随着大模型技术的发展,人机互动将变得更加自然和直观。我们可能会看到更多的情感陪伴类应用,这些应用能够提供更加人性化的交流体验,填补人们的情感需求。此外,机器人技术与大模型的结合,将使得机器拥有更加拟人的交互方式,进一步增强人机之间的互动质量,前几日我看到有一款能搀扶老人的机器人,这是在功能上的进展,日后可能会成为像机器人保姆一样,不光能干活还能陪老人下棋聊天。


最后,职业角色的演变。随着大模型在各个领域的应用加深,一些传统的职业角色可能会发生变化,新的职业机会也可能随之产生。例如,对于那些擅长与大模型协作的人来说,提示词工程可能会成为一个新的职业领域。




往期推荐 




“迟到”的AI遇三折叠屏狙击,苹果的护城河还有多深?


《黑神话:悟空》点燃盛夏,国产游戏如何“出海西游”?



提供线索及合作,请在后台回复“合作

声明:此公号(ID:TechVortex)发布内容和图片的目的在于传播更多信息,版权归原作者所有,不为商业用途,如有侵犯,敬请作者与我们联系。

科技旋涡
专注于科技、智能、硬件领域。实时解析科技趋势,全面报道产品发布,深度解读技术突破,助您把握科技前沿动态,洞见未来生活。
 最新文章