对话产业专家:OPEN AI O1解读及产业影响展望

财富   2024-12-08 21:52   广东  
星球收录10W+上市公司闭门会议纪要、
产业专家调研纪要、行业及公司数据库
卖方观点、精选研报。
日均更新200+机构投研资料。

要点(文末有彩蛋)
1、OpenAI O1技术提升
能力维度提升显著:O1正式版相比之前版本性能显著提升。从数学科学编码能力看,对比两个月前版本,做中学生奥数题分数从13.4分提升到90分;编程能力从62分提升到80分;博士级问题从56分提升到79分。
技术原理变化:与GPT - 4.0技术有很大不同,引入强化学习,在搜索方面采用新技术,用复杂问题数据集带动强化学习进行深度推理,将中间结果形成新数据集反复提升模型训练,过去两个月又强化了后训练。
语言翻译能力领先:在语言翻译能力上目前最强,在公开的14种语种翻译测试集中,对标过去模型基本都是最高分。
2、OpenAI O1商业模式调整
新定价面向专业人士:过去版本是60美元100万个token,现在推出200美元(约1500元人民币)一个月面向专业人士提供不限量推理自助的商业模式。
不同版本定价拉开差距:ChatGPT推出plan和king,20美元版本可访问GPT - 4、GPT - 4共享版和O1模型。O1 pro版本面向专业人士,因其推理耗算力,与传统GPT模型定价分开。
O1 pro版本功能升级:O1 pro版本支持多模态,之前版本更多是纯文本技术,现在能支持图片推理,可基于输入的图表、结构化数据进行深度推理,在AI for Science领域可赋能研究人员和高级编程人员。
3、国内模型与OpenAI O1对比
整体仍有差距:国内如阿里、昆仑万维等企业推出类O1模型,在数学能力和复杂问题处理能力上比之前模型有提升,但整体平均分散会弱于O1。如在奥数题测试中,分数虽比之前版本高,但整体仍有差距。
特定领域对比:像DeepSync的R1 - like在编程和数学能力上稍逊色于O1 preview;12月18日阿里的QWQ - 32B在四个测试集中有两个超过O1 Pro版本,但整体在数据集测试集上与OpenAI Pro版本仍有5到10分差距。
技术追赶方向:国内企业走的思路是集成思维链、用搜索方式提升深度推理能力、加入反思策略和算法提升逻辑推理性能,但目前还未完全超过OpenAI。
4、OpenAI O1应用场景展望
B端应用场景:首先会在B端落地,如AI for Science领域,在生物医学研发中可辅助做数据分析挖掘;在复杂编程场景可辅助做算法创新;在教育场景可提供个性化学术体验和解答;在金融场景可利用数学能力做投资分析;在医学研发中可辅助做靶向治疗、疾病诊断等。
C端应用场景:C端以学习场景为主,在娱乐方面可辅助生成推理游戏、推理小说等;支持图像可帮助创作者设计产生创意AIGC内容;在职业培训中可帮助备考提升职业技能。
5、OpenAI盈利性分析
专业版定价合理性:200美元一个月的定价是深思熟虑的结果。之前GPT版本用户有使用限额但需求大,实际深度推理使用次数有限,且OpenAI可能用集成方式降低推理成本,此定价可覆盖成本并吸引深度推理用户,对专业人士相对合理。
市场规模前景:仅考虑专业人士,假设全球百万级别研发人员10%渗透率,即10万级别研发人员使用,每月可带来2000万收入,一年几个亿,随着渗透率提升,OpenAI仅这部分每年至少10 - 20亿收入;C端做成学习AI可能产生较贵订阅费,收入也可达10亿级别以上,B端加C端市场是百亿级别以上。
6、国产大模型追赶障碍
缺乏开源架构:OpenAI除多元翻译测试集外未开源,国产厂家无现成开源架构参照。
强化学习相关难点:O1模型后训练如何做强化学习、用什么数据集做强化学习未知。
深度推理工程难点:后训练中特殊方法具体操作未知,如将难题让模型深度推理并存储中间过程再次强化学习的具体做法。
推理性能提升难点:如在数搜索、COT未开源情况下,国产模型推理奥数题需3 - 5分钟,而OpenAI约1分钟,推理性能提升是难点。
推理成本降低难点:上述1 - 4点导致国产模型在面向B端、C端时成本可能是普通版的10 - 20倍,降低推理成本是难点。
7、OpenAI未来发布预期
ZARA相关发布:预测本周末或下周一可能发布ZARA相关内容。ZARA在第一季度内测后,中间做了AI安全、梳理违规数据、降低算力推理成本、扩容算力等工作,新发布版本视频时长可能超过一分钟,会在视频生成领域成为新引领者。
模型与产品发布:可能发布4.5P的table或preview版,在多模态推理能力和推理性能上比4.0更进一步;可能在音频领域推出有圣诞老人音色的产品;可能发布浏览器整合AI搜索技术;可能发布面向特定场景的AI智能体;可能迭代DALL - E 3到DALL - E 4、Whisper语音模型等。
Q&A
Q:从专家角度看,国内大模型公司(如昆仑万维推出的O1)和GPT的O1之间存在哪些差距?
A:在国内,阿里和昆仑万维等先后推出自己类O1的模型。以昆仑万维的天工O1模型为例,在对标O1过程中,数学能力和复杂问题统一能力比之前模型有较大提升,但整体仍有个别能力不如O1深入,平均分散能力弱于O1。如做奥数题,分数比普通版本高,但整体仍有差距。像DeepSync的R1 - like模型,在编程能力上稍逊色于O1 preview,在数学能力上(如奥数题或研究生级别数学考试)稍逊于O1,但相比自身之前的模型已有很大提升。12月18日阿里的QWQ - 32B模型在四个测试集里有两个超过O1 Pro版本,但与O1最新版本还待对比。国内企业走的思路是集成思维链方式,用搜索提升深度推理能力,加入反思策略和算法提升逻辑推理能力,但当下在数据集测试集上与OpenAI Pro版本仍有5到10分的差距,不过随着时间推移可能会慢慢缩短差距。
Q:O1模型相比之前的GPT - 4.0在科学编程数学等能力上有哪些提升?
A:从几个方面来看,在数学科学编码能力上大幅提升,如GPT - 4.0做中学生奥数题是13.4分,O1最强版本可以做到90分,比4.0在数学能力上提升了六倍;编程能力从过去的62分提升到80分;博士级问题(GPT - QA)从之前大概56分提升到现在的79分。
Q:O1模型在商业模式上有哪些调整?
A:过去版本是60美金100万个token,现在推出新商业模式,200美金(大概1500人民币左右)一个月面向专业人士提供不限量的推理自助。在定价里ChatGPT推出了plan和king,中间有20美金的,可以访问GPT - 4、GPT - 4共享版和O1模型。O1 pro版本面向专业人士,因其推理耗算力,所以在定价上与传统GPT模型拉开差距。
Q:O1 pro版本和普通版本相比有什么最大的差异?
A:O1 pro版本支持多模态,普通版本更多是文本(如语言代码或纯文本技术),O1 pro版本能支持图片推理,可以基于输入的各种图表、结构化数据进行深度推理,在AI for Science领域能够赋能研究科学家和高级编程人员。
Q:O1模型的技术对未来大模型发展有什么意义?
A:O1模型代表了GPT模型的下一个里程碑,意味着从预训练阶段往后训练阶段升级,依托后训练增加训练量和推理量来提升模型特性。这一技术将成为头部大模型玩家追赶的重大技术方向,未来一两个季度会看到头部大厂沿着这个方向做迭代和产品开发,围绕O1模型会在很多场景慢慢落地,特别是在专业领域会有更多发展空间。
Q:O1模型可能采用了哪些核心技术?
A:O1没有透露太多技术细节,但可以肯定的是引用了一些新的SOTA算法和技术,有客户猜想是树搜索技术。依托这种技术可以在训练过程中分解复杂问题,从不同解法中找最优解,汇总成最终答案给用户,并且在训练过程中把中间结果攒下来形成新数据不断强化自身。国内技术也在按照类似技术去做,深入推进对知识复杂问题推理的模型。
Q:OpenAI在数学、代码等逻辑性较强领域有性能优势,展望未来,它向其他领域扩展时,在其他领域是否有更大应用价值?
A:OpenAI模型第一个场景是AI for Science,在生物医学领域的研发过程中,可依托其数学能力进行大量数据分析、挖掘,辅助研发人员探索发现。第二个场景是面向复杂编程场景,未来可辅助进行算法创新。在教育场景,可作为辅助工具提供个性化学术体验、解答学术问题,用于培训参加高难度比赛或资格考试的人员。在金融领域,可依托实时数据帮助金融分析、投资分析和市场风险预测。在C端,以学习场景为主,在娱乐方面可辅助创作推理游戏、逻辑推理小说,支持图像可帮助创作者设计产生更有创意的AIGC内容或进行推理,在职业培训方面可帮助备考提升职业技能。它首先会在B端落地,如科研、医学、生物药物分析、药物研发等领域,可辅助科研人员进行靶向治疗、疾病诊断、文献综述、研发思路梳理拓展、理论验证等。
Q:OpenAI每月200美元的定价,在股市支持相同的情况下,您认为它是盈利可持续的健康力量,还是早期为换取份额和流量而定义B2B产业?
A:这个定价是深思熟虑的结果。它之前限量使用时发现GPT用户大多每天用完限额,说明有需求。而且真正使用的人每天深度推理使用次数有限,统计来看每天50次顶天,每次好几分钟,并非每天都用。它测算过这个定价能覆盖成本,并且可能采用集成方式降低推理成本。这是面向专业人士的版本,独家推出后会吸引需要深度推理的用户,后续推出的产品可能会与OpenAI拉开定价差距,这个价格对专业人士相对合理。
Q:未来GPT - 5有什么预期?
A:目前对于GPT - 5是否发布并不明确,大概率不会发布GPT - 5而是发布中间版,如可能在未来一两周推出GPT - 4.5。真正的GPT - 5如果发布,会是面向通用场景推理的模型,在模态上会将文本、音频、图像、视频整合成端到端的架构,推理性能会比现在更进一步,多模态能力将是最强的。其迭代方式与现在OpenAI模型架构有很大差异,可能会在一两个季度后与OpenAI模型架构融合。在这之前可能有两条产品线发展,中间的预览版如4.5、4.5 Pro等版本应该会发布,这些版本在多模态能力上会更进一步,能处理更长的视频图像数据,对音频数据处理更快。
Q:这种专业性的AI服务市场需求前景如何?
A:在低端会有大量专业人士使用,以研发人员为例,假设全世界百万级别研发人员中有10%渗透率,按照每个研发人员每月200的费用计算,一年就有几个亿的收入,随着渗透率提升,仅OpenAI一家每年至少会有10 - 20亿以上的收入。如果渗透率达到30%,就会有五六十亿的市场份额。在C端,如果做成面向C端用户的学习AI,可能会产生较贵的订阅费,C端收入在第一阶段可能是10亿级别以上的,未来B端加C端的市场应该是百亿级别以上的市场。
Q:国产大模型在追赶OpenAI上存在哪些技术障碍?
A:在模型架构上,OpenAI未开源,仅测试集开源,这使国产厂家缺乏参照的现成开源架构,这是第一个难点;第二个难点是不清楚O1模型做后训练时强化学习的方式以及使用的数据集;第三个难点是猜测O1模型后训练时用特殊方法让模型做深度推理并存储中间过程再次强化学习,但具体做法未知;第四个难点是数搜索、COT未开源,国产模型推理性能提升困难,如国产推理奥数题需3 - 5分钟,OpenAI只需1点几分钟;以上四点导致第五个难点,即面向C端、B端时,国产做出的产品成本可能较高,初始API定价可能是普通版的10 - 20倍,要追赶海外先进技术可能需分步走。第一步已有几家在做深度搜索,虽与国外从自己训练数据做处理不同,但这是中间状态,到第一季度大厂可能会将深度推理模型与主干模型融合,不过整体在上述五大差距上仍较大,需要慢慢追赶。另外,国产模型有能力做O1的大概是前四五家,若有支持O1架构的开源模型出现会加速这一过程,过程中会有两三家先跑,其他家后跟进。
Q:OpenAI在接下来的12个工作日中可能发布的技术或产品有哪些值得期待的?
A:文档未提及,无法准确回答。
Q:ZARA在第一季度内测版试用时的情况是怎样的?
A:ZARA在第一季度搞了内测版试用版,开放了大概一千多个影视从业者依托ZARA做视频。
Q:ZARA在中间两三个季度做了哪些事情?
A:ZARA在中间两三个季度做了三件事。一是做AI安全,防止被滥用制作违规视频;二是梳理现有数据里涉及IP的违规数据避免被告;三是降低算力推理成本。
Q:ZARA第一季度做一分钟左右视频的测算价格是多少?它要把成本降到多少才能让低端用户用得起?
A:ZARA第一季度做一分钟左右视频的测算价格是三十多美金,要把成本降到10美金上下一分钟,低端用户才用得起。
Q:ZARA在这半年做了什么与算力相关的事情?为什么?
A:ZARA在这半年不断融资来扩容自己的算力,因为放出来以后需要很多算力来支撑并发的推理。
Q:国内视频生成赛道的现状如何?
A:国内最近两个月有字节跳动、腾讯的字符AI、mini max等,国产版已经有五六个了。整体国产视频生成除了部分可生成较长视频外,其他相对较短。
Q:ZARA新发布的版本在视频时长上有什么变化?
A:之前是60秒,新发布的应该要超过一分钟。
Q:ZARA的算力出来后会在视频领域有哪些影响?
A:会成为视频分领域的新引领者,赋能很多视频工作人员,例如做教育、广告宣传片、广告创意、电影预览版等方面可以依托AI,像电影预览版可以用AI合成概念版来申请版号。
Q:openAI的4.5P版本(table或者preview版)相比4.0版本有哪些提升?
A:在多模态的推理能力以及整个的推理性能上,比如在编码、数学、翻译多元版本上会比之前的版本更进一步。
Q:openAI在音频领域可能会有什么新动作?
A:openAI在音频领域可能会推出一个新的产品,由于快到圣诞节了,它有可能推出发音模型音色为圣诞老人音色的产品。
Q:openAI可能会发布哪些产品?
A:一是可能会发布整合了AI搜索技术的浏览器,不过中国用户可能受地域限制不一定能用得上;二是会面向更多细分场景推出AI智能体;三是可能会发布像DALL - E 4这样的新模型以及对Whisper语音模型进行迭代。

加微信领取星球优惠券

股市调研
投资必备利器,每日更新上市公司、产业专家调研纪要。
 最新文章