写在前面
01 赛道概览及头部项目盘点
据a16z 3月发布的Top50AI产品榜单,与去年9月的榜单相比,AI陪伴产品在Top50的占比大幅增加。去年9月只有2个产品上榜,而此次有8款网页产品和2款移动产品。虽然上榜产品中的大部分主打"擦边“(NSFW内容),但这仍然代表了一种市场趋势。 AI 陪伴领域已经诞生了多个独角兽。C.ai(去年3月完成10亿美元估值融资,有消息称最新一轮融资在进行中,估值50亿美元),星野/Talkie(背后是大模型公司Minimax,最新估值25亿美元),Pi(背后是大模型公司Inflection,最后一轮融资估值40亿美元,年初被微软收购团队),小冰(最新估值20亿美元)。 赛道龙头Character.ai目前月访问量超2亿次,流量仅次于ChatGPT和Gemini,同时,AI陪伴类产品的用户参与度也显著高于其他AI应用。 赛道多款产品在半年内从0做到月访问过千万,包括星野/Talkie、Crushon、JanitorAI、Spicychat等。
是用户创建 AI 角色并与平台上的角色聊天的平台,包括 Web 端及APP。目前C.ai已经成为流量排名第三的AI应用。 自己定义为通用模型公司,希望“地球上的每个人都获得自己的深度个性化超级智能”。团队的更多精力还是放在底层大模型的打造,因而C端产品显得有些“放养”,相比同类产品在设计和运营上没有那么精细。 目前DAU超350万,月浏览量超2亿次,用户画像以年轻的二次元用户为主(18-24岁占比57%,平台上最受欢迎的角色类型以动漫、游戏为主),男女比例接近1:1,平台上最火的角色来自游戏“原神”——对话量过亿的7个角色有3个来自原神。 与Pi这类主打情感陪伴的聊天机器人相比,C.ai更像是一个游乐场加创意工具。虽然用户可以通过与平台上的角色聊天来解决陪伴需求,但也有很多用户是在C.ai平台上创作和娱乐——例如一些二次元OG人群,他们喜欢围绕IP进行二创,C.ai的对话工具能帮他们更快地把想象力发挥出来,陪他一起创作脑海中的幻想世界。这是我们观察到的许多重度用户的需求(使用时长在2-3小时)。 商业模式:目前以收订阅费为主,据公司23年12月公开数据,当月月流水为18万美元。
星野由国内大模型厂商Minimax开发,于2023年9月上线。其海外版Talkie,2023年6月上线。虽然上线时间不长,但成长速度却非常快,不到半年时间便已做到全球千万月活(星野+Talkie)。 与C.ai相比,星野在产品的设计与运营上更加精细。主要体现在两个方面: 女性用户占比相较于C.ai更高,用户群体更偏乙女人群,用户粘性也更长。自推出至今,星野APP全网用户的人均使用时长达43分钟,而C.ai为13分钟。
Inflection AI成立于2022年,由原Deepmind联创Mustafa Suleyman主导创办,也是一家通用大模型公司。但定位与ChatGPT不同,更强调“以人为中心”而不是“替代人”,推出的C端产品Pi,主要特征是富有同情心、简明扼要、幽默创新,善于倾听和陪伴,不与人类在法律、财务、医疗等专业领域展开竞争。Pi还能够记住与用户的对话内容,并随着时间的推移加深对用户的了解。它也能根据用户需求忘记曾经的交流历史。 Pi有100万DAU,600万MAU,平均使用时长33分钟。 今年3月,微软对Inflection进行了团队收购,Suleyman成为微软AI业务的负责人。在这次收购发生前,Inflection市场估值已达到40亿美元。
02 AI陪伴究竟是什么?
有许多项目都被纳入AI陪伴的范畴,但仔细观察下来,不同项目所对应的市场需求、目标受众及切入点都各不相同——虚拟情侣、AI心理咨询师、能提供心灵抚慰的生活助手、能实时互动的虚拟角色……所有这些都被“Companion(陪伴)”的概念统一到一个大筐里,那么,究竟什么是AI陪伴?
真正理解用户,在此基础上做到足够的个性化(personalization)。陪伴需要共情能力,而首先需要真正地理解用户,这要求产品建立一套机制,其中最核心的是,一是基于对话的上下文逐渐增加对用户的认知,二是打造一套好的记忆体系,将这些对用户的交流总结存储下来,能在后续的交互中采用适当的“回忆策略”将这些理解表达出来。比如,目前一些AI陪伴类产品已经做了“记忆外显”的功能,比如个性化的语音、图片等等,一定程度上把对于用户的理解给嵌入进去了。 能够表征人与产品的交互行为或发生的关系。用户的行为能够真实地对产品中的世界产生影响,并且这些影响是可以通过一些具象化的方式展现出来的,比如某些游戏产品中设置的抽卡环节等。 产生粘性。做好以上两点,陪伴类产品达到的效果是建立与用户的粘性与连接关系。虽然产品可能五花八门,但最终衡量陪伴的一个客观指标,还是用户在产品上花费了多少时间以及使用的留存。
以Spicychat为代表的以擦边聊天为主的AI陪伴平台。NSFW类的聊天对上下文需求最少,几乎不需要构建对用户的理解,也不需要太深入的“个性化”——从根本上来说,在没有太多上下文的情况下,让一个用户动脑子去延续一个聊天,是非常累的一件事情。而擦边例外,擦边是人的本能。这也是为什么现阶段大量的类c.ai的产品会去冲这个品类,而且许多产品都实现了快速增长的原因——既有天然的流量(擦边天生自带流量,而头部平台因为合规等考虑,大多禁掉了相关话题,造成了很强的流量外溢),又不需要太多的产品设计和技术深度,核心是团队的投流能力。 C.ai。虽然C.ai平台本身并没有提供太多的上下文和针对用户的个性化设计,但C.ai上的人物大多是知名IP,其中最受欢迎的更以动漫和游戏品类为主。这些IP中已经承载了很多内容,用户过去花时间消费了这些内容,已经跟相应的IP角色产生了情感联结。这是为什么我们观察到,C.ai中流量最大的就是原神的角色——原神的本质就是个陪伴游戏,用户玩游戏时已经跟相关角色建立了联系。 星野/Talkie。在C.ai的基础上,加入了更多的剧情/上下文设计及产品运营设计,与C.ai相比,借鉴了更多游戏的思路——如抽卡、记忆掉落等等设定。这些上下文以及抽卡等互动设置,让用户跟AI有了更多"共同经历”和“回忆”,构建了更加紧密的情感联结。
03 IQ EQ & AQ——Agent构成三要素
据某头部大厂内部的定义,一个好的Agent应当有IQ、EQ和AQ(Action Quotient) 。IQ是目前大模型已经提供的智能部分;EQ是本文重点讨论的情商——AI如何更懂人更像人,比如是否正确地观察到对方的情感,会不会基于这种判断有效地进行交流;而AQ则指的是AI的执行能力——IQ和EQ负责给出想法和方案, AQ负责落地执行。
如何评估EQ?
目前IQ是所有大模型厂商在卷的核心领域,相关的评价标准和榜单已经非常多,但如何测评EQ尚无太多可用标准。在这个背景下,我们投资的一家聚焦于AI+心理领域的早期公司Bambu.ai AI与心理学专家一起,构建了EMbench,采用心理学方式评估AI的“Empathy”(共情),并以此作为衡量AI EQ的重要指标。
这套标准重点关注两个指标:同理心能力和系统化思维。研究发现,情感对话能力实际上是这两者的结合,其中系统化思维可能影响对方感受到的共情力,因为它倾向于使用更事实和系统化的方法。(详细内容参考 https://embench.com/blog/benchmarks)
下面图展示了今年Q1 EMbench对主流大模型EQ测试的评估结果。
有意思的是,这个测评将人类的平均情商也作为benchmark一起加入了对比。目前所有大模型中仅Claude V2战胜了人类男性的情商,可见AI的情商还是有较大提升空间的。
做这个测评时,OpenAI尚未发布GPT-4o(EMbench Q2测评报告会包括GPT-4o)。Bambu.ai内部做了评估,初步结论是:目前GPT-4o在情感识别上做的很好,但是在真正应用情商时还有待提升,它的回复还是偏系统思维,不够人性化。
04 实现EQ的关键技术
我们判断,EQ是未来大模型厂商必做的领域,但现阶段大模型(以GPT-4为代表)提供的EQ还不足够。OpenAI对GPT-4的定位是工具,它的Alignment其实去除了情感交互以及多样性表达,因为目的只是为了回答问题和解决问题。在需要情商的场景,在大模型之上创业公司还需要在技术侧做些工作来提升EQ。
Fine Tuning vs. Prompt Engineering
在大模型之上去提升应用表现,目前主要有两种技术路径:Fine-tuning和Prompt engineering。现阶段要提高大模型的情商(EQ),Fine-tuning是公认有效的技术路径,在实践中用的最多。
陪伴类产品需要很多的假设(比如虚拟角色的背景描述、性格设定等),如果用Prompt来做,需要写复杂的Prompt,这样面临两个实际问题。一是大多数大模型能力不够好,尤其在指令跟随(instruction following)方面,很难从始至终按照Prompt保持一致性;二是Prompt严重依赖底层大模型,一旦模型升级或者需要切换另一个模型,效果难以保证。
Fine-tuning反而非常适合。情商涉及对人类情感的理解以及对隐含信息的敏感度(比如语言背后的情绪等),提升它需要基于具体的场景和对话语料,而非依赖新知识的获取或者简单的提示或规则。大模型在Pre-train阶段,主要是建立知识和推理能力;Fine-tuning阶段,可以针对特定情境和语境的数据进行微调,让它更好地捕捉情感和互动中的微妙差别,从而提高EQ。同时,情商是高度个性化的概念——不同的人对情感和社交动态的理解有所不同。Fine-tuning可以实现根据特定用户群体(比如儿童)或任务领域(比如恋爱)的需求来调整模型,使其更加符合个性化的场景和需求。
Memory是核心
如何做好Memory一直是大模型领域一个重要的技术话题。随着大模型应用的深入,越来越多的开发者发现各类AI应用都需要好的Memory体系做支撑,对于大模型EQ也不例外。上文提到,好的陪伴需要“个性化”,而做好个性化的基础是需要有一套好的记忆体系。类比人类的社交经验,一个高情商的人跟你聊天时会记得你是谁、上次跟你在哪里见过、聊了什么,会问你上次的事情怎么样了...可见,好的情商是建立在强大的记忆基础之上的。这不仅仅意味着简单地记住事情,还需要能够在需要的时候进行有效的回忆和调用。这其中涉及两个环节:一是记忆系统的建立,另一个是“回忆策略”的设定。
记忆体系的建立
简单地把跟用户的对话历史堆到长文本中,作为后续交流的“Memory”,并不是一个好做法。这是机器记忆的方式,但人的记忆并非如此。在使用产品的过程中,机器一样的记忆有时会给用户带来很强的违和感(比如虚拟伴侣说他说过56次对不起),用户会更倾向于AI使用人的方式来记忆。另外,将所有的历史对话放到一个长文本中,也会导致用户使用越久推理成本越高,从商业化角度也不理想。所以,构建大模型EQ相关的记忆体系,需要跟人类的记忆行为做一定的模拟。
人类的记忆是怎么工作的?人类会对过去的经历进行整理和抽象,形成各种各样的“总结”,还受到当时的情感、情绪等因素的影响。这些“总结”会作为长期记忆留存在大脑中,在后续对话中被“唤醒”(recall),去检索相关的内容进行调用。因而,构建大模型EQ所需的Memory,既要有对历史对话的总结,也需要有对当时情绪情感的总结。这就相当于基于原始记录上构建了一个“中间抽象层”。目前围绕大模型记忆的许多探索都在做类似的工作。
Recall策略的制定
构建好基本的记忆机制后,大模型如何调用记忆也是一件很复杂的事情。比如,当你的聊天对象很伤心需要安慰时,你是调用过往开心的记忆还是不开心的记忆来安慰他?根据场景和用户对象不同,选择很可能不同,这背后涉及到很复杂的调用策略。放到人类身上,这是我们通常所说的"眼力见”,不要“哪壶不开提哪壶”,这也是情商中不可或缺的一部分。
记忆的界限
尽管好的记忆是高情商的基础,但在产品体验上还有一个要注意的点——过度准确的记忆可能会引发不适。人们不喜欢他们的AI朋友像机器一样记得所有细节,这可能让人感觉受到监视或不舒服。比如,如果朋友记得你今早吃了什么,是个很自然贴心的体验,但如果变成记得你三周前的某个早上吃了什么,这种体验就会变得有点恐怖了。因此,这是设计情商的记忆体系时需要注意的问题。
当下技术的局限
目前,有些重要的EQ能力还没有很好的技术实现路径,比如幽默。幽默既是智商也是情商,人类的幽默很多时候是在沟通中突然间的“灵光乍现”,不同的人的幽默点也不一样。如果AI有了这个能力,能为它与人类的沟通增色不少,但现在人们还没有发现如何有效提升“幽默”能力,可能需要依赖后续大模型能力的涌现。
05 AI陪伴的机遇和壁垒
巨头战略分析
如前所述,EQ是通用AI Agent不可或缺的“要素”,巨头绝不会袖手旁观。从近期几个头部大厂的一系列动作,我们能窥见一些线索:
海外大厂
OpenAI推出GPT-4o, 在发布会上演示了具备一定情感理解能力的语音助手。我们推测,未来OpenAI想做的是一个把所有多模态(包括语言、语音、视觉等等)的人与虚拟世界、与机器人的交互都包括的平台,并把这个平台作为超级入口。
微软于今年早些时候收购了inflection.ai的团队,将Inflection对于AI EQ的know-how融入了其AI业务中,未来微软想做的是一个既能够帮助用户提升工作效率、解决问题,也能提供情绪陪伴、疏导心理压力的AI助手(我们猜测,以微软目前的业务及优势领域,大概率是从工作场景先切入)。
苹果也在近期被爆与OpenAI达成了协议,将在新一代操作系统中引入GPT技术,升级Siri的对话体验。以苹果目前的市场占有率,这一步对于苹果和OpenAI都至关重要:OpenAI迅速扩大了其用户基数,同时获得了端侧应用权限和系统级权限;而苹果也在同时获得了最好的AI能力,将AI无缝融入至原有的产品中,将Siri直接升级成了类似“Her"的AI助手。
Google在近期的I/O大会上展示了其最新的通用AI Agent Project Astra,也是一个基于多模态的AI助手,虽然大会demo中Project Astra展示的更多是解决问题的能力,而非情感,但如同我们前文分析的,一个好的Agent“三商缺一不可”,在通用AI Agent这条路上,即使出于防御策略,可能也会在EQ方面有所动作。
国内大厂
字节跳动:情感陪伴本身就豆包内置的四大场景之一,今年初,字节又上线了类C.ai的AI UGC平台「话炉」,更加注重内容和娱乐属性。
腾讯:腾讯在C端最大的优势是拥有微信这一超级入口,如果能将AI的情商能力与这个超级入口结合,将是离国内用户“最近”的通用助手。只是目前尚没有明确的线索看到腾讯在这个方向的动作。在类C.ai领域,腾讯旗下已有「未伴」,及阅文的「筑梦岛」。
头部大模型厂商:目前国内的头部大模型厂商中,月之暗面、Minimax以及阶跃星辰是更加注重2C市场的几家。其中Minimax的C端产品星野/Talkie已经获得了不少用户和市场关注度;月之暗面的KimiChat在发布之时就将“每个人都可以拥有一个具备终身记忆的虚拟伴侣”作为重要的愿景之一,最近正在测试的打赏模式也很有意思,似乎在引导用户与AI建立一些“情感联结”;阶跃星辰也已发布了「冒泡鸭」这一类C.ai平台。
我们会发现,大厂的所有行为都是希望用多模态的通用AI助手去抢一个超级平台入口。在目前这种竞争态势下,对于创业公司,想去抢“通用AI助手/通用AI陪伴”的入口机会、或者与大模型厂商PK打造“底层3Q”的能力,很难胜出。
我们推测,未来大模型厂商会输出“3Q”的基础能力,而应用层基于此在一些垂直场景/专业领域去做更深入的产品。做个类比,大模型厂商是批量化输出具备基本素质的人才(至少是本科毕业生水平),而应用层负责帮这些“AI人”找到个“工作”,比如心理咨询师、销售等等。
创业的机遇和壁垒
AI 陪伴产品如雨后春笋般冒出,很多产品同质化严重。如何能在这个领域构建壁垒、做出真正的价值?这是很多创业者关心的问题。
从对赛道终点的判断出发,以终为始来看,正如上文所说,EQ是通往AGI的半壁江山,同时“陪伴”能够产生粘性和用户时长,对于形成入口极为重要,这会是大模型厂商的必争之地。未来AGI来临,这个赛道会是一个标准的“技术即应用”的领域——淹没掉很多阶段性的技术和产品设计。实际上,就目前阶段,通用的聊天机器人已经有一定程度的陪伴属性,对创业公司来说,做太泛的AI陪伴是去直接与大模型厂商竞争,胜出几率很小。
那创业公司的机会在哪里?我们认为有两个大方向可探索:
深入垂直领域。即上文所说的“给你的AI找个工作”——“陪伴”的场景根据用户动机有非常多的细分市场,许多细分市场都有自己的“Domain Knowledge”,如心理咨询、儿童陪伴、老年人陪伴、医疗领域的患者陪伴……等等,这些专业领域的知识及经验是大模型不掌握、也不会优先考虑去做的,但对于创业公司而言又是能打出足够差异、可能产生独特用户价值的方向,适合在相关领域有数据或专业经验积累的团队探索。
基于大模型的基础能力构建丰富的内容/世界。正如本文前面提到,陪伴需要真正的理解用户,这是实现个性化的前提,其中最核心的是基于上下文逐渐加深对用户的理解,因而“构建上下文内容”是一个创业公司可以发挥价值的切入点。通俗点说,就是为你的AI与用户创造一些独特的“记忆”和“共同经历”——这个“内容”可以是一个引人入胜的故事、一个丰富可探索的世界、一个充满神秘感需要用户不断挖掘的角色……形态上也可能是文本、音频、视频、游戏或者这些模态的结合。
创业公司怎样构建自己的护城河?
找好了切入点,创业公司还需想清楚自己的护城河问题。我们认为,对于陪伴类产品,最核心的还是做好个性化以及记忆体系的搭建,这两部分对于团队的产品设计和技术能力提出了很高要求。在此基础上,所积累下来的用户数据、以及用户与AI产品所构建的不可迁移的关系、信任感和习惯,是这个领域的最大的护城河。
About Atom Capital