导读 本期我们邀请到了 Hedra 的联合创始人兼 CEO Michael。他曾在斯坦福大学攻读博士学位,由吴教授和李飞飞教授共同指导,专注于物理世界建模与具身智能的交叉研究。在 NVIDIA 的 Omniverse 团队实习期间,他参与了 Omni-Gibson 的研究,对模拟物理与真实感表现系统的结合有深入探索,同时对电影、电视剧和动画等娱乐行业充满热情。
转自 | Z Potentials
2021 年,Michael 创立了 Hedra,致力于开发以角色为中心的基础模型,打造引人入胜的 AI 生成视频内容。Hedra 允许用户通过实时生成角色,快速创建高质量的视频,颠覆了传统的视频制作流程。截至目前,Hedra 平台内用户生成的视频数量达数百万,其中部分视频的浏览量超过 300 万次,多次登上 Reddit 热门榜单。社区也在迅速壮大,Twitter 粉丝近 9000 人,Discord 用户接近 2 万人,月收入增长率超过 200%。公司已从 a16z 筹集了超千万美元的资金,并且成功完成了由 Index Ventures 领投的种子轮。
在这篇访谈中,Michael 向我们介绍了他从学术研究到创业实践的心路历程,分享了 Hedra 在 AI 驱动的视频生成领域的创新,以及他们对未来视频创作的愿景。Hedra 也在积极招聘,寻求热情且富有激情的全栈前端工程师和研究科学家,专注于下一代实时视频基础模型的开发,并与全球顶尖大学合作,注重发现和培养优秀人才。让我们一起走进 Michael 和 Hedra 的故事!Enjoy!:)
当没有一家公司在做你真正想要做的事情时,你就得自己去做。 当我离开博士生涯创办公司时,这成为我兴奋的首要想法之一:如何将数据驱动的方法引入其他领域,并加入可控性、角色概念以及智能概念,使这些视频模型能够创造出类似于人类或令人产生情感共鸣的动画角色。 在创业环境中,变化如此之快,你可以随时适应这些变化,技术在变化,人们的需求也在变化。 我认为原因之一是视频一直具有吸引力,从人类历史的开端起,看人与人交流就先于文字,是最自然的交流方式。但不幸的是,视频制作仍然非常耗费精力。
我们希望重新思考视频制作流程,让它变得简单,比如用短文字描述就能生成专业视频。......如何围绕这个核心重构创意工具,比如从头开始重新设计以生成视频模型为核心的 CapCut,这也是我们的起点,我想这也是投资者对Hedra 感到兴奋的原因之一。 我们要构建模型,还需要打造一个非常直观的用户体验,使其简单易用,因为我们不希望它只是一款小众的 AI 工具,而是希望成为一个突破性的产品,能够让企业和普通用户都能参与内容创作。因此,我们不仅构建了一个前沿的、独特的技术模型,还设计了一个如此简单的产品,让即使不熟悉 AI 的用户也能在几秒钟内制作内容。 我们的目标是主导视频制作。用户可以来到我们平台,带着创意制作下一个营销活动或 YouTube 短片,我们的创意助手将从零帮助他们完成。
ZP:能简要介绍一下自己吗?可以从你的学术经历、个人成长说起,并谈谈它们如何反映了你当前的价值观。
Michael:我是 Michael,Hedra 的联合创始人兼 CEO。要追溯的话,我小时候很喜欢戏剧,对表演和艺术很感兴趣。可惜我的表演生涯在初中、高中早期就结束了,不过我的学术生涯继续延续了下去。我曾是斯坦福大学的博士生,由李飞飞教授和吴佳俊教授共同指导,主要研究物理世界建模与具身智能的交叉领域。
我的研究主题是如何构建能够理解物理世界并加以利用的 AI,因此我在模拟仿真方面投入了大量精力。我曾在 NVIDIA 的 Omniverse 团队实习,这段经历后来发展成了 Omni-Gibson 的论文。我的研究始终关注如何将模拟物理世界的技术与能够带来真实感表现的系统结合起来。
我想你大概可以猜到这如何在 Hedra 的首次产品发布中呈现:我们聚焦于打造以角色为中心的基础模型,这样可以让它们呈现出非常引人入胜的表现,能够表演、行动,并展示特定的行为。
Alex:我是 Alex,也是 Hedra 的联合创始人。之前我也是斯坦福大学的博士生,研究生成 3D 和以人为中心的 3D 表示。业余时间虽然没有Michael那样的经历,但我一直是娱乐,尤其是优秀电影、电视剧和动画娱乐的爱好者。读博期间,我参与了一些项目,主要研究生成 3D 表示,特别是人物的 3D 表示,因为我觉得人在各种娱乐媒介中都是非常重要的一部分。
ZP:详细分享一下你们在斯坦福的学术历程和研究经历?以及你们在计算机视觉、AI和图形领域的工作如何影响了你们对 GenAI 生成内容的看法?
Michael:我职业生涯的早期主要在研究,那个时候还没有现在的 LLM,我是在2018年开始博士研究的。当时我们刚刚开始考虑计算的扩展问题。
我博士期间的第一个项目之一是研究图预测网络,如何将场景分解成一些符号化的表示,然后在大量数据上进行训练以预测未来。这就是当时的世界建模,与如今投喂TB级数据的方式不同。不过,当时已经有了将事物简化为统一符号语言的思路。后来我更感兴趣的,是不仅如何建模世界,而是如何开发可以利用这些世界模型进行互动的系统。我在后来的一个项目中,开始研发渲染技术,比如iGibson 这个机器人模拟器,后来的 OmniGibson 加入了光线追踪和其他计算机图形技术。
ZP:我们可以聊聊产业方面和产品技术的未来。可以介绍一下你们的共创工具和社区吗?它的主要功能是什么?有正在开发的新功能吗?能谈谈这个产品的灵感来源吗?是用户反馈、个人兴趣还是市场机会促使你们开发了这个产品?我知道你们有一个非常活跃的 Discord 社区。
Michael:目前产品的核心共创流程在当前的 beta 版本中,基本上是一个多模态创作工作室,围绕制作交流视频展开。它可以是角色唱歌、角色说话,适用于虚构内容或信息传递。我们构建了一个基本的最小可行产品,可以生成生成式角色,也可以上传图像来创建自己的虚拟形象进行故事讲述。我认为这款产品的强大之处在于,我们将许多分散的工具整合到一个简单的工作流程中,再加上最先进的模型,让人们能够立即生成内容。
开发这个产品的灵感和市场机会来源于我想要制作自己的讲解视频的需求。我经常看到 YouTube 创作者、营销视频的制作者,甚至是电影和其他内容的制作者,我当时就想:“我做不到这一点。”我尝试了很多次,但需要大量设备,还得注意自己的形象,真的很繁琐。而成千上万的 YouTube 内容创作者、数百万的内容创作者和企业在这些方面花费了大量时间和金钱。所以,我觉得必须要有更好的方式。尽管我们有生成视频的模型,但为什么没有开发一个从头到尾的大型基础模型,并为这一明显需求巨大的垂直领域进行了优化呢?我们解决了这个问题,有朝一日,我们甚至会部署虚拟的 Michael 来做访谈哈哈,开玩笑的,我会亲自参与访谈。
我们要构建模型,还需要打造一个非常直观的用户体验,使其简单易用,因为我们不希望它只是一款小众的 AI 工具,而是希望成为一个突破性的产品,能够让企业和普通用户都能参与内容创作。因此,我们不仅构建了一个前沿的、独特的技术模型,还设计了一个如此简单的产品,让即使不熟悉 AI 的用户也能在几秒钟内制作内容。
ZP:可以分享一些即将上线的新功能吗?
Michael:我们即将推出的一项重要更新是生成角色在表现力方面的进一步提升。同时,我们也在开发许多用户请求的功能。从产品角度看,我们与 11 labs密切合作,推出一项非常令人期待的新功能;我们还与 Cartesia 合作,一家语音公司,开发即时语音克隆功能。我们还在与 Flux 模型的开发团队合作,提升用户生成高保真角色的能力,包括姿势控制等。此外,我们也在整合这些功能,推出一个更适合企业客户的工作流程,称为 Hedra Studio,这款新产品预计将在秋季晚些时候发布。
ZP:我们看到你们的内容在许多平台上表现良好。可以分享一些具体的数据吗?比如用户数量、流量、内容创作量和一些DAU等数据,这些数据如何帮助我们的受众了解付费功能的表现?
Michael:现在,使用 Hedra 制作的视频数量已经达到了数百万,这个数量非常庞大。我们的用户数已超过50万,月收入增长率达到200%以上。我们目前有一个相对慷慨的免费计划,不急于迫使用户转向付费计划,因为坦率地说,这对我们的营销效果非常好。我们提供的免费计划额度甚至比大多数视频公司提供的付费计划额度更高。
我认为这是我们增长的关键之一,用户可以进来体验模型,通常第一次尝试就能获得不错的结果,只要遵循我们的指导或使用图像生成器,随后他们会向朋友推荐。因此,你会看到大量 Hedra 内容在网络上传播。在观看量方面,我们的某些视频的浏览量已超过300万次,我们多次登上 Reddit 的热门榜单。ChatGPT、AI 视频和 Midjourney 方面也有相关内容。如果你去看看 Neural Viz,他做了一系列出色的视频,在 YouTube 上非常受欢迎,仅凭 Hedra 内容就积累了七八千订阅者。他是一位非常有才华的创作者。我们很高兴看到社区将我们的技术应用于全新的娱乐和实用领域。我们甚至有用户创立了以虚拟角色为主要人物的 TikTok 频道,这非常令人兴奋。
ZP:可以分享一些关于用户、初期用户反馈和市场营销的见解吗?
Michael:我们收到最多的反馈是:“什么时候会有16:9的模型?” 这并不是我们没想到,而是我们一直在努力开发,很快就会推出。另一个常见反馈是:“什么时候会有高清模型?” 这个也很快会实现。我们关注的核心是,能否提供用户从未想过、甚至尚未提出的功能。我对公司结构的规划是:有人非常擅长思考这些模型的新前沿,如何构建下一代架构,以超越当前速度和质量的极限。而我则从产品的角度出发,如何解锁新功能,将这些功能嵌入模型中,并构建创新的用户界面,使用户体验与核心模型的创新相得益彰。
Alex:我想补充一点,用户常提出类似16:9和高清的请求,这些都是基于现有模型的需求,是他们现有工作流程的优化。但用户较少会想到实时视频模型或巨大性能提升,因为他们甚至不知道这是可能的。所以我们需要在短期内帮助用户从现有产品中获益,同时也要思考如何提供他们还未意识到的新功能,创造真正具有吸引力的产品体验。
ZP:能否向我们讲解一下构建 AI 平台的过程,以及在技术扩展方面遇到的挑战?
Michael:我们进行了大量的试验和探索,以实现首个多分钟的稳定视频模型,这是我们研究的重点之一。同时我们也在致力于将生成时间从10秒视频需要两分钟缩短到2分钟生成2分钟内容。我们非常关注如何让反馈循环足够快,以避免用户流失,让不仅仅是AI爱好者,还有新手用户都能生成出内容,比如1分钟的 Instagram 视频或10分钟的 YouTube 视频。最初我们投入了大量时间实验,现在我们投入了更多资本,与 Oracle 合作了更大的 GPU 协议,使我们的模型开发速度成倍加快。
Alex:关于后期发展,构建大规模基础模型既是工程挑战也是研究挑战。在创业公司中,如何以正确的速度扩展是关键。如果扩展过快,就会有很多资源无法有效利用,成本浪费;如果扩展过慢,在竞争激烈的市场中就会落后。我们始终希望在技术上保持领先,所以在快速扩展和资本效率之间找到平衡是一个挑战。但好在我们可以随时调整,现在我们大部分系统已经到位,可以继续扩展。当然,未来可能还会进行调整以适应更大规模和更大团队,但我们一直在这个轴线上迭代,以最快速度前进。
ZP:你们如何看待大型语言模型提供商和开源模型的发展与公司领域的关系?
Michael:我们更感兴趣的是全模态(Omni-Modal),即如何将更多模态整合到同一核心模型中。目前的视频模型大多是输入文本或图像,而 Hedra 则支持音频输入。我们还在开发额外的控制模态,如关键点和姿态控制,以及新的输出模态,比如视频模型能够吸收视频数据,学习人物的动作和思维方式,进而生成更加真实的音频和视频。Hedra 的核心目标并非打造最好的 LLM,那是 OpenAI 和 Anthropic 的专长,而是构建最真实的人物或角色形象,逐步将多个模型整合为一个全模态系统。
Alex:关于开源的另一点,我们和开源社区的区别在于,很多开源项目来自学术和研究界,主要聚焦于在某一方面做出有见地的贡献,但没有我们这样的规模、产品或用户。因此我们既可以自己创新和进行内部研究,也能从学术界汲取新见解,并将其与我们内部开发成果结合,打造出超越任何单一开源项目或论文的成果。这也是我们团队的优势之一,可以迅速响应学术界的新发现,将其与我们的改进结合,构建更优的产品。
Michael:我们拥有比学术实验室更多的资源,因此能够将这些模型扩展到研究环境中无法实现的规模。
ZP:许多学生不选择读博士,因为大学资源有限,缺乏 GPU 等硬件来支持大型工作。AI 驱动的视频生成和编辑的竞争近年来尤其激烈,特别是从去年十月到现在。你们怎么看待这种情况?针对这类用户的主要卖点是什么?AI 可以如何解决这些问题?我认为很多人喜欢视频制作,并希望能轻松制作视频。我想听听你们对这类用户的看法。
Michael:我们确实看到,越来越多的公司开始提供视频生成技术。最初只有Runway,然后 Pika 推出了模型,现在有大量新一代模型出现,比如可灵、Runway Gen3、Luma 从 3D 转型到视频模型、Google 视频推出 Veo(尚未发布)。很多公司似乎在提供类似的产品,对我们来说这反而是个好消息,因为我们正在与一些公司(如可灵)探讨合作,可能会将他们的文本到视频模型作为我们的API,而我们则专注于高分辨率、可高度控制的真人角色生成。
我们的差异化策略是打造一个高度可控的系统,用于 A-roll 镜头(即说话的角色、前景角色、角色的情感表现)。我们目前不特别关注背景模型。虽然我们有团队和资源开发这些,但我们认为这个领域已高度商品化,暂时不需要去涉足。未来我们可能会将技术和方法扩展到背景生成上,但目前我们的增长主要来源于角色、表现和演技方面的差异化,我们希望继续在这一领域投入。
ZP:你们怎么看待 Hedra 在 AI 生态系统中的定位?与其他初创公司或大公司相比,有哪些显著差异?毕竟他们也有视频编辑和生成团队。
Michael:我们采取了不同的策略,专注于音频+图像到视频的核心领域,并重新构想传统的视频编辑体验,这让我们在市场上处于相对独特的位置。其他一些虚拟角色公司,如 Synthesia 和 Heygen,采用了不同的技术路径,它们并未将基础模型的扩展作为核心重点,更多地面向企业内部沟通视频的市场,这是一个非常有利可图的领域。
我们则在用户生成内容(UGC)和面向外部的营销视频方面经历了爆发式增长。因此,我们的公司定位和技术方向都不同。我们更关注那些可能不一定与PPT关联,而是更多与叙事视频相关的内容。相比之下,像 OpenAI、MinMax、可灵、Runway、Luma 等公司提供的多是相似的文本到视频模型,能生成5到10秒的短片。我们专注于快速、接近实时的长内容生成,角色可以基于音频进行条件生成和操控。因此,我们的护城河在于此,这也是我们能够迅速吸引不同用户群体的原因,甚至超越了传统的 AI 艺术家社区。
ZP:你们计划如何在如此快速发展的领域中保持竞争优势?
Michael:关于如何保持竞争优势,首先我们拥有世界级的研究团队,现在也有资源扩展计算能力。我预计未来我们在资源和计算方面的投入会显著增加,从而提升产品服务和付费用户群体的增长。社区方面,我们的 Twitter 和 Discord 增长很快,目前 Twitter 粉丝数大约8600至8700人,Discord 用户也接近2万人。
在 Discord 上,用户可以分享他们如何使用 Hedra,提出问题,互相交流,甚至成了朋友。我认为这很重要,因为一方面我可以直接了解用户需求,随时在Discord 上获得数百条反馈。这种互动也增强了我们与用户之间的忠诚度,让我们和用户建立了紧密的联系。
Alex:Michael提到我们的团队能够同时专注于研究和产品开发,这一点不应被忽视。很多优秀的研究人员希望专注于基础研究,而许多出色的产品工程师则希望持续开发用户直接使用的产品。而我们团队的构建和文化让我们可以紧密结合这两者,这是许多公司所不具备的优势。
ZP:是什么促使你们创办了 Hedra?
Michael:我们两个实验室关系密切,是通过共同的朋友 Eric Chan 认识的,他参与了许多创新视角合成的论文。斯坦福的学术圈很小,所以你经常会认识其他博士项目或实验室的人。我们当时聊了很多对未来的设想,很投缘。后来我决定创办公司时,就邀请Alex一起加入了。
ZP:我注意到斯坦福学生创业时往往会和其他斯坦福学生合作,这提供了一个良好的环境,让你们有机会提出这些创意并付诸实践。可以谈谈商业化方面的情况吗?我认为找到产品市场契合度(PMF)是创业后最重要的事情之一。Hedra有哪些实现全面商业化的潜在路径?
Michael:我们计划在今年推出下一代产品 Hedra Studio。我们利用庞大的用户群体观察他们在互联网上的创作,并与我们联系讨论功能需求。很多大型公司也与我们联系,提出了定制需求。我们会关注那些黏性高、留存率高的用户群体,基于此调整产品路线图,确保我们为核心用户提供支持。拥有一个病毒式传播的产品固然不错,但病毒性并不能长期支撑公司发展,它带来公司知名度,但真正推动我们发展的还是一个能解决用户痛点的产品。
ZP:关于商业化方面,有没有想补充的?
Michael:与客户合作并解决实际痛点,比起先开发技术再期待客户找到用法,更有助于找到产品市场契合度。我们非常有意识地选择了前者这条路。当前阶段用户还不需要为产品付费,那么未来你们会考虑产品定价吗?广告会不会作为付费功能之一?未来产品的定价是如何考虑的?
我们确实有付费计划,目前并没有特别强推。用户每天可以生成五个视频,用完后会有弹窗询问是否升级。付费计划提供了额外功能,比如去水印、将生成时长从30秒延长至4分钟,这对用户转化非常有效。同时,我们没有像其他平台那样设立更严格的限制,因为当前的付费用户基本上覆盖了免费用户的成本,这对我们增长有利。因此,考虑用户转化为付费时,我们主要关注他们遇到的问题。用户告诉我们,他们不知道如何创建内容,或希望加快创建过程,想自动化一些市场营销、教程或产品推广工作。Hedra Studio 旨在满足这些需求,将我们在虚拟角色上的简便操作拓展到整个视频制作流程中,这将是我们收入的主要来源。
ZP:与视频编辑工具、虚拟角色生成器或视频制作平台相比,我们在哪些方面更具优势?是什么让我们在数据性能上更胜一筹?
Michael:人们喜欢我们的系统是因为它的速度和灵活性。用户可以编辑动画角色、自己照片或生成的图片,并在平台内完成生成。我认为人们还会喜欢我们的编辑体验,因为我们将推出一些非常新颖的功能。此外,我们可以更深入地将这些功能集成到编辑器中,因为我们可以直接访问基础模型,而很多公司只能通过API使用这些模型。因此,我们从模型提供商向工作流程工具的转变很令人兴奋,因为我们可以开放模型的功能,让用户实现生成和非生成内容的混合、扩展非生成内容、重新配音并生成逼真的面部表情、呼吸和动作等,这些都是我们模型的优势,且希望带入完整的产品体验中。
ZP:Hedra的长期愿景和使命是什么?十年后,你希望 Hedra 成为什么样的公司?
Michael:我们的目标是主导视频制作。用户可以来到我们平台,带着创意制作下一个营销活动或 YouTube 短片,我们的创意助手将从零帮助他们完成。我认为视频创作是一个庞大的市场,视频分发同样非常有潜力。我们有一个清晰的未来视频创作平台愿景,但我们也认为视频的分发、分享和协作也具备变革空间。所以,Hedra 的起点是建立新一代视频创意工作室。未来,我们希望加快模型速度,实现实时互动,使视频不再是一次性创作,而是可以互动、来回交流的内容。我们的愿景是从创作开始,但也提供独特的分发体验,比如在视频结束后实时 Q&A,观众可以和刚刚讲解的虚拟人物互动。这是我们未来模型发展的令人兴奋的方向。
ZP:你们怎么看待美国与其他地区 AI 初创公司生态系统的差异?比如 Minimax和可灵都来自中国。鉴于你们在学术和创业生态系统中的工作经验,你们如何看待AI的采用和创新差异?
Michael:近年来,中国的初创公司数量有所下降,这主要是由于经济和监管因素。所以我们现在看到的许多初创公司是两三年前成立的,这些公司就像中国的OpenAI,构建基础模型,并在全球范围取得成功。例如,Minimax 背后的公司获得了大约4亿美元的融资,比 Luma 多出两到三倍,接近Runway的融资规模。可以说,Runway是美国资金最充裕的视频生成公司之一。我认为一个显著的差异在于,美国仍然有很多初创公司,特别是在应用层面,基于基础模型构建应用层的初创公司不断涌现。
相比之下,欧洲主要投资于国家级的AI项目,如Mistral等。总体而言,硅谷的创业生态仍然是全球最具活力的,但其他国家也在进行卓越的创新。印度的初创生态系统也非常繁荣。
Alex:从学术角度看,我们发现许多领域的前沿论文都来自中国的大学。以往我们主要关注美国和欧洲的研究,但如今越来越多的前沿成果出自中国的高校。
ZP:在中国,大部分教授会推动博士生和硕士生去写论文,因为在 CVPR 或ICML 上发表论文对获得教职非常有帮助。
Alex:在美国也有类似的情况。我觉得有一点不同的是,美国的学术生涯往往是由最高影响力的工作决定的,而不一定是作品数量。对于我们从事的视频生成和人类中心视频领域,许多有较大影响的论文,比如动漫相关的论文,也来自中国的公司或高校。
ZP:我想了解一下Hedra目前的融资情况。
Michael:很高兴分享,我们从 a16z 筹集了超过1000万美元。我们首先加入了Speedrun 基金,这帮助我们找到了一些产品市场契合度的想法,比如市场推广、团队建设等,这对公司发展至关重要。种子轮由 Index Ventures 领投,Abstract 则是第三个主要投资方。目前我们在洽谈新一轮融资,这令人兴奋。但现在我们的订阅产品也带来了不少收入,所以我们对新资源的到位非常期待,包括团队扩展和计算资源的增加。我们最近进行了许多激动人心的招聘,还在纽约开设了办公室,我现在就在这里。这就是我们目前的融资情况,它让我们能够大幅提升模型的计算能力。
ZP:能否分享一些你们在美国、中国或欧洲感兴趣的AI初创公司?
Michael:我们与 11 Labs 和 Cartesia 合作密切,我觉得这些公司非常有趣。11 Labs 在音频质量、语音库和语音定制化方面推动了很大进步;Cartesia 在状态空间建模和音频延迟降低方面做了许多创新。还有一些公司,比如 Black Forest Labs,前 X Stability 团队在图像生成的开源模型上也做得很好。我对 Anthropic最近的工作印象深刻,Claude 3.5 在代码生成方面表现出色,速度和延迟方面都有提升。此外,我知道一些还未发布的公司,我觉得它们非常酷,但可能还不能多谈。不过我花了很多时间思考我们的目标领域,所以我更多关注那些与我们协同作用的工具。
Udio 团队也在做很多令人兴奋的工作,我们与他们关系密切。许多 Udio 用户用 Hedra 生成音乐视频,许多用户通过我们的 Discord 社区发现了 Udio,我们的 Discord 社区之间有很大的重叠。我很喜欢 Udio 的创始人 David,他是个了不起的人才,这是另一个让我很期待的公司,我知道他们正在开发一些非常惊艳的东西。
ZP:对于企业客户,比如游戏行业、娱乐和电影制片厂,他们可能也会使用Hedra。我想了解他们对 Hedra 的需求,以及他们在 AI 视频编辑和生成方面的期望。
Michael:这些需求非常庞大。快速、个性化地创建内容,面向用户量身定制的能力是我们的独特优势。我们刚从多伦多国际电影节回来,在那里与一些AI创意者和行业专家合作举办了活动。我们与许多企业客户合作,他们希望快速生成视频,因为视频内容在发送邮件时更具说服力,或者用于构建内部知识库,他们希望能够快速生成视频。
他们希望有一个可以提供可扩展API解决方案的合作伙伴,能够在模型上进行微调,或者提供一些编程接口,以便以某些规模进行访问。我们曾在推特上发布API注册链接,每天仍有新用户注册,至今我们可能已与三四百家公司交流,范围从小型企业到《财富》前十的大公司。我们非常期待推出企业API产品,以及更加全面的团队级产品,方便人们用我们的技术创建视频。
ZP:你们有喜欢的书籍或文章可以推荐吗?或者有特别钦佩的人吗?为什么?
Michael:我以前看很多书,但现在除了关于我们领域的文章,已经不太读书了。我几乎每时每刻都在思考公司和相关事务。说实话,我的休闲方式是看电视,每隔几天会看一集电视剧。我刚刚看完一部叫《想见你》的台剧,觉得很不错。至于文章或论文,我几个月前读过一篇叫《Scalable Image Generation via Next-Scale Prediction》的论文,是 Keyu Tian 关于视觉自回归建模的研究,六月发表的。我觉得它关于扩散模型之后的架构思考很有意思。
Alex:我手头有一些 Andreessen Horowitz 的书,虽然还没完整看完。我认为互联网带来的阅读方式不再像一本完整的书籍那么结构化,我经常会在 Hacker News 上看到有趣的文章。有时 Michael 还会在我们的 Slack 中分享一些,比如关于“构建无法规模化的东西”之类的哲学性内容。
这些内容甚至对研究项目也很有帮助,让我在产品规划上也有所启发。你问到我们钦佩的人物,我觉得不仅仅是那些像扎克伯格这样的显赫人物,还包括那些可能比我们稍领先一步的创始人,看看他们如何解决问题,这也很鼓舞人心。
Michael:对我而言,有很多人对我有深刻影响,比如我们的投资人,来自Index 和 a16z。我们现在与 Index 的合伙人 Shardul Shah 合作密切,他曾投资过 Datadog 等大公司。能得到 Index 的支持非常好,a16z 的支持也一样,像Troy 和 John 以及团队里的其他人都非常热情。风投界有很多热衷于公司建设的优秀人才。还有一篇有趣的文章,是 Sequoia 的合伙人写的,标题是“AI的6000亿美元问题”,探讨了人们对 AI 的看法以及 AI 是否真的回报了其高昂的开发成本。我建议大家看看这篇文章,它让我意识到即使在开发酷炫的技术,也需要考虑这个技术是否真正解决了值得投入的实际问题。
ZP:可以分享一些个人爱好吗?
Michael:我一直对电影和艺术很感兴趣。现在我在公司之外几乎不怎么做别的了,偶尔会下厨,喜欢烹饪。我也会和女友共度时光,另外看了很多韩剧。坦白说,我的生活挺无聊的,几乎全在工作。
Alex:我在工作之外会做很多运动,比如打网球、玩 pickleball 和篮球。上周,我还和团队里的一位研究员打了一场篮球。我喜欢在周末抽时间到户外活动。如果我感觉工作效率低,会休息一下,运动过后再回来工作,通常会更专注。有时会惊讶于之前花了两小时没做完的事情,在正确的心态下只需15分钟就能完成。
ZP:还有任何信息要分享给我们Z Potentials的观众们吗?
Michael:可以在推特上关注我们的账号 @Hedra_Labs,试用我们的产品并推荐给朋友们,趁着我们的免费计划还在。关于招聘,我们一直在寻找优秀的人才。我们目前在招大量人手,主要是对创意工具感兴趣的全栈前端工程师,以及研究科学家,专注于下一代实时视频基础模型的开发。我们希望找到热情、富有激情,愿意一起创建一家影响一代人的公司的员工。我们也曾为员工办理过签证(H1B/O1等),比如刚从 Max Planck 研究所引入的 Hongwei Yi,他目前在我们旧金山的办公室。我们也有许多优秀的实习生,与许多顶尖大学合作,甚至有来自顶尖中国高校的实习生。我们非常注重发现和培养优秀人才。
往期推荐
用AI技术打造个性化驾驶体验最佳实践
对话Nvidia黄仁勋:机器学习不仅是关于软件,而是涉及整个数据管道;机器学习的飞轮效应是最重要的
李彦宏:大模型幻觉基本消除,这是只靠想法就能赚钱时代
百度沧海·存储统一技术底座架构演进
翁荔B站分享原文:AI安全与“培养”之道
Agent+RAG:基于大模型的生成式AI落地探索
抖音集团数据血缘深度应用:架构、指标与优化实践
OpenAI华人VP翁荔离职:北大校友,掌管安全,最近B站分享被热议
「深度」学习计算广告,我为什么从推荐系统转向计算广告?
腾讯语音合成技术:模型优化与推理加速实践
点个在看你最好看
SPRING HAS ARRIVED