AI创投周报|对标MLP的神经网络架构Kan 2.0重磅发布,AMD以49亿美元收购全球最大AI服务器制造商ZT Systems

企业   2024-08-23 18:07   中国  


AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者(Alpha Founders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。


本图由“千象”(网址:www.hidreamai.com)生成


本周,我们观察到以下AI领域的新动向和新趋势:


1.KAN 2.0神经网络架构更新,深化科学问题研究与定制化应用。由MIT博士生刘子鸣领衔的研究团队打造的KAN 2.0,是一项革命性的AI架构,旨在挑战传统的多层感知器(MLP),并进一步探索AI与科学的统一。该架构能够协助研究者发现如拉格朗日量等关键物理概念,并且允许用户根据特定科学领域的需求定制化自己的KAN模型。


2.A16Z投资的Luma AI发布Dream Machine 1.5,视频质量、文本语义还原大幅度提升。Luma推出了其Dream Machine的1.5版本,与1.0版本相比,新版本在视频制作的质量上有了显著的飞跃,特别是在视频的清晰度、光影、饱和度、构图和运镜等方面,其表现已经接近于OpenAI的Sora。此外,1.5版本在文本到视频的语义转换上也有了显著的进步,能够更精确地根据文本提示生成相应的视频内容。


3.AMD斥资49亿美元收购全球最大AI服务器制造商ZT Systems,以增强其AI能力。美国芯片巨头AMD公司近日宣布,通过现金和股票交易的方式,收购全球最大超大规模计算公司、领先的 AI 基础设施提供商ZT Systems,交易金额达到49亿美元(约350.14亿人民币),从而将大幅扩展AMD数据中心的 AI 系统业务。

如果您对人工智能的新浪潮有兴趣,有见解,有创业意愿,欢迎扫码添加“阿尔法小助理”,备注您的“姓名+职位”,与我们深度连接。


人工智能产品和技术的新突破


1. 旨在挑战MLP的KAN 2.0神经网络架构更新,深化科学问题研究与定制化应用


由MIT博士生刘子鸣领衔的研究团队打造的KAN 2.0,是一项革命性的AI架构,旨在挑战传统的多层感知器(MLP),并进一步探索AI与科学的统一。该架构能够协助研究者发现如拉格朗日量等关键物理概念,并且允许用户根据特定科学领域的需求定制化自己的KAN模型。


KAN 2.0的核心在于弥合AI的连接主义与科学的符号主义之间的差异,提出了一种框架,使AI能够更好地融入科学研究。该框架包括了MultKAN模型,它通过增加乘法层来提升原始KAN模型的表达力和解释性。此外,KAN 2.0利用kanpiler工具,将符号公式编译成神经网络,为科学知识的整合提供了创新方法。最后,KAN 2.0通过树转化器将神经网络转换为树状图,使其能够描述难以用符号方程表达的领域,如化学和生物学。


论文还探讨了如何将科学知识整合到KAN中,包括辅助变量、模块化结构和符号公式等,以及如何从KAN中提取科学见解。KAN 2.0在多个领域基准测试中表现出色,尤其在数学和物理问题上,其性能超越了传统人工设计的智能体。


尽管KAN在性能上取得了显著成就,刘子鸣强调KAN和MLP各有优势和局限,不能简单互相取代。


来源:X


2. 由A16Z投资的Luma AI发布Dream Machine 1.5,视频质量、文本语义还原大幅度提升


Luma AI正式发布了Dream Machine 1.5版本,相较于1.0版本,新版本在视频生成质量上实现了显著提升,尤其在清晰度、光影、饱和度、构图和运镜等方面,基本可以与OpenAI的Sora相媲美。同时,文本语义还原能力也得到大幅增强,能够更准确地根据提示词生成视频内容。


用户可以通过访问Luma的官方网站,在文本框中输入描述来生成视频。例如,输入“一位穿着潜水服在水下大笑的老太太,她的表情带着平静和幸福”,系统便能根据这一描述生成相应的视频。值得注意的是,为了生成更精准的视频,建议使用英文提示词。在此之后,用户可以在几分钟内得到生成的视频,并且可以选择在线观看或下载。虽然生成的视频默认没有背景音乐,且时长仅为5秒,但这足以满足制作MV或短视频的需求。用户可以通过剪辑多个视频片段来制作更长的视频内容。


目前,Luma Dream Machine 1.5每天是可以免费试用的但是有限额,超过之后第二天会恢复。


来源:Luma.ai

3. 微软发布三款全新Phi 3.5系列AI模型,性能卓越引领技术新潮流


微软近日发布了三款全新的AI模型,隶属于Phi 3.5系列,包括Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct。这些模型在性能上展现出色,甚至在部分基准测试中超越了谷歌的Gemini 1.5 Flash、Meta的Llama 3.1,以及OpenAI的GPT-4o等领先大模型。

Phi-3.5-mini-instruct是一种轻量级AI模型,拥有38亿参数,支持128k token上下文长度,特别适合在内存或算力受限的设备上使用。它在多语言和多轮对话任务中表现出色,支持23种语言,并在长上下文任务中展现了卓越的能力。

Phi-3.5-MoE-instruct是微软Phi模型中的首个MoE模型,拥有419亿参数,同样支持128k token上下文长度,专注于处理高质量、推理密集型任务。它在代码、数学和多语言理解方面表现出强大的性能,尤其是在专业学科领域的任务中。

Phi-3.5-vision-instruct则是一款多模态模型,集成了文本和图像处理功能,适合图像理解、光学字符识别、图表和表格理解以及视频摘要等任务,在办公场景中有广泛的应用。

这三款模型均在Hugging Face上提供下载、使用和微调,且获得了微软的MIT许可证,允许进行不受限制的商业应用和修改。


来源:https://huggingface.co/microsoft/Phi-3.5-mini-instruct

来源: https://huggingface.co/microsoft/Phi-3.5-MoE-instruct
来源:https://huggingface.co/microsoft/Phi-3.5-vision-instruct

4. 微软14人团队突破AI训练瓶颈,AgentInstruct框架大幅提升数学性能


微软研究团队开发的AgentInstruct框架,通过智能体生成教学法,成功解决了AI训练中高质量数据稀缺的问题。该框架能够自动创建大量、多样化的合成数据,显著提升了AI模型Orca-3在多项基准测试中的表现,尤其在数学领域,性能提升了惊人的168%。


合成数据被视为大模型的未来,英伟达科学家Jim Fan甚至预言合成数据将为AI提供下一万亿个高质量的训练token。然而,合成数据的迭代使用也存在风险,Nature封面研究显示,过度迭代可能导致大模型崩溃。


AgentInstruct框架的优势在于,它仅使用原始数据源就能生成完整的提示和回应,通过三种自动化生成流程:内容转换、种子指令生成和指令改进,确保了数据的高质量和多样性。研究人员利用该框架创建了2500万对后训练数据集,覆盖了文本编辑、创意写作、编码等多种技能。


利用这些数据对Mistral-7b进行后训练,得到了Orca-3模型。数据微调后的Orca-3模型在多个基准测试中显示出显著的性能提升,不仅在数学基准测试中表现突出,在AGIEval、MMLU、GSM8K等评估中也刷新了最佳成绩。此外,AgentInstruct还成功减少了模型幻觉,提高了数据质量。


来源:https://arxiv.org/pdf/2407.03502


5. Anthropic的Claude移动端收入超过100万美元,领先于微软Copilot和Perplexity


由Anthropic公司开发的人工智能应用Claude,其iOS和Android移动应用在推出16周后,总收入已突破100万美元,其中近半数收入来自美国用户。尽管Claude在下载量和收入排名上虽然仍落后于行业领头羊ChatGPT,但其达到100万美元收入的速度超过了微软的Copilot和Perplexity,后两者分别用了19周和22周。


在下载量方面,Claude的下载量在美国市场最高,占全球下载量的32.5%,其次是印度、日本、英国和德国。在收入方面,美国再次以48.4%的份额领先,日本、德国、英国和韩国紧随其后。


尽管Claude作为一家初创公司在移动消费市场取得了显著进展,但面临的挑战依然存在,特别是在Apple Intelligence推出后,Siri用户将能直接在iPhone上访问ChatGPT,这可能会对Claude构成竞争压力。


来源:Appfigures Explorer


6. 贾佳亚团队推出ControlNeXt:下一代图像/视频生成引导工具


由香港中文大学贾佳亚团队研发的ControlNeXt,作为下一代的ControlNet,以其更少的训练参数和更快的收敛速度,实现了与ControlNet相匹敌的可控生成效果。ControlNeXt支持Stable Diffusion家族的多种模型,包括图像生成模型SD1.5、SDXL、SD3,还有视频生成模型SVD。实现了即插即用的功能,大幅提升了可控生成的效率。

ControlNeXt的技术创新在于它移除了ControlNet中的庞大控制分支,转而引入了一个轻量级卷积模块,该模块由少量ResNet块组成,负责提取控制条件的特征表示。这种设计显著减少了计算开销和内存占用,同时保持了模型结构与原始架构的一致性,实现了与其他模型的无缝集成。

在应用方面,ControlNeXt支持图像生成,在SDXL中加入边缘(Canny)引导,能够根据轮廓绘制出符合要求的图片;在SD1.5中,可以把姿势控制条件与各种LoRA搭配使用,形成风格迥异乃至跨越次元,但动作相同的角色;在SD3中,支持遮罩和景深控制模式与超级分辨率功能,可生成超高清晰度的图像。此外,还能与视频生成模型SVD配合使用,实现对动作细节的精准控制,例如让蜘蛛侠跳起TikTok中的美女舞蹈,动作细节甚至精确到手指。

ControlNeXt的推出,被视为规则改变者,其对ControlNet的改进包括更轻量化的条件控制模块和更高效的训练过程。在训练参数量、收敛速度和生成速度上,ControlNeXt均优于ControlNet,展现出其在AI图像和视频生成领域的突破性潜力。

7. 阿里发布mPLUG-Owl3,多模态大模型实现极速视频理解


阿里巴巴mPLUG团队最新推出了一款名为mPLUG-Owl3的通用多模态大模型,该模型在理解多图和长视频方面取得了显著成果,在多个Benchmarks上达到了SOTA。

mPLUG-Owl3将模型的First Token Latency缩小了6倍,单张A100显卡能建模的图像数目提升了8倍,达到400张图片,能够在4秒内完成对2小时电影的观看和理解,显著提升了模型的推理效率而不牺牲准确性。

该模型的核心技术包括轻量化的Hyper Attention模块,该模块通过Transformer Block扩展,以较低成本将LLM升级为多模态LLM,同时保留了视觉Token的细粒度信息。mPLUG-Owl3的另一项创新是引入了多模态交错的旋转位置编码MI-Rope,以及在Cross-Attention中引入Attention mask,这些设计使得模型能够更好地理解多模态输入中的上下文关系。此外,团队还提出了一种新的测评方法,用于评估模型在长视觉序列输入中的抗干扰能力,进一步证明了mPLUG-Owl3在长视频理解方面的领先地位。


人工智能初创公司的新融资


1. AMD斥资49亿美元收购全球最大AI服务器制造商ZT Systems,以增强其AI能力


官方网站:https://ztsystems.com/


美国芯片巨头AMD公司宣布,以现金+股票交易方式收购全球最大超大规模计算公司、领先的 AI 基础设施提供商ZT Systems,交易价值高达49亿美元(约合人民币350.14亿元),从而大幅扩展AMD数据中心 AI 系统业务。


公司强调,ZT Systems 在设计和优化云计算解决方案方面的丰富经验,此次收购还将帮助云和企业客户显著加快大规模部署由 AMD 提供支持的 AI 基础设施,即让AMD提供基于跨芯片、软件和系统创新的领先AI训练和推理解决方案。AMD 预计,到 2025 年底,该交易将在非GAAP收入基础上实现增值。收购完成后,ZT Systems将并入AMD数据中心解决方案业务集团,保留其设计和客户团队,同时考虑出售制造部门。


AMD董事长兼CEO苏姿丰博士表示:“收购 ZT Systems 是我们长期 AI 战略的下一个重要步骤,旨在提供可在云端和企业客户中快速大规模部署的领导力培训和推理解决方案。ZT带来了世界一流的系统设计和机架级解决方案专业知识,将大大增强我们的数据中心 AI 系统和客户支持能力。此次收购还建立在我们为加速 AI 硬件和软件路线图而进行的投资之上,将我们的高性能 Instinct AI 加速器、EPYC CPU 和网络产品组合与 ZT Systems 业界领先的数据中心系统专业知识相结合,将使 AMD 能够通过我们的 OEM 和 ODM 合作伙伴生态系统大规模提供端到端数据中心 AI 基础设施。”


据悉,ZT Systems总部位于新泽西州西考卡斯,拥有超过 15 年为全球最大的云公司设计和部署数据中心 AI 计算和存储基础设施的经验。ZT Systems 的设计、集成、制造和部署能力使其成为 AI 训练和推理基础设施的领先提供商之一。


2. Story以22.5亿美元估值B轮融资8000万美元,打造AI时代内容IP的区块链


官方网站:https://www.story.foundation/


Story,一家致力于开发一个基于区块链的平台,以帮助知识产权(IP)所有者更有效地追踪使用情况的初创公司,宣布在新一轮B轮融资中获得8000万美元,公司估值达到22.5亿美元。此次融资由Andreessen Horowitz的a16z crypto部门领投,Polychain Capital也参与了投资。


Story Protocol通过区块链为创作者和IP所有者提供知识产权和创意权许可的归属。区块链技术长期以来被用于将无形资产与所有权联系起来,包括图像和电子游戏资产。通过Story Protocol,开发者可以将IP权利、资产和许可证转换为自动化的版税支付,简化IP权利的共享。


Story的CEO兼联合创始人S.Y. Lee表示,他们的目标是为下一代数字消费者和创作者建立一个“可持续”的数字IP生态系统,将IP视为可自由组合的“乐高积木”,使任何人都能在无需许可的情况下分叉和混合IP,同时IP所有者能够获得相应的收益。


Story正在构建的“IP区块链”允许创作者声明内容所有权,设置IP使用参数,并授权他人使用。目前,已有超过200个团队和2000万个可寻址IP在该平台上注册。


a16z的投资者Chris Dixon认为,a16z的投资者Chris Dixon指出,生成式AI等新应用将大幅颠覆传统的经济模式,为了让创意市场继续繁荣,需要引入一种新的内容商业化方式。


据悉,Story的创始人之一Lee曾在2014年创立了byline.com,并开发了众包连载小说应用Radish,后者最终以4.4亿美元出售给Kakao。


3. 亚马逊以8000万美元收购Xperi旗下的Perceive,扩展边缘设备AI技术


官方网站:https://perceive.io/about-us/


亚马逊宣布以8000万美元现金收购芯片制造和AI模型压缩公司Perceive。Perceive是一家位于加州圣何塞的公司,是Xperi的子公司。此次收购以资产购买协议的形式进行,预计将在年底前完成。

Perceive专注于为边缘设备提供大型人工智能模型的技术,这些设备通常在网络边缘运行,具有有限的电力、处理能力、连接性和存储。亚马逊表示,此次收购将有助于将大型语言模型和多模态体验带到能够在边缘运行的设备上。

收购完成后,Perceive的44名员工预计将在交易完成后加入亚马逊,进一步增强亚马逊在AI领域的研发实力。

亚马逊的设备与服务部门负责此次收购,该部门包括Alexa语音助手、Fire TV和Echo智能音箱及显示器。Perceive在美国、加拿大、爱尔兰、罗马尼亚和爱沙尼亚都有员工。


4. 基于人工智能的ERP测试平台Opkey完成4700万美元B轮融资


官方网站:https://www.opkey.com/


基于AI的企业资源规划(ERP)测试平台Opkey宣布完成4700万美元的B轮融资。本轮融资由PeakSpan Capital领投,现有投资者UST Global、Verica、Vertical和YouNest也参与了投资。


Opkey的AI平台帮助组织持续测试财务、人力资源和其他ERP软件。目前,该公司拥有超过200家大型企业客户,并已经与KPMG和PwC等知名系统集成商建立了合作关系。该平台能够追踪集成、更新和升级情况,并评估用户对新功能的接受程度。


Opkey由Pankaj Goel、Avinash Tiwari和Lalit Jain共同创立,三位创始人都是ERP行业的资深人士。ERP系统通常需要相互集成,因而任何一个系统的故障都可能导致整个ERP堆栈的崩溃。Opkey的自动化测试平台正是为了解决这一问题。


PeakSpan的合伙人Sanket Merchant表示,随着IT的发展,像Opkey这样的服务将会继续吸引大量的商业兴趣。每年在ERP软件上的支出高达730亿美元,因此自动化测试对于确保此类投资的安全性至关重要。


5. Dropbox收购AI驱动的日历应用Reclaim.ai


官方网站:https://reclaim.ai/


文件共享巨头Dropbox Inc.宣布收购总部位于波特兰的初创公司Reclaim.ai Inc.。Reclaim成立于2019年,该公司利用人工智能来协调日程安排,其日历工具帮助用户找到最佳时间安排定期任务、安排工作、跟踪时间,甚至在会议之间安排休息时间。


Reclaim的创始人Henry Shapiro和Patrick Lightbody在X平台上宣布,Reclaim的应用目前被包括PagerDuty、Zapier和GitHub在内的超过43,000家公司中的320,000名用户使用。尽管Dropbox没有透露交易条款,但创始人表示,整个22人的团队将加入Dropbox,并且服务将被整合进Dropbox。创始人还表示,他们将继续投资于该应用,开发新功能和更新用户体验。


Reclaim目前仅与Google Calendar兼容,但团队表示,未来几个月的一个重点是为所有用户引入对Microsoft Corp.的Outlook的支持。公司还表示正致力于推出名为Reclaim Assistant的AI助手。



本文由阿尔法公社综合自多个信息源,并在ChatGPT的辅助下写作,封面图片由Hidream.ai的Pixeling(千象)生成。


关于阿尔法公社

阿尔法公社
发现非凡创业者
 最新文章