1.智谱AI视频理解模型 革新时间问答能力
智谱AI宣布,训练了一种新的视频理解模型CogVLM2-Video,并将其开源,该模型可以回答视频时间进度相关问题。据介绍,智谱提出了一种基于视觉模型的自动时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,然后基于这个新数据集和现有的开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入。
2.腾讯新项目可输入视频生成对齐音频
近期,腾讯人工智能实验室的研究团队推出了名为「隐含对齐视频到音频生成」的新模型VTA-LDM,该模型旨在提供高效的音频生成解决方案。这一方法不仅提升了音频生成的质量,还扩展了视频生成技术的应用场景。研究团队在模型设计上进行了深入探索,结合了多种技术手段,以确保生成音频的准确性与一致性。
3.Vimeo推出新的AI内容标签
4.字节大模型被苹果收入Core ML模型库
字节大模型Depth Anything V2被苹果官方收入Core ML模型库,Depth Anything V2是一个单目深度估计模型,它能够从单张图片中估算出场景的深度信息。这个模型从2024年初的V1版本到现在的V2,参数量从25M扩展到了1.3B,应用范围覆盖了视频特效、自动驾驶、3D 建模、增强现实等多个领域。
5.AMD豪掷6.65亿美元收购Silo AI
AMD近日宣布,将以6.65亿美元的全现金方式收购芬兰人工智能初创公司Silo AI,力图缩小与行业领导者NVIDIA的差距。Silo AI作为欧洲最大的私人AI实验室之一,专注于为企业提供定制化的AI模型和平台。此次收购将使AMD获得Silo AI的300名成员团队,这些成员将使用其软件工具构建定制的大型语言模型(LLM),以加速AMD在AI技术方面的发展。
6.Claude新功能可快速修改生成内容
7.夸克「超级搜索框」推出一站式AI服务
8.抖音VR直播上架Apple Vision Pro
9.大模型应用产品「心流」宣布正式上线
10.Canva禁止用户AI生成政治类海报