腾讯研究院AI速递 20241008

学术   2024-10-08 00:01   广东  

生成式AI

一、  液体基础模型刷新SOTA,非GPT架构首次显著超越Transformer

1. MIT系初创公司Liquid AI发布液体基础模型LFM,首次显著超越传统Transformer架构;

2. LFM模型具有多模态能力,适用于视频、音频、文本等数据,提供低内存消耗与高效推理;

3. LFM展现出优异性能,其1B、3.1B和40.3B模型版本在多个基准测试中成为新的SOTA,突破了GPT架构的限制。

https://mp.weixin.qq.com/s/-JYnr7_KvIEifsA7E8W1NQ    

二、  OpenAI DevDay公布五项重大创新,成本比GPT-3降低近1000倍

1. 实时API支持构建实时“语音转语音”应用,加强开发者对ChatGPT的语音交互功能应用;

2. 提示词缓存功能减少API调用成本和延迟,特别是对于频繁重复使用上下文的应用;

3. 模型蒸馏允许使用大型AI模型的输出优化小型模型,提升小型模型性能并降低运行成本。

https://mp.weixin.qq.com/s/SsjhWdydjitn6VNeD1kI4g

三、  OpenAI重磅发布交互界面canvas,让GPT成为写作和编程利器

1. OpenAI发布canvas界面,支持与ChatGPT协作完成写作和编程项目;

2. canvas提供直接编辑文本和代码的功能,包括目标性编辑和整体重写;

3. canvas支持多种编程语言,优化了代码审查、调试、和注释添加的流程。

https://mp.weixin.qq.com/s/ZoPh6JZ-PWKcNvHIG1U5QA

四、  好久不见!Pika 1.5 发布:超物理特效,功能很抽象、但全量开放

1. PIKA 1.5版本直接全量开放,无需排队等待,增强用户获取与体验;

2. 引入Pikaffect功能,通过预设的特效模板,用户可上传图片并应用特效生成抽象视觉内容;

3. 特效操作包括膨胀、挤压、压碎、爆炸、融化和蛋糕化等,提供有趣且社交分享价值高的视觉体验。

https://mp.weixin.qq.com/s/2-OkFLyy05TO54nQnExhKQ

五、  Sora中的战斗机!Meta发布史上最快AI视频生成模型,但不开源

1. Meta发布Movie Gen模型,转换文本提示为视频,声称超越行业内其他模型如Runway Gen3和LumaLabs产品;

2. Movie Gen通过自然语言提示实现视频编辑,能处理背景变更和服装颜色调整等文本指令;

3. 生成的视频限制为768p宽度,可增强至1080p,最长视频长度16秒,但目前不包括语音输出,且不开源。

https://mp.weixin.qq.com/s/3LafjByzmm8nfiyuNtVy-w

六、  最新AI生图模型Flux1.1刷屏!添加单反相机文件名获得超写实图像

1. Flux1.1 AI模型通过模拟单反相机文件命名格式,显著提升生成图像的写实质感;

2. 使用不同相机品牌的文件格式如CR2、ARW等作为提示,可得到不同风格的超写实图像;

3. 尽管图像极为写实,仔细观察特定细节如车牌号文本乱码仍可识别出AI生成的痕迹。

https://mp.weixin.qq.com/s/61GRYQ_JIDQuJVVpSFoeEg

七、  无需相机数据!刚刚苹果用AI颠覆3D视觉,0.3秒生成3D深度图

1. 苹果发布的AI模型Depth Pro能从单张2D图像快速生成3D深度图,用时仅0.3秒;

2. Depth Pro可以估计相对和绝对深度,对增强现实和空间计算应用至关重要;

3. Depth Pro模型已开源,提供了无需相机数据的“零-shot学习”能力,极大地增强了灵活性和应用范围。

https://mp.weixin.qq.com/s/ns4SnppTvlMTz2J_a_aEjA

前沿科技

八、  脑科学“登月时刻”?果蝇大脑绘制:AI + 众包,33 年工作量 3 年完成

1. 完成了果蝇成年大脑的全连接组绘制,标志着神经科学领域的重大突破;

2. 结合AI技术和众包方法,将原本需要33年的工作量缩短至3年完成;

3. 该成果有助于深入理解大脑功能,预计将推动其他生物的大脑连接组绘制工作,包括人类。

https://mp.weixin.qq.com/s/HvpQREAZDiur5aHpCwPP3w

报告观点

九、  Sam Altman:新系统是一个重要的新范式的开端,AI发展将爆炸性增长

1. 新系统引入了重要的新范式,预示AI将在未来几年迎来爆炸式增长;

2. 新系统能显著提升程序员的生产力,助力科学研究和经济发展;

3. Altman强调新AI工具的潜力,它将改变计算机编程的本质,使程序开发更高效。

https://mp.weixin.qq.com/s/3yvBnp4jzu98HMOOrZXO5A

十、  对话Stability创始人:视频技术已进入工程阶段,2025将是Agent元年

1. 视频技术已进入工程阶段,关注实用性和优化;

2. 高质量视频制作技术存在,需进一步整合和应用;

3. 2025年将是AI Agent的元年,模型将执行更复杂任务。

https://mp.weixin.qq.com/s/FmhKBEvTrV7VmkNcLuEOhg

👇订阅下方合集,获取每日推送

腾讯研究院
腾讯公司设立的社会科学研究机构,依托腾讯公司多元的产品、丰富的案例和海量的数据,围绕产业发展的焦点问题,通过开放合作的研究平台,汇集各界智慧,共同推动互联网产业健康、有序的发展,致力于成为现代科技与社会人文交叉汇聚的研究平台。\x0d\x0a
 最新文章