腾讯研究院AI速递 20240826

学术   2024-08-26 00:01   广东  

生成式AI

一、  语言图像模型大一统!Meta将Transformer和Diffusion融合

1. Meta的Transfusion模型整合了Transformer和Diffusion技术,实现了文本与图像生成的统一;

2. 该模型在混合模态序列上训练,利用语言建模和图像扩散的优势,提高了模态之间的整合效率;

3. Transfusion在多模态AI领域表现出色,具备生成高质量文本和图像的能力,并可能引领多模态交互式应用的发展。

https://mp.weixin.qq.com/s/MXlrZHMXZiG_thB9Qb3iFQ

二、  Transformer论文“最大”作者重返谷歌任Gemini联合技术主管

1. Noam Shazeer重返谷歌,担任Gemini项目联合技术主管,与谷歌AI主管和DeepMind首席科学家共同致力于开发;

2. Gemini项目是与OpenAI的GPT模型直接竞争的项目,Shazeer的回归为该项目增添了实力;

3. 谷歌本月初以25亿美元收购了Shazeer联合创办的Character.AI核心团队,表明其重视AI领域的投资和技术整合。

https://mp.weixin.qq.com/s/EE3CjahM4S94ZOopDnioYA

三、  编程真的要被AI颠覆了?Karpathy大神都在用Cursor写代码

1. Andrej Karpathy使用VS Code Cursor和Claude Sonnet 3.5,发现其功能超过GitHub Copilot;

2. Karpathy主要通过编写提示和审查AI生成代码,AI能自动生成大量代码,极大提升编程效率;

3. Cursor和Sonnet 3.5工具对新手不太友好,但已成为编程领域的革命性工具,预示AI编程时代的到来。

https://mp.weixin.qq.com/s/1eRa5CBVOj3HgVW5tbArqw

四、  三个程序员奋战三天重写推理堆栈,Grok-2 mini直接提速两倍

1. Igor Babuschkin 与 xAI 的开发团队重写推理技术栈,使用 SGLang 提升 Grok-2 mini 的处理速度,达到两倍提速;

2. 重写后,Grok-2 在 Lmsys Chatbot Arena 排名第二,Grok-2 mini 排名第五;

3. 马斯克发来贺电表扬,Babuschkin 承诺进一步提升 Grok-2 mini 的性能,强调其速度优势和低计算开销。

https://mp.weixin.qq.com/s/prC4R1Jjhc7r6mMXv_ZNcw

五、  Meta推出全新视觉模型Sapiens,专为理解人类视觉而设计

1. Sapiens模型专为理解人类视觉设计,优化四大关键视觉任务:二维姿势预估、身体部位分割、深度估计、表面法线预测;

2. 模型结构包括共享编码器和任务特定解码器,支持1K高分辨率,适用于细节要求高的场景;

3. 预训练于3亿张人类图像,展现出色泛化能力,特设Sapiens-Lite版优化推理速度,便于环境部署。

https://mp.weixin.qq.com/s/nkh-EuglYgADmnfHcIc59g

六、  谷歌将大模型集成机器人中,能看、听、说执行57种任务

1. 谷歌DeepMind集成大模型Gemini 1.5 Pro于实体机器人中,提供多模态导航和推理服务;

2. Gemini 1.5 Pro处理长上下文能力,帮助机器人理解和执行57种复杂任务,成功率约71%;

3. 利用示范视频和环境的先验知识,通过Mobility VLA模型确保机器人在复杂环境中的导航准确性和鲁棒性。

https://mp.weixin.qq.com/s/YQaPG08Xy0HYtear_McUKg

七、  终于,Claude上线LaTeX公式渲染功能,评论区网友沸腾了

1. Claude 3.5 Sonnet 新增LaTeX公式渲染功能,提高数学方程的显示质量和清晰度;

2. 用户需求推动了此功能的开发,弥补了与其他大模型如ChatGPT的功能差异;

3. 用户反应热烈,希望未来版本能添加更多功能,如扩展到其他Claude版本、支持电子表格和网络浏览等。

https://mp.weixin.qq.com/s/lPi2eIMAqQvjbPuPIdgHBA

前沿科技

八、  手机一点黑夜变白天,95后SpaceX工程师创业“人造阳光”

1. 95后SpaceX工程师Ben Nowack创办Reflect Orbital,推出使用卫星反射阳光的服务,用户可通过手机定位照明特定区域;

2. 服务一次可提供4分钟照明,范围5千米直径,计划2025年第四季度开始交付;

3. 反射技术源自Ben的多年实验和改良,最终通过形成准直器成功实现太阳光的集中和导向,增强了地面太阳能发电的可行性。

https://mp.weixin.qq.com/s/26EHpFov8Yx1jZToKZTc5A

报告观点

九、  “机器狗之父”对话中国:中国机器人距离规模商业越来越近了

1. 中国四大AI机器人CEO在“世界对谈”中讨论了人形机器人与AI技术的融合,预测未来5年内将实现“机器人的ChatGPT时刻”;

2. 讨论强调了AI大模型对机器人技术进步的重要性,尤其是在提高机器人的语义理解和操作泛化能力方面;

3. 面临的挑战包括提高机器人的可靠性和安全性,以及如何处理机器人可能取代人类工作的社会经济影响。

https://mp.weixin.qq.com/s/x2B-9o--xJ5Ejy28SUq9JQ

十、  Deepmind 创始人最新访谈:AI 被过度炒作,但同时被低估了

1. Demis Hassabis 认为AI技术在短期内被过度炒作,但长期来看其潜力依旧被低估;

2. 他强调了AI系统在生成过程中的“不合理的有用性”,即系统尽管不完美但已能在多个场景中提供实用帮助;

3. Hassabis 描述了DeepMind的发展,及其与Google Brain的合并,强调了团队对AI安全性和伦理的重视。

https://mp.weixin.qq.com/s/7kGL8ogK7_pe3zvCsuJVdA

👇订阅下方合集,获取每日推送

腾讯研究院
腾讯公司设立的社会科学研究机构,依托腾讯公司多元的产品、丰富的案例和海量的数据,围绕产业发展的焦点问题,通过开放合作的研究平台,汇集各界智慧,共同推动互联网产业健康、有序的发展,致力于成为现代科技与社会人文交叉汇聚的研究平台。\x0d\x0a
 最新文章