生成式AI
一、 语言图像模型大一统!Meta将Transformer和Diffusion融合
1. Meta的Transfusion模型整合了Transformer和Diffusion技术,实现了文本与图像生成的统一;
2. 该模型在混合模态序列上训练,利用语言建模和图像扩散的优势,提高了模态之间的整合效率;
3. Transfusion在多模态AI领域表现出色,具备生成高质量文本和图像的能力,并可能引领多模态交互式应用的发展。
https://mp.weixin.qq.com/s/MXlrZHMXZiG_thB9Qb3iFQ
二、 Transformer论文“最大”作者重返谷歌任Gemini联合技术主管
1. Noam Shazeer重返谷歌,担任Gemini项目联合技术主管,与谷歌AI主管和DeepMind首席科学家共同致力于开发;
2. Gemini项目是与OpenAI的GPT模型直接竞争的项目,Shazeer的回归为该项目增添了实力;
3. 谷歌本月初以25亿美元收购了Shazeer联合创办的Character.AI核心团队,表明其重视AI领域的投资和技术整合。
https://mp.weixin.qq.com/s/EE3CjahM4S94ZOopDnioYA
三、 编程真的要被AI颠覆了?Karpathy大神都在用Cursor写代码
1. Andrej Karpathy使用VS Code Cursor和Claude Sonnet 3.5,发现其功能超过GitHub Copilot;
2. Karpathy主要通过编写提示和审查AI生成代码,AI能自动生成大量代码,极大提升编程效率;
3. Cursor和Sonnet 3.5工具对新手不太友好,但已成为编程领域的革命性工具,预示AI编程时代的到来。
https://mp.weixin.qq.com/s/1eRa5CBVOj3HgVW5tbArqw
四、 三个程序员奋战三天重写推理堆栈,Grok-2 mini直接提速两倍
1. Igor Babuschkin 与 xAI 的开发团队重写推理技术栈,使用 SGLang 提升 Grok-2 mini 的处理速度,达到两倍提速;
2. 重写后,Grok-2 在 Lmsys Chatbot Arena 排名第二,Grok-2 mini 排名第五;
3. 马斯克发来贺电表扬,Babuschkin 承诺进一步提升 Grok-2 mini 的性能,强调其速度优势和低计算开销。
https://mp.weixin.qq.com/s/prC4R1Jjhc7r6mMXv_ZNcw
五、 Meta推出全新视觉模型Sapiens,专为理解人类视觉而设计
1. Sapiens模型专为理解人类视觉设计,优化四大关键视觉任务:二维姿势预估、身体部位分割、深度估计、表面法线预测;
2. 模型结构包括共享编码器和任务特定解码器,支持1K高分辨率,适用于细节要求高的场景;
3. 预训练于3亿张人类图像,展现出色泛化能力,特设Sapiens-Lite版优化推理速度,便于环境部署。
https://mp.weixin.qq.com/s/nkh-EuglYgADmnfHcIc59g
六、 谷歌将大模型集成机器人中,能看、听、说执行57种任务
1. 谷歌DeepMind集成大模型Gemini 1.5 Pro于实体机器人中,提供多模态导航和推理服务;
2. Gemini 1.5 Pro处理长上下文能力,帮助机器人理解和执行57种复杂任务,成功率约71%;
3. 利用示范视频和环境的先验知识,通过Mobility VLA模型确保机器人在复杂环境中的导航准确性和鲁棒性。
https://mp.weixin.qq.com/s/YQaPG08Xy0HYtear_McUKg
七、 终于,Claude上线LaTeX公式渲染功能,评论区网友沸腾了
1. Claude 3.5 Sonnet 新增LaTeX公式渲染功能,提高数学方程的显示质量和清晰度;
2. 用户需求推动了此功能的开发,弥补了与其他大模型如ChatGPT的功能差异;
3. 用户反应热烈,希望未来版本能添加更多功能,如扩展到其他Claude版本、支持电子表格和网络浏览等。
https://mp.weixin.qq.com/s/lPi2eIMAqQvjbPuPIdgHBA
前沿科技
八、 手机一点黑夜变白天,95后SpaceX工程师创业“人造阳光”
1. 95后SpaceX工程师Ben Nowack创办Reflect Orbital,推出使用卫星反射阳光的服务,用户可通过手机定位照明特定区域;
2. 服务一次可提供4分钟照明,范围5千米直径,计划2025年第四季度开始交付;
3. 反射技术源自Ben的多年实验和改良,最终通过形成准直器成功实现太阳光的集中和导向,增强了地面太阳能发电的可行性。
https://mp.weixin.qq.com/s/26EHpFov8Yx1jZToKZTc5A
报告观点
九、 “机器狗之父”对话中国:中国机器人距离规模商业越来越近了
1. 中国四大AI机器人CEO在“世界对谈”中讨论了人形机器人与AI技术的融合,预测未来5年内将实现“机器人的ChatGPT时刻”;
2. 讨论强调了AI大模型对机器人技术进步的重要性,尤其是在提高机器人的语义理解和操作泛化能力方面;
3. 面临的挑战包括提高机器人的可靠性和安全性,以及如何处理机器人可能取代人类工作的社会经济影响。
https://mp.weixin.qq.com/s/x2B-9o--xJ5Ejy28SUq9JQ
十、 Deepmind 创始人最新访谈:AI 被过度炒作,但同时被低估了
1. Demis Hassabis 认为AI技术在短期内被过度炒作,但长期来看其潜力依旧被低估;
2. 他强调了AI系统在生成过程中的“不合理的有用性”,即系统尽管不完美但已能在多个场景中提供实用帮助;
3. Hassabis 描述了DeepMind的发展,及其与Google Brain的合并,强调了团队对AI安全性和伦理的重视。
https://mp.weixin.qq.com/s/7kGL8ogK7_pe3zvCsuJVdA
👇订阅下方合集,获取每日推送