小互 AI 周报 上周AI圈都发生了什么大事…

文摘   2024-07-25 00:47   浙江  

Hi,欢迎来到小互AI的周报,快速了解上周AI主要动态:

  小互 AI 周报  

1. 亚马逊推出了一款人工智能购物助手:Rufus,帮助用户进行购物决策,提供个性化建议,提高购物体验。

🔗https://xiaohu.ai/p/11289

2. 英国剑桥大学开发出的AI模型,在预测阿尔茨海默症方面超过了临床测试,比标准算法高出三倍的准确性,显著减少误诊。

🔗https://xiaohu.ai/p/11303

3. OpenDiLoCo:一个分布式低通信模型训练开源框架,允许在全球各地进行分布式AI训练,减少频繁通信需求,使多个连接不良设备上训练模型成为可能。

🔗https://xiaohu.ai/p/11265

4. Magic Insert将图像中的人或物体拖放到另一个风格图像中,并实现完美融合,保留细节,生成逼真阴影和反射,使结果自然。

🔗https://xiaohu.ai/p/11335

5. 谷歌开发出实时语音转换系统,在不改变语音内容和语调的情况下改变说话者音色,适用于实时通信场景,实现语音匿名化。

🔗https://xiaohu.ai/p/11323

6. H2O-Danube3:无需联网的开源模型,由 H2O.ai 开发的小型语言模型,提供聊天、问答、文本分类、数据分析等功能,可在普通边缘硬件设备上运行。

🔗https://xiaohu.ai/p/11351

7. 用于认知行为疗法(CBT)的提示词,帮助用户识别生活中令人困扰的事情,通过温和和开放的方式进行CBT,包括识别问题、认识情绪和信念、识别负面思维、认知重构。

🔗https://xiaohu.ai/p/11313

8. EmoLLM:用于心理健康领域的大模型项目,帮助用户进行心理健康辅导。

🔗https://xiaohu.ai/p/11244

9. RenderNet AI推出视频换脸功能,可轻松通过照片更改视频人物面容。

🔗https://xiaohu.ai/p/11374

10. Sora 似乎开放给了更多的内测人员使用,多位艺术家和作者在社交平台分享了他们利用Sora制作的最新视频内容。Danielle Baskin使用 Sora 制作了一个视频塔罗牌。每张塔罗牌是一个 10 秒的循环视频,通过视频来表达每张卡牌的含义。

🔗https://app.moonlight.world/decks/sora-video-tarot

11. Haiper AI 更新了其视频模型,现在可以生成8秒钟的视频,通过超分工具可以进一步提升视频分辨率。

🔗https://haiper.ai

12. Mistral 通过 Mamba 2架构训练了一个7B,但能力接近22B的代码模型,与传统的Transformer模型不同,Mamba模型在处理时间上更高效,可以处理无限长度的输入序列。

🔗https://xiaohu.ai/p/11392

13. Heygen 又要放大招了,实时数字人来了,甚至比OpenAI的实时语音还牛P,而且是马上就要发布了。

14. 微软团队研究出一种新方法,可以让大语言模型更好地理解和处理电子表格数据,显著提高了模型在电子表格检测和问答任务中的性能,大大减少了处理所需的计算资源。

🔗https://x.com/imxiaohu/status/1813418571151892636

15. iveportrait 实时面部表情转移,通过网络摄像头可以将你的表情动作实时转移到任意图片上,让图片中的人物或者对象根据你的表情动作动起来。

🔗https://fal.ai/demos/live-portrait

16. 阿里巴巴发布语音模型:Qwen2-Audio,可与模型直接语音对话以及分析转录各种声音,Qwen2-Audio可以通过语音聊天和音频分析两种方式与用户互动。
🔗https://xiaohu.ai/p/11401
17. 又一个AI搜索引擎诞生:Exa AI,声称要做真正的 AI 搜索引擎取代Google,专为AI模型设计,学习如何从一个链接导航到下一个相关链接,而不是生成连贯的文本。

🔗https://xiaohu.ai/p/11416

18. OpenAI 提出了一种新方法,提高模型输出答案的可读性,确保输出易于理解。研究表明,单纯优化链式思维可能降低可读性。通过验证者和证明者交替训练,确保解决方案既正确又易于理解和验证。

🔗https://xiaohu.ai/p/11434

19. Domo AI 的唇形同步功能升级,唇形同步效果更加完美,视频风格转绘效果显著提升。
20. DETECT-2B:音频深度伪造检测工具,200毫秒内检测30多种语言的音频,准确率超过94%。能识别出传统方法难以发现的微小伪造痕迹。

🔗https://xiaohu.ai/p/11444

21. Baptiste Adrien 开发 RAG 系统,使用 vercel 和 nextjs 技术。详细直观地介绍了 RAG 的基本原理和构建框架。
🔗https://xiaohu.ai/p/11451
22. 全球首部由 AI 完全翻译配音的电影《Watch The Skies》,瑞典语科幻电影,即将登陆美国各大院线。Flawless公司使用 TrueSync 技术进行 AI 翻译和配音。所有角色改说英语,同时保持唇形同步,如同最初使用英语拍摄。

🔗https://xiaohu.ai/p/11467

23. OpenAI 推出 GPT-4o mini 取代 GPT 3.5,性能超越 GPT 4 而且更快更便宜。百万输入标记(tokens)15美分,百万输出60美分。支持文本和视觉输入,未来还将支持图像、视频和音频。128K标记的上下文窗口。性能评估超过Gemini Flash和Claude Haiku,在数学推理和编码任务上表现出色。免费用户、Plus 用户和 Team 用户可直接访问 GPT-4o mini。

🔗https://xiaohu.ai/p/11477

End

 感谢关注,点赞点赞点赞!

通往AGI之路
WaytoAGI.com,让每个人的AI学习过程少走弯路,让更多的人因AI而强大。
 最新文章