腾讯研究院AI速递 20241111

学术   2024-11-11 00:01   广东  

生成式AI

一、  OpenAI爆料合集:ChatGPT成第八大网站,Sora 两周后上线?

1. ChatGPT流量大幅上升,现已成为全球第八大网站,体现出其在日常生活中的普及;

2. o1模型的满血版即将推出,提升复杂推理与多模态能力,预计11月14日发布;

3. Sora终于来了,有望两周内上线,预计展示极强的图像创作能力,引发用户期待。

https://mp.weixin.qq.com/s/T0XrrD9fIUTnZB1HAb05xA

二、  苹果推出一个新框架App Intents 让你的应用与Siri无缝互动

1. App Intents框架允许应用与Siri无缝互动,支持功能如直接控制应用、Spotlight搜索、快捷指令和自动化;

2. 开发者可通过App Intent、App Entity和App Enum定义应用操作、内容和选项,优化Siri响应;

3. 新架构支持通过物理按钮、快捷指令等触发操作,提高用户体验,增强智能化自动化功能。

https://mp.weixin.qq.com/s/3XQL623q-hMGoD853R1gSA

三、  微软开源5级通用AI Agent:浏览网页、查论文,无所不能!

1. 微软开源了Magentic-One,一个基于五层智能体架构的通用AI Agent,能自动化完成各领域任务;

2. 该AI Agent通过Orchestrator任务分解和多个智能体(包括Orchestrator、WebSurfer、FileSurfer、Coder和ComputerTerminal)协同工作来执行复杂任务;

3. Magentic-One能够自主适应环境变化,确保任务自动执行,支持浏览网页、查论文、数据分析等功能。

https://mp.weixin.qq.com/s/SU-Qb62CgyrnTJCd62-dlg

四、  为无声视频注入灵魂音效,智谱“新清影”视频模型+音效模型

1. 智谱推出新清影AI视频模型,具备高分辨率、灵活尺寸和多通道生成能力,显著提升视频创作效率;

2. 新清影结合CogSound音效模型,通过生成精准音效为视频注入灵魂,推动视听创作自动化;

3. 多模态技术结合音效与视频生成,推动视频创作自动化,拓展创作者的应用场景,降低内容创作成本。

https://mp.weixin.qq.com/s/mjH2uo1jpPYdK0Wf3sQC7g

五、  Notebooklm 后,谷歌低调发布 Learn about人性化学习工具

1. 谷歌推出的「Learn About」学习工具通过动态、流式的信息呈现方式,提供个性化的学习体验;

2. 该工具引入「Stop and Think」功能,鼓励用户在获取答案前先思考,提高学习效率;

3. 提供多种互动方式,如简化信息、深入探索、获取图片,帮助用户建立立体认知网络,适合深度学习与终身学习者。

https://mp.weixin.qq.com/s/vdkwQ_Wu0HQpHFIq6kBkZw

六、  又增一新模态,AI有鼻子了,还能远程传输气味,图像生成香水

1. 初创公司Osmo利用AI成功将气味数字化,实现气味的远程传输和生成;

2. 该技术通过图神经网络和数千种香气分子数据训练AI,能够准确预测气味;

3. Osmo正在开发多模态AI,未来可通过图像和文本生成对应的气味,为虚拟现实和医疗应用开辟新领域。

https://mp.weixin.qq.com/s/RwVNCwQjI5cBaQY-xSJq0A

七、  谷歌正式推出基于Gemini的视频工具Vids,一键生成专业视频

1. 谷歌推出Vids,基于Gemini AI的视频制作工具,支持一键生成专业视频;

2. Vids自动配图、生成脚本和AI配音,简化视频制作过程;

3. 该工具适用于多场景应用,如客户支持、培训和会议纪要,并对Workspace用户免费开放至2026年。

https://mp.weixin.qq.com/s/Q3xbWRnNhqiVhcGVjQENag

八、  突发!OpenAI七年元老、安全副总裁Lilian Weng官宣离职!

1. OpenAI安全研究副总裁Lilian Weng宣布离职;

2. 在OpenAI工作七年,Weng领导了多个重要项目,包括o1-preview模型,致力于提升AI安全性;

3. 离职后,她将继续更新博客,分享技术干货和观点,曾在多个领域有重要贡献。

https://mp.weixin.qq.com/s/KI9FycNHwILvQ9gQVh9bSg

九、  空间智能版ImageNet来了,来自斯坦福李飞飞吴佳俊团队

1. 斯坦福李飞飞和吴佳俊团队发布了HourVideo数据集,专为长视频理解设计,包含500个时长20到120分钟的第一人称视角视频;

2. 数据集评估了当前多模态模型在长视频理解上的表现,揭示其远未达到人类专家的理解水平;

3. HourVideo包含18个子任务,涵盖总结、感知、视觉推理等任务,旨在推动AI在长时间视觉处理能力的提升。

https://mp.weixin.qq.com/s/_yi69foQdQzhOazgUqiiZA

前沿科技

十、  哈佛推出全新类ChatGPT癌症诊断AI,登上Nature!准确率96%

1. 哈佛医学院推出多功能AI癌症诊断模型CHIEF,能够识别19种癌症并预测患者生存率;

2. CHIEF模型在癌症检测、肿瘤基因分析和患者预后预测中表现出96%的准确率,远超其他现有AI方法;

3. 该模型能通过图像识别肿瘤特征,帮助医生发现潜在的治疗反应,具备广泛的临床适用性。

https://mp.weixin.qq.com/s/BsQi8BGTQaO3P8jGNi-P7g

报告观点

十一 、  Sam Altman 对话 YC 总裁:1 个人+ 1 万块 GPU =数十亿美元公司

1. Sam Altman强调AI技术仍未达到顶峰,建议创业者利用AI实现创新并击败大型企业;

2. 他预测未来AI将成为创新者,推动科技突破,并帮助小团队以少数人员和强大算力创造巨额收入;

3. Sam提到,成功需要专注与信念,尽管会遭遇反对和错误,但数据与快速迭代最终能带来突破。

https://mp.weixin.qq.com/s/NrcT2RpCiPkuOvqD0Cv0gw

👇订阅下方合集,获取每日推送

腾讯研究院
腾讯公司设立的社会科学研究机构,依托腾讯公司多元的产品、丰富的案例和海量的数据,围绕产业发展的焦点问题,通过开放合作的研究平台,汇集各界智慧,共同推动互联网产业健康、有序的发展,致力于成为现代科技与社会人文交叉汇聚的研究平台。\x0d\x0a
 最新文章