腾讯研究院AI速递 20241029

学术   2024-10-29 00:01   广东  

生成式AI

一、  对标谷歌的NotebookLM!Meta推出开源NotebookLlama

1. Meta发布开源版NotebookLlama,基于LLaMa模型将PDF直接转换成播客文本并生成音频,对标谷歌的NotebookLM;

2. NotebookLlama分步骤处理PDF文件,利用轻量1B模型清理文本,70B模型撰写播客稿,8B模型增添戏剧效果;

3. 运行需要高配置GPU服务器,未来将优化语音自然度,增加输入格式,并可能采用更高性能模型。

https://mp.weixin.qq.com/s/kVfxQnHNOS38HDq3cRHZdQ

二、  “揭穿”一切!Google DeepMind为AI内容添加了隐形指纹

1. Google DeepMind推出的SynthID-Text工具通过嵌入隐形水印提高AI生成文本的可追踪性,采用“锦标赛抽样”算法,不影响文本流畅性;

2. 大规模实验验证SynthID-Text在保持文本质量的前提下实现高检测率,尤其在熵值高的文本中效果更佳;

3. SynthID计划扩展至音频、图像和视频领域,为信息透明性和可信度提供技术支持,有望应对虚假信息传播挑战。

https://mp.weixin.qq.com/s/8jwktzv6TG7Z-xyI7Foo1g

三、  一张显卡看遍天下电影!开源Video-XL打破长视频理解极限

1. 智源联合高校推出长视频理解模型Video-XL,实现单块80G显卡支持小时级视频处理,达近95%准确率;

2. Video-XL利用语言模型压缩长视觉序列,优于传统方法,且在多项长视频评测中超越同类模型;

3. Video-XL适用于电影摘要、广告检测等场景,模型已开源,推动多模态视频理解研究发展。

https://mp.weixin.qq.com/s/OQGbtEpuF0xPczWFB68RKw

四、  IBM官网开源多版本企业级大模型Granite 3.0,支持商业化

1. IBM开源企业级大模型Granite 3.0,支持商业化,提供8B和2B两个微调版本;

2. Granite 3.0具备RAG、高级推理、文本/代码生成能力,支持12种语言和116种编程语言;

3. 该模型在AST、BT、安全测试中性能超越Meta的Llama-3.1 8B,可在多种平台高效运行。

https://mp.weixin.qq.com/s/19OeHcsdHqVDyKBoG7p4Jw

五、  DriveDreamer4D 利用世界模型增强4D驾驶场景重建效果

1. 极佳科技推出DriveDreamer4D,利用世界模型大幅提升4D驾驶场景重建效果,解决传统方法在复杂驾驶场景中的渲染问题;

2. DriveDreamer4D通过轨迹生成和世界模型合成新视频,显著提升车辆、车道线的时空一致性和渲染质量,获80%以上用户偏好;

3. DriveDreamer4D展示了空间智能在自动驾驶和虚拟场景中的应用潜力,为4D世界模型发展提供支持。

https://mp.weixin.qq.com/s/PYh6khHqZqi2PMKKSpf3Ew

六、  OpenAI-o1替代方法火了!思考偏好优化,不限于推理任务

1. Tianhao Wu等提出思考偏好优化(TPO)方法,让模型在输出前进行内部“思考”,不展示过程,仅显示优化后答案;

2. TPO能显著提升模型在推理和非推理任务的表现,通过偏好对训练模型生成更高质量回答,AlpacaEval测试中胜率比基线提升4%;

3. TPO无需人工标注数据,能在多轮迭代中学会更简洁的思考,对Llama-3 8B等模型的性能提升效果显著。

https://mp.weixin.qq.com/s/h3o8J2UI_vYySYFAMTtQHA

七、  NetVRk 14人团队打造AI元宇宙,一键生成3D虚拟世界

1. NetVRk推出基于虚幻引擎5的AI驱动元宇宙平台,用户可一键生成3D虚拟环境并创建和交易NFT资产;

2. 平台整合AI与情感智能NPC,提供动态互动体验,支持玩家自定义角色性格和故事,在游戏和商业中获利;

3. 公司历经8年发展,累计收入超2000万美元,目标为用户提供友好的内容创建引擎,推动元宇宙内容民主化。

https://mp.weixin.qq.com/s/Rg5vM1AgbLaHbhEuXiBFiQ

八、  突破时间序列组合推理难题!多步推理框架TS-Reasoner

1. 南加州大学推出TS-Reasoner框架,将复杂时间序列任务分解为多步推理流程,提升金融决策、能源预测等任务中的推理精度;

2. TS-Reasoner支持模块化设计与自定义模块,能结合领域知识和外部约束,在多任务场景下表现优异;

3. 实验显示TS-Reasoner显著超越现有模型,尤其在复杂决策和多步推理任务中提高成功率和准确性。

https://mp.weixin.qq.com/s/mefNI_MnRxt_CCtxmEcNfA

前沿科技

九、  科学实验室走向全自动化,机器人融合AI,加速科学发现

1. 自动化机器人与AI结合,有望将科学实验室转变为高效的自动化工厂,加快新材料与分子的开发;

2. 研究人员定义了五级自动化与通用性框架,从单一任务辅助(A1)到全自动化(A5),目标是全面实现无缝实验自动化;

3. AI分析实验数据并优化流程,有助于实现完全自动化的实验周期,但仍需解决环境适应性和技术培训等挑战。

https://mp.weixin.qq.com/s/1iFGlhCtYICJmBKsgOtp4w

报告观点

十、  YC创始人预测:写作将成为精英技能,思维能力加速分化

1. Paul Graham预测AI时代写作将成为精英技能,大多数人将不再具备写作能力;

2. 写作是清晰思考的工具,缺乏写作能力将导致思维能力的分化,社会将分裂为“能思考者”和“依赖AI者”;

3. 写作将类似于健身,未来只有主动选择练习写作的人才能保持清晰的思维能力。

https://mp.weixin.qq.com/s/1xNkdE2Vkn8nirNSf3-Tbw

👇订阅下方合集,获取每日推送

腾讯研究院
腾讯公司设立的社会科学研究机构,依托腾讯公司多元的产品、丰富的案例和海量的数据,围绕产业发展的焦点问题,通过开放合作的研究平台,汇集各界智慧,共同推动互联网产业健康、有序的发展,致力于成为现代科技与社会人文交叉汇聚的研究平台。\x0d\x0a
 最新文章