AI日报：AutoGLM智能体可自动帮点外卖；敏神重磅更新Flux版ic-light模型

科技科技 2024-10-28 17:49 福建

关注我，记得标星⭐️不迷路

AI日报

10月28日•AIbase

1、智谱AI推出AutoGLM智能体：输入指令即可模拟人类操作手机

2、IC-light V2震撼发布：16通道VAE突破性能，细节保留能力惊人！

3、告别配音演员？字节跳动PersonaTalk让AI精准配音，连表情细节都完美还原！

4、Meta开源长视频LLM项目LongVU：可过滤重复帧高效精准理解长视频内容

5、AI拿铁来了！谷歌Gemini AI提供支持，但配方看起来有点黑暗

6、摆脱人工标注魔咒！趣丸科技MaskGCT模型用10万小时数据，教会AI自己说话

7、Meta推出NotebookLM开源版“NotebookLlama”

8、AI语音转录工具Whisper被曝存在严重“幻觉”

9、谷歌开发AI工具“Project Jarvis”，轻松操控你的电脑和浏览器！

10、苹果新AI系统Ferret-UI 2刷新UI交互体验

11、Cohere推出首个图文一体化搜索模型Embed 3

12、GPT-4超越人类分析师，财务预测准确率达到60%

13、自动驾驶也要玩“元宇宙”？极佳科技用AI脑补，让4D场景重建更丝滑！

14、小米15内存标配升级，端侧AI对内存要求更高

1. 智谱AI推出AutoGLM智能体：输入指令即可模拟人类操作手机

智谱技术团队最近推出了基于GLM技术团队研究成果的新产品AutoGLM，这是一个智能体，能够模拟人类操作手机执行各种任务。AutoGLM的推出标志着人工智能在“Phone Use”领域的进步，使得AI的应用更贴近人们的日常生活。

亮点提要：

🚀 AutoGLM是智谱技术团队基于GLM技术研究成果推出的智能体，能模拟人类操作手机执行任务。

💡 AutoGLM应用场景广泛，可在微信、淘宝、携程、12306、美团等平台完成各种任务，无需复杂工作流搭建。

🔧 AutoGLM技术基于自研的智能体解耦合中间界面和自进化在线课程强化学习框架，解决了任务规划和动作执行中的挑战。

详情入口：

🔗 https://xiao9905.github.io/AutoGLM

2. IC-light V2震撼发布：16通道VAE突破性能，细节保留能力惊人！

IC-Light V2基于Flux架构横空出世，带来革命性图像处理突破。16通道VAE和高分辨率特性让其在细节保留和精准度方面达到新高度，展现出色的适应性。

亮点提要：

✨ 革命性图像处理突破：IC-Light V2采用16通道VAE和高分辨率特性，突破性能，细节保留能力惊人。

🌟 多场景适应性：IC-Light V2全能型工具，能处理油画和动漫风格图像，保持原有精髓，表现出色。

💡 强大功能支持：IC-Light V2具低光处理和阴影调节功能，为摄影后期和专业图像处理提供强大支持。

详情入口：

🔗 https://github.com/lllyasviel/IC-Light/discussions/98

3. 告别配音演员？字节跳动PersonaTalk让AI精准配音，连表情细节都完美还原！

字节跳动最新开发的PersonaTalk AI模型实现了视频精准配音，声音与嘴型完美同步，保留人物原有特点，让视频更真实自然。该模型采用注意力机制的两阶段框架，具有高度个性化的配音效果和优秀的视觉质量。然而，在处理非人类化身和大幅度面部姿势时仍有局限性。字节跳动计划限制核心模型访问权限，防止技术滥用。

亮点提要：

🔊 声音同步嘴型：PersonaTalk确保视频中人物的嘴部动作与新语音口型完全匹配，实现完美同步。

👤 保留人物特点：PersonaTalk保留人物原有特点，包括说话方式、脸型和表情，保持视频真实感。

🤖 适用于不同人物：PersonaTalk不需大量数据单独训练每个人物，适应多样化场景，提供灵活性和便利性。

详情入口：

🔗 https://grisoon.github.io/PersonaTalk/

4. Meta开源长视频LLM项目LongVU：可过滤重复帧高效精准理解长视频内容

Meta AI团队推出了LongVU，一种新型的时空自适应压缩机制，旨在提升长视频的语言理解能力。该技术利用DINOv2特征剔除冗余帧，通过跨模态查询实现特征选择性压缩，在各种视频理解基准测试中表现优异，尤其在长视频理解任务中超越其他方法。长视频内容的快速增长需要更加高效的处理方式，LongVU的推出为多模态理解领域带来新的可能性。

亮点提要：

📽️ LongVU是一种新型的时空自适应压缩机制，旨在提升长视频的语言理解能力。

🔍 该技术利用DINOv2特征剔除冗余帧，并通过跨模态查询实现特征选择性压缩。

🚀 LongVU在各种视频理解基准测试中表现优异，尤其在长视频理解任务中，超越了其他方法。

详情入口：

🔗 https://vision-cair.github.io/LongVU/

5. AI拿铁来了！谷歌Gemini AI提供支持，但配方看起来有点黑暗

在菲律宾马尼拉，Commune与谷歌菲律宾合作推出了AI辅助的Bibingka拿铁，融合传统节日美食风味，展现现代饮品创新的可能性。这种创新饮品让人感受浓厚的节日氛围，唤起对传统美食的怀念，吸引咖啡爱好者的目光。

亮点提要：

☕️ 饮品融合浓缩咖啡、蒸奶、咸蛋等本地特色食材，呈现地道风味。

🌿 AI技术与咖啡师手工艺完美结合，展示现代饮品创新的无限可能。

🤖 Commune展示了如何将文化元素融入产品，彰显品牌在季节性产品上的创意，展示AI在餐饮创意中的潜力。

详情入口：

🔗 https://www.chinaz.com/ainews/12763.shtml

6. 摆脱人工标注魔咒!趣丸科技MaskGCT模型用10万小时数据，教会AI自己说话

趣丸科技联合香港中文大学发布了名为MaskGCT的全新语音合成（TTS）模型，彻底颠覆了传统TTS模型的玩法，实现了自学成才，不再依赖人工标注。该模型采用了掩码生成式编解码器Transformer的架构，让AI能灵活控制语音时长，达到了高质量、相似度和韵律的语音合成效果。

亮点提要：

🔥 完全不需要人工标注，通过10万小时未标注语音数据训练，实现自学成才。

💡 采用Transformer架构，将语音转换成语义特征，再预测声学特征，实现高质量语音合成。

🚀 能灵活控制语音时长，模仿不同说话者风格，甚至跨语言进行语音翻译，表现出与真人媲美的水平。

详情入口：

🔗 https://huggingface.co/spaces/amphion/maskgct

7. Meta推出NotebookLM开源版“NotebookLlama”

Meta最近推出了名为NotebookLlama的新工具，是谷歌NotebookLM中备受欢迎的生成播客功能的开源版。虽然NotebookLlama能将用户上传的文件转化为互动式的播客风格摘要，但目前生成的声音质量较低，存在机械感和声音重叠问题。AI生成的播客仍可能含有虚假信息，这是所有AI项目普遍存在的挑战。

亮点提要：

🎧 NotebookLlama是Meta推出的开源播客生成工具，利用Llama模型处理用户上传的文件。

🤖 工具将文本转换为播客风格摘要，但声音质量较低，存在机械感和声音重叠问题。

📉 AI生成的播客仍可能含有虚假信息，是AI项目普遍存在的挑战。

详情入口：

🔗 https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

8. AI语音转录工具Whisper被曝存在严重“幻觉”

最近，OpenAI的Whisper技术驱动的AI转录工具在医疗行业广受欢迎，但研究发现在约1%的转录中会出现“幻觉”现象，甚至编造内容。OpenAI表示正在努力改善工具性能，特别是减少幻觉现象。

亮点提要：

🌟 Whisper转录工具在医疗行业广泛使用，已记录700万次医学对话。

⚠️ 研究发现Whisper在约1%的转录中会出现“幻觉”，有时生成毫无意义内容。

🔍 OpenAI表示持续努力改善工具性能，尤其在减少幻觉现象方面。

详情入口：

🔗 https://www.chinaz.com/ainews/12765.shtml

9. 谷歌开发AI工具“Project Jarvis”，轻松操控你的电脑和浏览器！

谷歌最新研发的AI工具“Project Jarvis”将改变人们与电脑的互动方式，让AI应用变得更加简单和便利。用户只需输入简单命令，AI即可自动完成各种在线任务，降低了使用门槛。然而，隐私和安全问题也需引起关注，谷歌需要加强保障措施以保护用户数据安全。

亮点提要：

🤖 谷歌研发的“Project Jarvis” AI工具可接管浏览器和电脑，简化操作流程。

🖥️ 用户通过简单命令，AI自动完成在线任务，提高工作效率。

🔒 谷歌需加强隐私和安全保护，建立完善措施应对潜在风险。

10. 苹果新AI系统Ferret-UI 2刷新UI交互体验

苹果公司发布的新一代人工智能系统Ferret-UI2在UI元素识别方面取得重大突破，展现出卓越的性能表现。该系统最大特点在于智能理解用户意图，实现自然语言指令操作。技术架构自适应多平台，提供智能算法调整图像分辨率，保证运算效率。

亮点提要：

🚀 Ferret-UI2在UI元素识别领域取得重大突破，测试得分领先GPT-4V，展现卓越性能。

🔍 Ferret-UI2具备智能理解用户意图的能力，通过自然语言指令操作界面，提升用户体验。

⚙️ Ferret-UI2技术架构自适应多平台，智能算法调整图像分辨率，保证运算效率。

11. Cohere推出首个图文一体化搜索模型Embed 3

Cohere公司最新推出的Embed 3搜索模型实现了图像搜索与文本检索的无缝集成，为企业带来了革命性变革。新系统采用统一存储架构解决了维护多个独立数据库的问题，支持主流图片格式并将商业数据转换为向量表示，大幅提升了检索效率。更新后的模型支持超过100种语言，具备强大的跨平台兼容性。

亮点提要：

🔍 图像搜索与文本检索无缝集成，革命性变革企业搜索方式。

💾 统一存储架构解决维护多个独立数据库问题，支持主流图片格式。

⚙️ 商业数据转换为向量表示，提升检索效率。支持超过100种语言，跨平台兼容性强。

详情入口：

🔗 https://www.chinaz.com/ainews/12769.shtml

12. GPT-4超越人类分析师，财务预测准确率达到60%

这篇文章介绍了芝加哥大学布斯商学院的研究结果，表明OpenAI的GPT-4在财务分析和预测方面超越了人类分析师，准确率达到60%。研究采用了名为“思维链”的提示方式，指导GPT-4识别财务趋势，展现出稳健的分析能力。

亮点提要：

📈 GPT-4在财务分析和预测中超越人类分析师，准确率达到60%

💡 研究利用“思维链”提示方法，帮助GPT-4有效识别财务趋势

💰 应用GPT-4的交易策略实现了显著的市场超越，产生了高额收益

13. 自动驾驶也要玩“元宇宙”？极佳科技用AI脑补，让4D场景重建更丝滑！

极佳科技推出的DriveDreamer4D框架利用世界模型的先验知识提升4D驾驶场景重建效果，解决传统方法在复杂路况下容易翻车的问题。实验证明DriveDreamer4D在处理复杂路况时效果优于传统方法，提高重建图像保真度和准确性。虽然仍处于研究阶段，但未来有望成为自动驾驶领域不可或缺的一部分。

亮点提要：

🚗 DriveDreamer4D框架利用世界模型的先验知识提升4D驾驶场景重建效果，避免传统方法依赖训练数据导致翻车问题。

🧠 世界模型作为AI大脑，预测未来可能发生情况，让4D场景重建模型见多识广，不再翻车。

🛣️ DriveDreamer4D设计了新轨迹生成模块（NTGM），自动生成符合交通规则的轨迹，提高模型在复杂路况下的表现。

详情入口：

🔗 https://arxiv.org/pdf/2410.13571

14. 小米15内存标配升级，端侧AI对内存要求更高

随着人工智能时代的全面到来，智能手机硬件配置正在经历革命。小米15系列取消8GB内存版本，转为12GB内存标准配置，反映移动终端AI发展新方向。硬件规格升级带来更优秀显示效果和更高续航能力。小米发布会展示16款新品，深度布局人车家全生态战略。消费者选购新机建议选择更大内存版本适应未来AI应用普及，注意不同品牌内存定价差异。

亮点提要：

📱 端侧AI需求推动内存升级，小米15系列将以12GB内存作为标准配置起点。

🔋 硬件规格升级，小米15和15Pro配备更优秀的显示屏和M9发光材料，续航能力分别提升23%和38%。

🚀 小米发布会展示16款新品，包括手机产品、小米澎湃OS2、智能穿戴设备等，体现全生态战略深度布局。

关于AIbase>>

一个致力于让更多人了解并参与未来AI发展的平台

这里有最新AI资讯、100+ AI赚钱案例库、15000+AI产品库、保姆级AI工具教程

更多AI硬核内容直接访问AiBase官网，一键开启你的AGI之旅！

官网：https://www.aibase.com/zh/tools/

↓点击阅读原文，进AIbase官网.

http://mp.weixin.qq.com/s?__biz=MzIzNjg3NTUzOA==&mid=2247494611&idx=2&sn=457a72d546c693092ddd28f1e07cf585

AIbase基地

每日AI新闻聚合阅读，掌握AI前沿资讯、AI新品、政策动向，洞察AI行业趋势，深思未来。

AI日报：科大讯飞星火多模态交互大模型上线；腾讯AI智能工作台ima上线Windows版;阿里通义实验室推出代码模式

大升级！ChatGPT Windows桌面版全面上线，macOS版新增与应用协作功能

remove饭碗被砸？免费高清抠图软件RMBG 2.0强力升级复杂背景也能抠干净

AI日报：OpenAI将推首款自主AI代理Operator；腾讯元宝2.0版本上线；AI加持苹果Final Cut Pro11

剁手党狂喜！AI试衣技术Fashion-VDM颠覆传统网购衣服再也不怕踩雷了！

AI日报：阿里海外推AI搜索引擎Accio；Vidu-1.5版本即将上线；百度“自由画布”公测；OpenAI技术大佬Greg回归

AI日报：百度世界2024大会发布文心iRAG和无代码“秒哒”；阿里开源Qwen2.5-Coder全系列

超自然AI换头技术CHANGER，以后再也不怕演员塌房了！

豆包大模型团队正式发布图像编辑模型SeedEdit 用嘴P图成真！

AI日报：Suno发布V4音乐生成模型；谷歌最新AI视频制作神器Vids；

还在用百度？让 ChatGPT 成为你的默认搜索引擎，AI 秒搜更智能！

Krea AI上线Lora训练功能我一顿操作猛如虎，结果......

AI日报：快手推“可灵AI”独立APP；百度将推AI智能眼镜；智谱AI开源CogVideoX v1.5并上线“新清影”

AI颠覆服装设计！FLUX.1-dev LoRA 服装生成器来了设计小白也能秒出服装效果图

AI日报：AI助手豆包开启视频生成内测；OpenAI买下Chat.com域名；阿里测试AI动漫创作工具 “Animode”

字节推出单图视频驱动模型 X-Portrait 2 超低成本高效的肖像动画技术

AI日报：InstantX推FLUX图像生成黑科技；面部迁移模型HelloMeme；游戏实时生成算法GameGen-X

黑神话悟空也能用AI生成了？GameGen-X 颠覆游戏开发，传统游戏瑟瑟发抖！

AI日报：腾讯推出Huanyuan-large开源模型；xAI面向开发者推出API；天工AI发布AI高级搜索功能

动画设计福音！Rive推Layouts功能画面自动适配各种屏幕，搞定排版难题！

Diffusion 模型也能“举一反三”？阿里IC-LoRA给图像生成模型增加情节记忆力能力

AI日报：Claude新增PDF文件处理功能；支持视频转视频的开源神器ComfyUI-MochiEdit

告别随机生成！Runway推出高级摄像机控制像导演一样掌控镜头

每天刷无数平台？Follow 一站搞定，只看好内容！

告别“假脸”模特！阿里EcomID重磅来袭原生支持ComfyUI 电商图片要变天？

带图层的AI生图软件来了！Blendbox Alpha 版发布支持实时调光影、改构图

AI日报：字节推AI模型社区平台炉米Lumi；神秘大模型“小熊猫”身份揭晓；ChatGPT高级语音模式登陆Mac

用AI制作爆火Ins小浣熊自拍视频小红书从0粉到13万粉的暴力增长法则

AI日报：SD轻量级3.5 Medium模型免费开放商用；Hedra 推出全新语音克隆功能；微信灰度测试AI问答功能

小红书博主私藏的AI玩图神器“妙刷”被我找到了!竟然完全免费...

又要被玩坏了！PixVerse V3升级：不但能玩AI捏捏，还能让杯子长腿

AI日报：神秘AI模型Red_panda横空出世；xAI为Grok添加图像理解功能；更多特效的PixVerse V3发布

告别配音演员？字节跳动PersonaTalk让AI精准配音，连表情细节都完美还原！

AI日报：AutoGLM智能体可自动帮点外卖；敏神重磅更新Flux版ic-light模型

工作慢如蜗牛？腾讯会思考的知识库 ima.copilot 一站搞定搜、读、写！

告别PS！Midjourney新增外部图像编辑器还可重绘光影和材质

AI日报：Claude上线数据分析功能；KREA AI推出视频延展功能；美图奇想大模型生图能力升级；苹果悬赏百万寻找AI漏洞

AI日报：科大讯飞星火4.0 Turbo大模型发布；全能型图像生成模型OmniGen问世；iOS18.2 正式接入ChatGPT

简单文本即可创建个性化语音！ElevenLabs 推出全新AI语音生成工具Voice Design

AI日报：Claude3.5重磅升级；Runway推生成式角色表演工具Act-One；Ideogram上线图片魔法填充功能

Claude3.5重磅升级：Sonnet编码能力秒杀o1，Haiku性价比无敌，还会自己玩电脑！

个人可免费商用！Stability AI发布Stable Diffusion3.5系列文生图模型

AI日报：Rhymes AI开源视频生成模型Allegro；Grok API正式上线；OPPO收购波形智能

ComfyUI发布桌面一键安装包ComfyUI V1 支持自动更新，自动安装Python依赖环境

AI日报：阿里开源文档模型DocOwl 1.5；Midjourney图像编辑器新功能下周上线；Viggle AI推对口型功能

马桶也能装"摄像头"？这家创企要用AI帮你看大便

AI日报：复旦、百度新模型可生成1小时长视频；全新ChatGPT Windows版本上线；NotebookLM又上2个新功能

复旦、百度联手打造全新AI模型Hallo2 可生成4K超高清+1小时超长视频！

AI日报：ChatGPT 月访问量突破 31 亿；英伟达推超快AI图像生成模型Sana；Mistral AI推超强边缘AI模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉