AI日报：阿里开源文档模型DocOwl 1.5；Midjourney图像编辑器新功能下周上线；Viggle AI推对口型功能

科技科技 2024-10-21 16:20 福建

‍关注我，记得标星⭐️不迷路

AI日报

10月21日•AIbase

1、表格、图表统统拿下！阿里达摩院开源DocOwl 1.5 无需OCR，高效“读懂”文档！

2、Midjourney图像编辑器新功能下周上线

3、Viggle AI再推新功能可通过录制声音让角色说话

4、即使是顶尖AI模型也难以应对复杂旅行规划，OpenAI o1-preview也犯难

5、开源工具Vulnhuntr可发现Python零日漏洞，巧妙利用Claude AI

6、字节跳动回应“实习生破坏大模型训练”：未影响正式商业项目

7、Meta最新黑科技SPIRIT-LM：能说会写还能懂你的情绪，这个 AI 语言模型有点强！

8、颠覆 Stable Diffusion！智源重磅发布 Emu3，图像、文本、视频全拿下！

9、Perplexity AI 寻求90亿美元估值

10、前OpenAI CTO重磅打造新AI公司，融资目标高达1亿美元

11、苹果AI发展滞后两年，计划未来两年全线设备引入Apple Intelligence

12、北京市新增 12 款生成式AI服务备案，累计达 94 款

1. 表格、图表统统拿下！阿里达摩院开源DocOwl 1.5 无需OCR，高效“读懂”文档！

阿里巴巴达摩院与中国人民大学联合开源了mPLUG-DocOwl1.5文档处理模型，无需OCR即可理解文档内容，在多个视觉文档理解基准测试中表现领先。该模型强调结构信息的重要性，提出“统一结构学习”来提升MLLM性能。

亮点提要：

🔍 mPLUG-DocOwl1.5无需OCR即可理解文档内容，在视觉文档理解基准测试中领先。

📊 强调结构信息对于文档理解的重要性，提出“统一结构学习”来提升MLLM性能。

🔗 提供了开源代码、模型和数据集，取得了在多个下游任务中的最先进性能。

详情入口：

🔗 https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

2. Midjourney图像编辑器新功能下周上线

Midjourney的创始人David Holz宣布，一款全新的图像编辑器即将上线，该编辑器利用上传图像的深度信息生成新图片，保留原始构图和内容的同时彻底改变纹理、颜色和细节。这一创新提升了用户创作自由度，为设计师和艺术家提供强大工具。Midjourney通过AI技术不断优化图像生成质量，最新v6.1模型进一步提升图像清晰度和准确性。新图像编辑器的加入将拓宽AI在创意领域的应用，预示着Midjourney在图像编辑工具方面的重大进步。

亮点提要：

✨ 利用上传图像的深度信息生成新图片，保留原始构图和内容，彻底改变纹理、颜色和细节。

🎨 Midjourney致力于通过AI技术提升图像生成质量，最新v6.1模型进一步优化图像清晰度和准确性。

💡 新编辑器的加入将拓宽AI在创意领域的应用，为设计师和艺术家提供更灵活的图像操控和修改方式。

3. Viggle AI再推新功能可通过录制声音让角色说话

Viggle AI推出了令人兴奋的新功能，用户可以通过录制声音让角色说话并实现口型同步。这项创新技术让用户完全控制角色的表现方式，无论是唱歌还是跳舞，都能轻松实现。Viggle应用程序以其创新性在社交媒体上引起了广泛关注，利用先进的JST-1视频3D基础模型，用户可以轻松创造和混合视频内容。

亮点提要：

🎤 角色说话功能：用户可以通过录制声音让角色说话，实现口型同步。

🎭 角色替换功能：用户可以将任何角色置入视频场景，创造个性化沉浸式体验。

🔄 静态图像动画化：用户可以将静态照片转化为动态影像，增加视频趣味性和互动性。

详情入口：

🔗 https://viggle.ai/home

4. 即使是顶尖AI模型也难以应对复杂旅行规划，OpenAI o1-preview也犯难

最新研究表明，即使是先进的AI语言模型，如OpenAI最新的o1-preview，在复杂的规划任务中也面临挑战。研究发现模型在整合规则和条件方面表现不佳，且随规划时间增加会逐渐失去对问题的关注。尽管一些模型在BlocksWorld中表现尚可，但在更复杂的TravelPlanner任务中表现不佳。

亮点提要：

🌍 OpenAI的o1-preview等AI模型在复杂旅行规划上表现不佳，GPT-4o成功率仅7.8%。

📉 大多数模型在BlocksWorld中表现尚可，但在TravelPlanner上难以达到理想效果。

🧠 模型存在对规则的整合不足及随时间推移而失去焦点的问题。

详情入口：

🔗 https://github.com/hsaest/Agent-Planning-Analysis

5. 开源工具Vulnhuntr可发现Python零日漏洞，巧妙利用Claude AI

Protect AI公司推出的Vulnhuntr工具利用Claude AI帮助开发者发现Python代码中的零日漏洞。该工具与传统静态分析不同，能够追踪用户输入到服务器输出的完整调用链，提高漏洞检测准确性。Vulnhuntr已在多个大型开源项目中发现零日漏洞，即将在GitHub上发布供开发者使用。

亮点提要：

🌟 Vulnhuntr是开源工具，利用Claude AI发现Python零日漏洞。

🛠️ 工具工作方式不同于静态分析，能追踪完整调用链。

🚀 Vulnhuntr已发现多个大型开源项目中的零日漏洞，即将在GitHub上发布。

6. 字节跳动回应“实习生破坏大模型训练”：未影响正式商业项目

字节跳动近期针对实习生破坏大模型训练的传闻进行了官方回应，确认实习生恶意干扰研究项目模型训练，但未影响正式商业项目和线上业务。公司指出传闻严重夸大，已辞退实习生并通报相关机构。事件暴露安全管理问题，公司计划大力投资AI技术。

亮点提要：

🔍 实习生恶意干扰大模型训练，未影响商业项目和线上业务。

🔒 公司确认传闻夸大，已辞退实习生并通报相关机构。

💡 事件暴露安全管理问题，公司计划大力投资AI技术。

7. Meta最新黑科技SPIRIT-LM：能说会写还能懂你的情绪，这个 AI 语言模型有点强！

SPIRIT-LM 是一款具有革命性意义的多模态基础语言模型，能够自由混合文本和语音，理解和表达情感。它结合了文本模型的语义能力和语音模型的表达能力，完成跨模态任务，只需少量样本即可学习新任务。SPIRIT-LM-EXPRESSIVE在情感表达方面优于基础版，开创了多模态语言理解和生成的新可能性。

亮点提要：

⚙️ SPIRIT-LM 是多模态基础语言模型，能混合文本和语音，理解情感。

🔑 SPIRIT-LM 结合了文本模型的语义能力和语音模型的表达能力，完成跨模态任务。

💡 SPIRIT-LM-EXPRESSIVE在情感表达方面优于基础版，开创了多模态语言理解和生成的新可能性。

详情入口：

🔗 https://arxiv.org/pdf/2402.05755

8. 颠覆 Stable Diffusion！智源重磅发布 Emu3，图像、文本、视频全拿下！

Emu3团队发布了一套全新的多模态模型Emu3，颠覆了传统的扩散模型和组合模型架构，在生成和感知任务上取得了最先进的性能。该模型基于下一个token预测进行训练，实现了多模态任务的统一，超越了特定任务模型，甚至旗舰模型。Emu3的成功为多模态模型的未来发展指明了方向，也为实现AGI带来了新的希望。

亮点提要：

🚀 Emu3基于下一个token预测进行训练，颠覆了传统模型架构，取得了最先进的性能。

💡 Emu3实现了多模态任务的统一，无需依赖扩散或组合架构，超越了特定任务模型和旗舰模型。

🔗 Emu3团队开源了关键技术和模型，为多模态智能领域的进一步研究提供支持。

详情入口：

🔗 https://github.com/baaivision/Emu3

9. Perplexity AI 寻求90亿美元估值

Perplexity AI 宣布在新一轮融资中希望将估值提升至90亿美元，当前估值为30亿美元。公司面临抄袭指控，但坚决否认。在激烈市场竞争中努力提升技术和服务水平。

亮点提要：

🌟 Perplexity AI 计划将估值提高至90亿美元，吸引大量投资者关注。

💰 公司自今年初以来进行了三轮融资，迅速发展。

📰 面临抄袭指控，公司坚决否认并保护知识产权。

10. 前OpenAI CTO重磅打造新AI公司，融资目标高达1亿美元

Mira Murati正筹集超过1亿美元的风险投资，准备创办新的AI创业公司。她离开OpenAI希望进行个人探索，而OpenAI在她离职后筹集了创纪录的66亿美元风险投资。期待Murati的新公司未来发展。

亮点提要：

✨ Mira Murati正筹集超过1亿美元的风险投资，打造新AI公司。

🚀 Murati离开OpenAI希望进行个人探索，未透露具体计划。

📈 OpenAI在Murati离职后筹集了创纪录的66亿美元风险投资。

11. 苹果AI发展滞后两年，计划未来两年全线设备引入Apple Intelligence

在今年的WWDC大会上，苹果展示了AI新特性，但分析师称苹果在AI技术发展上落后竞争对手约两年。苹果计划未来两年在所有带屏设备上推出“Apple Intelligence”功能，尽管起步较晚，但有信心迎头赶上。

亮点提要：

📅 苹果在AI发展上落后竞争对手约两年，正努力追赶行业标准。

💡 苹果计划未来两年内在所有带屏设备上推出“Apple Intelligence”功能。

📱 新款iPad和即将推出的iPhone都将配备支持“Apple Intelligence”的硬件。

12. 北京市新增 12 款生成式AI服务备案，累计达 94 款

北京市最近新增了12款生成式人工智能服务备案，使得累计备案数量达到了94款，为用户带来更多选择与便利。已上线的AI应用需公示备案情况，包括模型名称和备案编号。本次新增备案名单中包括快手科技公司的可灵AI和昆仑万维科技股份有限公司的天工图像。

亮点提要：

📈 北京市新增12款生成式AI服务备案，累计达94款

🔍 已上线AI应用需公示备案情况，包括模型名称和备案编号

📋 本次新增备案名单中包括快手科技公司的可灵AI和昆仑万维科技股份有限公司的天工图像

关于AIbase>>

一个致力于让更多人了解并参与未来AI发展的平台

这里有最新AI资讯、100+ AI赚钱案例库、15000+AI产品库、保姆级AI工具教程

更多AI硬核内容直接访问AiBase官网，一键开启你的AGI之旅！

官网：https://www.aibase.com/zh/tools/

↓点击阅读原文，进AIbase官网.

http://mp.weixin.qq.com/s?__biz=MzIzNjg3NTUzOA==&mid=2247494370&idx=1&sn=e097ca60b90f6e30fb6a7517f7678153

AIbase基地

每日AI新闻聚合阅读，掌握AI前沿资讯、AI新品、政策动向，洞察AI行业趋势，深思未来。

AI日报：科大讯飞星火多模态交互大模型上线；腾讯AI智能工作台ima上线Windows版;阿里通义实验室推出代码模式

大升级！ChatGPT Windows桌面版全面上线，macOS版新增与应用协作功能

remove饭碗被砸？免费高清抠图软件RMBG 2.0强力升级复杂背景也能抠干净

AI日报：OpenAI将推首款自主AI代理Operator；腾讯元宝2.0版本上线；AI加持苹果Final Cut Pro11

剁手党狂喜！AI试衣技术Fashion-VDM颠覆传统网购衣服再也不怕踩雷了！

AI日报：阿里海外推AI搜索引擎Accio；Vidu-1.5版本即将上线；百度“自由画布”公测；OpenAI技术大佬Greg回归

AI日报：百度世界2024大会发布文心iRAG和无代码“秒哒”；阿里开源Qwen2.5-Coder全系列

超自然AI换头技术CHANGER，以后再也不怕演员塌房了！

豆包大模型团队正式发布图像编辑模型SeedEdit 用嘴P图成真！

AI日报：Suno发布V4音乐生成模型；谷歌最新AI视频制作神器Vids；

还在用百度？让 ChatGPT 成为你的默认搜索引擎，AI 秒搜更智能！

Krea AI上线Lora训练功能我一顿操作猛如虎，结果......

AI日报：快手推“可灵AI”独立APP；百度将推AI智能眼镜；智谱AI开源CogVideoX v1.5并上线“新清影”

AI颠覆服装设计！FLUX.1-dev LoRA 服装生成器来了设计小白也能秒出服装效果图

AI日报：AI助手豆包开启视频生成内测；OpenAI买下Chat.com域名；阿里测试AI动漫创作工具 “Animode”

字节推出单图视频驱动模型 X-Portrait 2 超低成本高效的肖像动画技术

AI日报：InstantX推FLUX图像生成黑科技；面部迁移模型HelloMeme；游戏实时生成算法GameGen-X

黑神话悟空也能用AI生成了？GameGen-X 颠覆游戏开发，传统游戏瑟瑟发抖！

AI日报：腾讯推出Huanyuan-large开源模型；xAI面向开发者推出API；天工AI发布AI高级搜索功能

动画设计福音！Rive推Layouts功能画面自动适配各种屏幕，搞定排版难题！

Diffusion 模型也能“举一反三”？阿里IC-LoRA给图像生成模型增加情节记忆力能力

AI日报：Claude新增PDF文件处理功能；支持视频转视频的开源神器ComfyUI-MochiEdit

告别随机生成！Runway推出高级摄像机控制像导演一样掌控镜头

每天刷无数平台？Follow 一站搞定，只看好内容！

告别“假脸”模特！阿里EcomID重磅来袭原生支持ComfyUI 电商图片要变天？

带图层的AI生图软件来了！Blendbox Alpha 版发布支持实时调光影、改构图

AI日报：字节推AI模型社区平台炉米Lumi；神秘大模型“小熊猫”身份揭晓；ChatGPT高级语音模式登陆Mac

用AI制作爆火Ins小浣熊自拍视频小红书从0粉到13万粉的暴力增长法则

AI日报：SD轻量级3.5 Medium模型免费开放商用；Hedra 推出全新语音克隆功能；微信灰度测试AI问答功能

小红书博主私藏的AI玩图神器“妙刷”被我找到了!竟然完全免费...

又要被玩坏了！PixVerse V3升级：不但能玩AI捏捏，还能让杯子长腿

AI日报：神秘AI模型Red_panda横空出世；xAI为Grok添加图像理解功能；更多特效的PixVerse V3发布

告别配音演员？字节跳动PersonaTalk让AI精准配音，连表情细节都完美还原！

AI日报：AutoGLM智能体可自动帮点外卖；敏神重磅更新Flux版ic-light模型

工作慢如蜗牛？腾讯会思考的知识库 ima.copilot 一站搞定搜、读、写！

告别PS！Midjourney新增外部图像编辑器还可重绘光影和材质

AI日报：Claude上线数据分析功能；KREA AI推出视频延展功能；美图奇想大模型生图能力升级；苹果悬赏百万寻找AI漏洞

AI日报：科大讯飞星火4.0 Turbo大模型发布；全能型图像生成模型OmniGen问世；iOS18.2 正式接入ChatGPT

简单文本即可创建个性化语音！ElevenLabs 推出全新AI语音生成工具Voice Design

AI日报：Claude3.5重磅升级；Runway推生成式角色表演工具Act-One；Ideogram上线图片魔法填充功能

Claude3.5重磅升级：Sonnet编码能力秒杀o1，Haiku性价比无敌，还会自己玩电脑！

个人可免费商用！Stability AI发布Stable Diffusion3.5系列文生图模型

AI日报：Rhymes AI开源视频生成模型Allegro；Grok API正式上线；OPPO收购波形智能

ComfyUI发布桌面一键安装包ComfyUI V1 支持自动更新，自动安装Python依赖环境

AI日报：阿里开源文档模型DocOwl 1.5；Midjourney图像编辑器新功能下周上线；Viggle AI推对口型功能

马桶也能装"摄像头"？这家创企要用AI帮你看大便

AI日报：复旦、百度新模型可生成1小时长视频；全新ChatGPT Windows版本上线；NotebookLM又上2个新功能

复旦、百度联手打造全新AI模型Hallo2 可生成4K超高清+1小时超长视频！

AI日报：ChatGPT 月访问量突破 31 亿；英伟达推超快AI图像生成模型Sana；Mistral AI推超强边缘AI模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉