点击下方卡片,关注「魔方AI空间」公众号
❝写在前面
【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容,目的是让读者站在AI时代的最前沿,紧跟时代发展的步伐,自信而坚定地跟随AI技术的最新趋势。
此外,猫先生也会根据读者的反馈,持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议,一起交流和学习,共同推动专栏的完善和成长!💪
大家好,我是猫先生,AI技术爱好者与深耕者!!
阅读猫先生整理的《魔方AI新视界》专栏,您将获得以下宝贵收获:
前沿技术洞察:深入了解AIGC行业的核心技术动向,涵盖AI绘画、AI视频、大型模型、多模态技术以及数字人等领域的最新进展,让您始终站在技术发展的最前沿。 职业发展助力:在专栏中发现那些能够激发创新灵感的关键技术和应用案例,这些内容对您的职业发展具有重要意义,帮助您在专业领域中取得突破。 紧跟时代潮流:通过专栏,您将能够准确把握时代的脉搏,自信而坚定地跟随AI技术的最新趋势,确保您在快速发展的AI时代中保持竞争力。
《魔方AI新视界》不仅是一个信息的汇聚地,更是一个促进思考、激发创新的平台,猫先生期待与您一起探索AI的无限可能。
本文是《魔方AI新视界》专栏的第三期,周期为2024年8月1日-2024年8月31日。在本期中,猫先生将采用精炼而扼要的语言,对AI领域的前沿技术进行介绍,并提供详情链接,以便于您能够进一步探索和学习。
❝本文整理自《AIGCmagic社区飞书知识库》的每周AI大事件板块,飞书主页地址:AIGCmagic社区[1]https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd?from=from_copylink,欢迎大家点赞收藏!!
往期回顾
AIGC 月刊 | 技术革新与应用案例(2024.7月第三期)【魔方AI新视界】 AIGC 月刊 | 技术革新与应用案例(2024.6月第二期)【魔方AI新视界】 AIGC 月刊 | 技术革新与应用案例(2024.5月第一期)【魔方AI新视界】
本期速览
1.Magic最新消息:LTM-2-Mini 第一个100M Token 上下文的模型
2.阿里发布最新视觉语言模型:Qwen2-Vl 更清晰地看世界
3.智谱AI震撼发布GLM-4-Plus:媲美GPT-4,并展示了强大的视频通话能力
4.字节Hyper-SD:只需 2s 快速生图
5.第一个Flux IpAdapter 模型开源
6.VEnhancer: AI 视频超清修复,已被CogVideoX支持
7.FancyVideo:通过跨帧文本指导实现动态且一致的视频生成
8.TurboEdit:基于文本的实时图像编辑
9.UniPortrait:统一定制单ID和多ID个性化框架
10.ControlNeXt:强大而高效的图像和视频生成控制
11.Qwen发布数学语言模型:Qwen2-Math,超越GPT-4o、Claude-3.5
12.谷歌推出Gemini Live:让您的移动设备成为强大的 AI 助手
13.字节发布LLaVA-OneVision:开源多模态大模型
14.MiniCPM-V:端侧可用的 GPT-4V 级单图、多图、视频多模态大模型
15.InternVideo2:用于多模态视频理解的缩放视频基础模型
16.智谱清影:开源视频生成模型 CogVideoX-2B
17.重磅!全新开源图像生成模型Flux.1,媲美 Midjourney
18.Stability AI 推出Stable Fast 3D
19.Google推出Gemma2 2B模型能够在手机、笔记本电脑、台式机等边缘设备上运行
20.MindSearch:模仿人类思维引发深度AI搜索
正文开始
1. Magic最新消息:LTM-2-Mini 第一个100M Token 上下文的模型[2]
100M token 约等于 1000 万行代码或 750 部小说; LTM-2-Mini 模型在处理大量代码或文本时,比现有的注意力机制模型要高效得多; Magic与谷歌云合作,正在构建新的超级计算机,以支持他们的AI模型训练和部署。 项目主页:https://magic.dev/blog/100m-token-context-windows
2. 阿里发布最新视觉语言模型:Qwen2-Vl 更清晰地看世界[3]
Qwen2-Vl开源两个版本模型:Qwen2-VL-2B-Instruct 和 Qwen2-VL-7B-Instruct,并发布了 Qwen2-VL-72B 的 API!; Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。 能够操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。 项目地址:https://qwenlm.github.io/zh/blog/qwen2-vl/
3. 智谱AI震撼发布GLM-4-Plus:媲美GPT-4,并展示了强大的视频通话能力
在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。 使用了大量模型辅助构造高质量合成数据以提升模型性能; 利用 PPO 有效有效提升模型推理(数学、代码算法题等)表现,更好反应人类偏好。 官方介绍:https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w
4. 字节Hyper-SD:只需 2s 快速生图[4]
一种通过 LoRA 来加速图片生成的技术,正式发布了适用于 Flux 的 Hyper-FLUX.1-dev-8steps-lora.safetensors[5] 和 Hyper-FLUX.1-dev-16steps-lora.safetensors[6]。 项目主页:https://hyper-sd.github.io/ 在线试用地址:https://huggingface.co/spaces/ByteDance/Hyper-FLUX-8Steps-LoRA
5. 第一个Flux IpAdapter 模型开源[7]
来自 XLabs-AI 的 IP-Adapter 经过 512x512 分辨率(50k 步)和 1024x1024(25k 步)分辨率的训练,适用于 512x512 和 1024x1024 分辨率。 效果还没有 SDXL 和 SD1.5 的好,但值得期待! 项目地址:https://huggingface.co/XLabs-AI/flux-ip-adapter
6. VEnhancer: AI 视频超清修复,已被CogVideoX支持[8]
VEnhancer 在统一的框架中实现了空间超分辨率、时间超分辨率(帧插值)和视频优化。 可以灵活地适应不同的上采样因子(例如,1x~8x),以实现空间或时间****超分辨率。 提供灵活的控制功能,可以修改细化强度,以处理多样化的视频伪影。 项目地址:https://github.com/Vchitect/VEnhancer
7. FancyVideo:通过跨帧文本指导实现动态且一致的视频生成[9]
360 视觉引擎团队发布的一个文生视频模型,主要解决动作连贯、情节流畅的视频问题。 FancyVideo通过精心设计的 Cross-frame Textual Guidance Module (CTGM) 改进了现有的文本控制机制。 项目主页:https://fancyvideo.github.io/
8. TurboEdit:基于文本的实时图像编辑[10]
Adobe 研究院发布的能够通过提示词实时编辑照片的技术。 只需 8 Steps 预处理,然后每次修改只需 4 Steps,性能充足的情况下接近实时。 项目主页:https://betterze.github.io/TurboEdit/
9. UniPortrait:统一定制单ID和多ID个性化框架[11]
一种创新的人类图像个性化框架,将单ID和多ID定制与高人脸保真度、广泛的人脸可编辑性、自由格式的输入描述和多样化的布局生成相结合。 仅由两个即插即用模块组成:ID嵌入模块和ID路由模块。 项目主页:https://aigcdesigngroup.github.io/UniPortrait-Page/
10. ControlNeXt:强大而高效的图像和视频生成控制[12]
用于可控生成的官方实现,支持图像和视频,同时包含多种形式的控制信息。 与ControlNet相比,该方法将**可训练参数减少了90%**,实现了更快的收敛和出色的效率。 该方法可以直接与其他LoRA技术结合使用,以改变样式并确保更稳定的生成。 项目主页:https://pbihao.github.io/projects/controlnext/index.html
11. Qwen发布数学语言模型:Qwen2-Math,超越GPT-4o、Claude-3.5[13]
Qwen2-Math,旨在提升推理能力,特别是在解决算术和数学问题方面。 Qwen2-Math 系列包括 1.5B、7B 和 72B 参数。 基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,这些模型基于大量高质量的数学语料库进行预训练,并通过基于指令的训练微调,以解决复杂的数学问题。 项目地址:https://github.com/QwenLM/Qwen2-Math
12. 谷歌推出Gemini Live:让您的移动设备成为强大的 AI 助手[14]
Gemini Live 是一种移动对话体验,可让您与 Gemini 进行自由流畅的对话。 对标 ChatGPT 的语音模式,支持支持打断、深入讨论和暂停后继续对话,提供了 10 种不同的声音,未来会支持 IOS 设备和其他语言。 项目主页:https://blog.google/products/gemini/made-by-google-gemini-ai-updates/
13. 字节发布LLaVA-OneVision:开源多模态大模型[15]
第一个能够在三个重要的计算机视觉场景(单图像、多图像和视频场景)中同时突破开放式 LMM 性能极限的单一模型 允许跨不同模式/场景进行强大的****迁移学习,从而产生新的能力,LLaVA-NeXT 的进化版本 通过从图像到视频的任务转移,展示了强大的视频理解和跨场景能力。 项目地址:https://llava-vl.github.io/blog/2024-08-05-llava-onevision/
14. MiniCPM-V:端侧可用的 GPT-4V 级单图、多图、视频多模态大模型[16]
MiniCPM-V系列的最新、性能最佳模型。总参数量 8B,单图、多图和视频理解性能超越了 GPT-4V 在单图理解上,它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现 成为首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型 项目地址:https://github.com/OpenBMB/MiniCPM-V.git
15. InternVideo2:用于多模态视频理解的缩放视频基础模型[17]
一个开源的视频理解模型,拥有 60 亿参数的编码器和超过 4 亿个样本。 在 Kinetics 400 中达到 92.1%
Top1 准确率。在 60
多个视频/音频相关任务(包括动作识别、时间定位、检索等)上实现了SOTA
性能项目地址:https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/
16. 智谱清影:开源视频生成模型 CogVideoX-2B[18]
这是首个开源的基于 Transformer 的大型文本生成视频模型。 性能更强,参数量更大的模型正在到来的路上。 项目地址:https://github.com/THUDM/CogVideo.git
17. 重磅!全新开源图像生成模型Flux.1,媲美 Midjourney[19]
FLUX.1 是由一众大佬成立的 Black Forest Labs 组织推出的全新生图模型系列,在人手、文字、光影和细节上表现的非常不错,在 ELO 测试上远超 SD3-Ultra 和 Ideogram 项目主页:https://blackforestlabs.ai/announcing-black-forest-labs/
18. Stability AI 推出Stable Fast 3D[20]
SF3D 将单个图像作为输入,并在一秒内生成带纹理的 UV 展开 3D 模型 SF3D经过明确的网格生成训练,结合了快速 UV 展开技术,可以快速生成纹理,而不是依赖顶点颜色 项目主页:https://stable-fast-3d.github.io/
19. Google推出Gemma2 2B模型能够在手机、笔记本电脑、台式机等边缘设备上运行[21]
利用了知识蒸馏技术,通过从更大、更复杂的模型中学习,将其知识传递到较小的模型中,取得了超出预期的性能表现。 适用于多种文本生成任务,包括问答、摘要和推理。 项目主页:https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/
20. MindSearch:模仿人类思维引发深度AI搜索[22]
MindSearch 是一款具有 Perplexity.ai Pro 性能的开源 AI 搜索引擎框架 可以自由的使用闭源或开源 LLM,在深度、广度和生成响应的准确性三个方面均超越 ChatGPT-Web 和 Perplexity.ai (Pro) 项目主页:https://github.com/InternLM/MindSearch
技术交流
加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!
更多精彩内容,尽在「魔方AI空间」,关注了解全栈式 AIGC内容!!
推荐阅读
• 万字长文 | AIGC时代算法工程师的面试秘籍(2024.5.13-5.26第十四式)
• AIGC | 「视频生成」系列之Suno制作MV视频工作流分享(保姆级)
• AIGC|一文梳理「AI视频生成」技术核心基础知识和模型应用
• AIGC|OpenAI文生视频大模型Sora技术拆解(含全网资料汇总)
AIGCmagic社区: https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd?from=from_copylink
[2]Magic最新消息:LTM-2-Mini 第一个100M Token 上下文的模型: https://magic.dev/blog/100m-token-context-windows
[3]阿里发布最新视觉语言模型:Qwen2-Vl 更清晰地看世界: https://qwenlm.github.io/zh/blog/qwen2-vl/
[4]字节Hyper-SD:只需 2s 快速生图: https://huggingface.co/spaces/ByteDance/Hyper-FLUX-8Steps-LoRA
[5]Hyper-FLUX.1-dev-8steps-lora.safetensors: https://huggingface.co/ByteDance/Hyper-SD/blob/main/Hyper-FLUX.1-dev-8steps-lora.safetensors
[6]Hyper-FLUX.1-dev-16steps-lora.safetensors: https://huggingface.co/ByteDance/Hyper-SD/blob/main/Hyper-FLUX.1-dev-16steps-lora.safetensors
[7]第一个Flux IpAdapter 模型开源: https://huggingface.co/XLabs-AI/flux-ip-adapter
[8]VEnhancer: AI 视频超清修复,已被CogVideoX支持: https://github.com/Vchitect/VEnhancer
[9]FancyVideo:通过跨帧文本指导实现动态且一致的视频生成: https://fancyvideo.github.io/
[10]TurboEdit:基于文本的实时图像编辑: https://betterze.github.io/TurboEdit/
[11]UniPortrait:统一定制单ID和多ID个性化框架: https://aigcdesigngroup.github.io/UniPortrait-Page/
[12]ControlNeXt:强大而高效的图像和视频生成控制: https://pbihao.github.io/projects/controlnext/index.html
[13]Qwen发布数学语言模型:Qwen2-Math,超越GPT-4o、Claude-3.5: https://github.com/QwenLM/Qwen2-Math
[14]谷歌推出Gemini Live:让您的移动设备成为强大的 AI 助手: https://blog.google/products/gemini/made-by-google-gemini-ai-updates/
[15]字节发布LLaVA-OneVision:开源多模态大模型: https://llava-vl.github.io/blog/2024-08-05-llava-onevision/
[16]MiniCPM-V:端侧可用的 GPT-4V 级单图、多图、视频多模态大模型: https://github.com/OpenBMB/MiniCPM-V.git
[17]InternVideo2:用于多模态视频理解的缩放视频基础模型: https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/
[18]智谱清影:开源视频生成模型 CogVideoX-2B: https://github.com/THUDM/CogVideo.git
[19]重磅!全新开源图像生成模型Flux.1,媲美 Midjourney: https://blackforestlabs.ai/announcing-black-forest-labs/
[20]Stability AI 推出Stable Fast 3D: https://stable-fast-3d.github.io/
[21]Google推出Gemma2 2B模型能够在手机、笔记本电脑、台式机等边缘设备上运行: https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/
[22]MindSearch:模仿人类思维引发深度AI搜索: https://github.com/InternLM/MindSearch