2024 AI TimeLine 回顾（独家视角）

文摘 2025-01-11 00:44 江苏

2024 AI TimeLine 回顾（独家视角）

2024年，生成式人工智能已远远超越了仅仅作为一个流行词的范畴，它在实际应用和技术创新方面取得了显著进展，成为推动社会进步和产业变革的重要力量。以下是对2024年生成式人工智能领域一些最重要头条新闻的回顾与介绍：

二月

Stability AI 逐步推出 Stable Diffusion 3，引领图像生成领域新潮流。
Google 升级 Bard 为 Gemini，并推出 Gemini Pro 1.5，支持多模态处理，逐步向开发者开放。
OpenAI 宣布 Sora 模型，可制作长达一分钟的视频，尚未公开。

三月

X 公司预告发布 Grok 1.5 开源模型，即将引发业界关注。
Anthropic 推出 Claude 3，性能超越 GPT-4（同尺寸比较）。
Suno AI 发布 Suno v3，专注于音乐创作。

四月

Stability AI 更新 Stable Audio 2.0，音乐创作领域迎来新突破。
X 公司 发布 Grok-1.5V，集成高级图像识别功能，表现卓越。
Mistral 开源 Mixtral 8x22B，开源界最强大模型之一，经济实惠。
Meta 开源 LLaMA 3，包括 8B 和 70B 版本，预计后续发布更大模型。
微软开源 Phi-3-mini，可在移动设备上运行，功能类似 GPT-3.5。
Adobe 推出 Firefly 3，图像创建领域新成员。
Reka AI 推出多模态语言模型系列，处理视频、音频和图像。
苹果以 OpenELM 名义开源小型语言模型系列，参数范围从 2.7 亿到 30 亿。

五月

OpenAI 发布 GPT-4o，具备完整多模态功能，响应迅速，多语言支持。
Google 宣布多项 AI 功能升级，包括 Gemini Flash 1.5、Imagen 3、Music AI 和 Veo，以及多模式功能 Astra。
微软推出 **Copilot+**，通过屏幕截图搜索用户历史，同时开源 Phi-3 系列小型、功能强大的模型。
Meta 推出 Chameleon，无缝呈现文本和图像的新型多模式模型。
Suno AI 更新 Suno v3.5，音乐创作再升级。

六月

Stability AI 更新 Stable Diffusion 3，中等版本达 2B 参数。
苹果宣布 Apple Intelligence，集成不同规模 AI 模型执行多样任务。
DeepSeekAI 发布 DeepSeekCoderV2，编码能力显著。
Runway 推出 Gen3 Alpha，视频生成新模型。
Anthropic 发布 Claude Sonnet 3.5，性能更优，资源占用更低。
微软开源 Florence 2 图像识别模型系列。
Google 推出 Gemma 2，参数分别为 9B 和 27B，开放更大上下文窗口。

七月

OpenAI 发布 GPT-4o mini，低成本高性能。
Meta 开源 Llama 3.1，包括 8B、70B 和 405B 版本。
Mistral AI 发布 Codestral Mamba、Mistral NeMo 和 Mathstral，专注编码和数学。
DeepMind 发布 AlphaProof 和 AlphaGeometry 2，在国际数学奥林匹克获银牌。
OpenAI 推出 SearchGPT，集成网络搜索功能。
Mistral AI 发布 Mistral Large 2，功能接近封闭 SOTA 模型。
Google 开源 Gemma 2 2B，展现出色能力。

八月

黑森林实验室 发布 Flux，图像生成性能优越。
OpenAI 更新 GPT-4o 0806，JSON 输出成功率 100%。
xAI 推出 Grok 2 和 Grok 2 mini，性能领先。
微软推出 Phi 3.5 小型语言模型系列，性能出色。
Google 推出 Gemini 1.5 Flash8B、Gemini 1.5 Pro Enhanced 和 Gemini 1.5 Flash Update。
Ideogram 2.0 发布，图像生成能力领先。
Luma 推出 Dream Machine 1.5，视频创作新选择。

九月

Mistral 推出 Pixtral12B，首个同时处理图像和文本的多模式模型。
OpenAI 向订阅用户发布 o1 preview 和 o1 mini，性能显著提升。
阿里巴巴 发布 Qwen 2.5，大小从 0.5B 到 72B 不等，能力出众。
视频生成模型KLING 1.5 发布。
Meta 推出 Llama 3.2，首次具备图像识别功能。
Google 更新 Gemini Pro 1.5 002 和 Gemini Flash 1.5 002，长上下文处理显著改进。
Kyutai 发布 Moshi，开源语音到语音模型。
谷歌更新 NotebookLM，支持用户创建播客。

十月

Flux 1.1 Pro 发布，图像创建功能高级。
Meta 推出 Movie Gen，生成视频、图像和音频。
Pika 发布视频模型 1.5 及“Pika 效果”。
Adobe 宣布 Firefly Video。
Rhymes AI 发布 Aria，开源多模式模型。
Meta 发布 Meta Spirit LM，开源语音到语音语言模型。
Mistral AI 推出 Ministral，新小型模型系列。
Janus AI 由 DeepSeekAI 开源，多模态语言模型。
DeepMind 和 麻省理工学院 推出 Fluid，文本到图像生成模型，性能领先。
Stable Diffusion 3.5 开源发布。
Anthropic 推出 Claude 3.5 Sonnet New 和 Claude 3.5 Haiku。
OpenAI 推出 Search GPT，平台内网络搜索。

十一月

阿里巴巴 发布 QwQ 32B Preview，集成推理能力，与 o1-preview 竞争。
阿里巴巴 开源 Qwen2.5 Coder 32B，编码领域领先。
DeepSeek 推出 DeepSeek-R1-Lite-Preview，推理能力强，性能优越。
Suno 升级 AIpowered 音乐生成器至 v4。
Mistral AI 推出 Pixtral Large，图像识别和高级性能指标出众。
谷歌推出 gemini-exp-1114 和 gemini-exp-1121，竞技场聊天机器人领先。
Anthropic 推出 Claude 3.5 Haiku 和 Visual PDF Analysis。

十二月

亚马逊 推出 NOVA 系列模型，支持文本、图像和视频处理。
OpenAI 发布 SORA 视频生成模型，及 O1 和 O1 Pro 完整版，还有 GPT4o 直播视频模式。
谷歌推出 Gemini-Exp-1206，聊天机器人排行榜领先。
Google 发布 Gemini 2.0 Flash 测试版，性能领先，内置图像生成功能。
谷歌推出 Gemini-2.0-Flash-Thinking，思维模型，聊天机器人排行榜第二。
谷歌发布 Veo 2 测试版视频生成模型，4K 视频生成能力强。
xAI 集成 Aurora，高质量图像生成新模型。
微软开源 Phi4，14B 参数，功能强大。
Meta 发布 Llama 3.3 70B，性能与 Llama 3.1 405B 相当。
谷歌推出 PaliGemma 2，多模式开源模型，与 Gemma 集成。
Pika Labs 发布 2.0 版本视频生成器。
Meta 推出 Apollo，视频生成模型系列。
Deepseek 开源 Deepseek V3，671B 参数，超越闭源 SOTA 模型。
阿里巴巴 发布 QVQ-72B-Preview，前沿思维模型，图像分析能力强。
OpenAI 宣布 O3，性能突破，多项基准测试领先，预计 2025 年 1 月推出 O3 Mini。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

NeurIPS 2024 | SHMT：通过潜在扩散模型进行自监督分层化妆转移（阿里&武汉理工）

阿里达摩院提出开源AI图片上色模型DDColor:可以为黑白照片、人物、动漫风景等一键上色!

Adobe发布TurboEdit：可以通过文本来编辑图像，编辑时间<0.5秒！

2024 AI TimeLine 回顾（独家视角）

东京大学 | Adobe 提出InstructMove，可通过观察视频中的动作来实现基于指令的图像编辑。

提出街景定位大模型AddressCLIP：一张图实现街道级精度定位！

谷歌DeepMind重磅推出多视角视频扩散模型CAT4D，单视角视频也能转换多视角了。

Open-Sora: 让所有人都能轻松制作高效视频,可生成16秒720P视频，模型代码全开源！

Face2QR:可根据人脸图像生成二维码，还可以扫描，以后个人名片就这样用了！

AI生成大片，Movie Gen可以生成长视频并配上完美的音效，带给观众更好的观看体验。

组件可控个性化生成方法MagicTailor：生成过程可自由地定制ID。

Google发布新AI工具Whisk：使用图像提示代替文本，快速完成视觉构思。

多模态图像生成模型Qwen2vl-Flux，利用Qwen2VL视觉语言能力增强FLUX，可集成ControlNet

字节 & 清华大学提出 AnyDressing ：通过潜在扩散模型实现可定制的多服装虚拟试穿。

NVIDIA发布GeForce RTX 50 系列，图形性能翻倍，售价549美元起！

实时高保真人脸编辑方法PersonaMagic，可根据肖像无缝生成新角色、风格或场景图像。

参数减少99.5%，媲美全精度FLUX！字节跳动等发布首个1.58-bit FLUX量化模型

复旦&字节提出layout-to-image新范式，支持基于布局的MM-DiT架构下可控图像生成！

MinT: 第一个能够生成顺序事件并控制其时间戳的文本转视频模型。

单幅图像合成 360° 3D场景的新方法：PanoDreamer，可同时生成全景图像和相应的深度信息。

提出街景定位大模型AddressCLIP：一张图实现街道级精度定位！

谷歌DeepMind重磅推出多视角视频扩散模型CAT4D，单视角视频也能转换多视角了。

ComfyUI | Flux实拍与卡通风格lora推荐, 用于一键生成创意图像，支持用户输入特定描述。

设计小白秒变大师？AnyDesign：你的时尚图像编辑神器！

东京大学 | Adobe 提出InstructMove，可通过观察视频中的动作来实现基于指令的图像编辑。

实时高保真人脸编辑方法PersonaMagic，可根据肖像无缝生成新角色、风格或场景图像。

厦门大学联合网易提出StoryWeaver，可根据统一模型内给定的角色实现高质量的故事可视化

北航 | 第一个多功能即插即用适配器MV-Adapter：轻松实现多视图一致图像生成。

NeurIPS 2024 | SHMT：通过潜在扩散模型进行自监督分层化妆转移（阿里&武汉理工）

字节 & 清华大学提出 AnyDressing ：通过潜在扩散模型实现可定制的多服装虚拟试穿。

NeurIPS2024 | OCR-Omni来了！字节&华师提出统一的多模态生成模型TextHarmony。

Adobe发布TurboEdit：可以通过文本来编辑图像，编辑时间<0.5秒！

DeepSeek-V3 正式发布，已在网页端和 API 全面上线，性能领先，速度飞跃。

港大&Adobe提出通用生成框架UniReal：通过学习真实世界动态实现通用图像生成和编辑。

腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT

一个LoRA同时处理内容和风格？UIUC提出UnZipLoRA，可同时训练两个LoRA，与原有LoRA兼容。

小米SU7璀璨洋红限定色360°全景图首次曝光？TRELLIS给你答案，实现可扩展多功能3D生成。

复旦&微软提出StableAnimator：可实现高质量和高保真的ID一致性人类视频生成

Qwen团队重磅上线视觉推理大模型QVQ-72B-preview，一键解答作业难题。

图像超分辨新SOTA！南洋理工提出InvSR,利用大模型图像先验提高SR性能, 登上Huggingface热门项目。

可控人物图像生成统一框架Leffa，可精确控制虚拟试穿和姿势转换！

MinT: 第一个能够生成顺序事件并控制其时间戳的文本转视频模型。

文生图像编辑来了！英伟达提出Add-it，无需训练，可根据文本提示向图像添加对象。

组件可控个性化生成方法MagicTailor：生成过程可自由地定制ID。

InstructG2I：从多模态属性图合成图像，结合文本和图信息生成。

厦门大学联合网易提出StoryWeaver，可根据统一模型内给定的角色实现高质量的故事可视化

创作智能助手，能够根据剧本文字和对话自动检索电影并可视化！

统一的图像生成模型OmniGen：可以根据多模态提示直接生成各种图像，无需额外插件。

GroundingBooth：一个用于文本到图像的定制框架，支持多主题和文本联合接地定制！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉