2024 AI TimeLine 回顾(独家视角)
2024年,生成式人工智能已远远超越了仅仅作为一个流行词的范畴,它在实际应用和技术创新方面取得了显著进展,成为推动社会进步和产业变革的重要力量。以下是对2024年生成式人工智能领域一些最重要头条新闻的回顾与介绍:
二月
Stability AI 逐步推出 Stable Diffusion 3,引领图像生成领域新潮流。 Google 升级 Bard 为 Gemini,并推出 Gemini Pro 1.5,支持多模态处理,逐步向开发者开放。 OpenAI 宣布 Sora 模型,可制作长达一分钟的视频,尚未公开。
三月
X 公司预告发布 Grok 1.5 开源模型,即将引发业界关注。 Anthropic 推出 Claude 3,性能超越 GPT-4(同尺寸比较)。 Suno AI 发布 Suno v3,专注于音乐创作。
四月
Stability AI 更新 Stable Audio 2.0,音乐创作领域迎来新突破。 X 公司 发布 Grok-1.5V,集成高级图像识别功能,表现卓越。 Mistral 开源 Mixtral 8x22B,开源界最强大模型之一,经济实惠。 Meta 开源 LLaMA 3,包括 8B 和 70B 版本,预计后续发布更大模型。 微软 开源 Phi-3-mini,可在移动设备上运行,功能类似 GPT-3.5。 Adobe 推出 Firefly 3,图像创建领域新成员。 Reka AI 推出多模态语言模型系列,处理视频、音频和图像。 苹果 以 OpenELM 名义开源小型语言模型系列,参数范围从 2.7 亿到 30 亿。
五月
OpenAI 发布 GPT-4o,具备完整多模态功能,响应迅速,多语言支持。 Google 宣布多项 AI 功能升级,包括 Gemini Flash 1.5、Imagen 3、Music AI 和 Veo,以及多模式功能 Astra。 微软 推出 **Copilot+**,通过屏幕截图搜索用户历史,同时开源 Phi-3 系列小型、功能强大的模型。 Meta 推出 Chameleon,无缝呈现文本和图像的新型多模式模型。 Suno AI 更新 Suno v3.5,音乐创作再升级。
六月
Stability AI 更新 Stable Diffusion 3,中等版本达 2B 参数。 苹果 宣布 Apple Intelligence,集成不同规模 AI 模型执行多样任务。 DeepSeekAI 发布 DeepSeekCoderV2,编码能力显著。 Runway 推出 Gen3 Alpha,视频生成新模型。 Anthropic 发布 Claude Sonnet 3.5,性能更优,资源占用更低。 微软 开源 Florence 2 图像识别模型系列。 Google 推出 Gemma 2,参数分别为 9B 和 27B,开放更大上下文窗口。
七月
OpenAI 发布 GPT-4o mini,低成本高性能。 Meta 开源 Llama 3.1,包括 8B、70B 和 405B 版本。 Mistral AI 发布 Codestral Mamba、Mistral NeMo 和 Mathstral,专注编码和数学。 DeepMind 发布 AlphaProof 和 AlphaGeometry 2,在国际数学奥林匹克获银牌。 OpenAI 推出 SearchGPT,集成网络搜索功能。 Mistral AI 发布 Mistral Large 2,功能接近封闭 SOTA 模型。 Google 开源 Gemma 2 2B,展现出色能力。
八月
黑森林实验室 发布 Flux,图像生成性能优越。 OpenAI 更新 GPT-4o 0806,JSON 输出成功率 100%。 xAI 推出 Grok 2 和 Grok 2 mini,性能领先。 微软 推出 Phi 3.5 小型语言模型系列,性能出色。 Google 推出 Gemini 1.5 Flash8B、Gemini 1.5 Pro Enhanced 和 Gemini 1.5 Flash Update。 Ideogram 2.0 发布,图像生成能力领先。 Luma 推出 Dream Machine 1.5,视频创作新选择。
九月
Mistral 推出 Pixtral12B,首个同时处理图像和文本的多模式模型。 OpenAI 向订阅用户发布 o1 preview 和 o1 mini,性能显著提升。 阿里巴巴 发布 Qwen 2.5,大小从 0.5B 到 72B 不等,能力出众。 视频生成模型KLING 1.5 发布。 Meta 推出 Llama 3.2,首次具备图像识别功能。 Google 更新 Gemini Pro 1.5 002 和 Gemini Flash 1.5 002,长上下文处理显著改进。 Kyutai 发布 Moshi,开源语音到语音模型。 谷歌 更新 NotebookLM,支持用户创建播客。
十月
Flux 1.1 Pro 发布,图像创建功能高级。 Meta 推出 Movie Gen,生成视频、图像和音频。 Pika 发布视频模型 1.5 及“Pika 效果”。 Adobe 宣布 Firefly Video。 Rhymes AI 发布 Aria,开源多模式模型。 Meta 发布 Meta Spirit LM,开源语音到语音语言模型。 Mistral AI 推出 Ministral,新小型模型系列。 Janus AI 由 DeepSeekAI 开源,多模态语言模型。 DeepMind 和 麻省理工学院 推出 Fluid,文本到图像生成模型,性能领先。 Stable Diffusion 3.5 开源发布。 Anthropic 推出 Claude 3.5 Sonnet New 和 Claude 3.5 Haiku。 OpenAI 推出 Search GPT,平台内网络搜索。
十一月
阿里巴巴 发布 QwQ 32B Preview,集成推理能力,与 o1-preview 竞争。 阿里巴巴 开源 Qwen2.5 Coder 32B,编码领域领先。 DeepSeek 推出 DeepSeek-R1-Lite-Preview,推理能力强,性能优越。 Suno 升级 AIpowered 音乐生成器至 v4。 Mistral AI 推出 Pixtral Large,图像识别和高级性能指标出众。 谷歌 推出 gemini-exp-1114 和 gemini-exp-1121,竞技场聊天机器人领先。 Anthropic 推出 Claude 3.5 Haiku 和 Visual PDF Analysis。
十二月
亚马逊 推出 NOVA 系列模型,支持文本、图像和视频处理。 OpenAI 发布 SORA 视频生成模型,及 O1 和 O1 Pro 完整版,还有 GPT4o 直播视频模式。 谷歌 推出 Gemini-Exp-1206,聊天机器人排行榜领先。 Google 发布 Gemini 2.0 Flash 测试版,性能领先,内置图像生成功能。 谷歌 推出 Gemini-2.0-Flash-Thinking,思维模型,聊天机器人排行榜第二。 谷歌 发布 Veo 2 测试版视频生成模型,4K 视频生成能力强。 xAI 集成 Aurora,高质量图像生成新模型。 微软 开源 Phi4,14B 参数,功能强大。 Meta 发布 Llama 3.3 70B,性能与 Llama 3.1 405B 相当。 谷歌 推出 PaliGemma 2,多模式开源模型,与 Gemma 集成。 Pika Labs 发布 2.0 版本视频生成器。 Meta 推出 Apollo,视频生成模型系列。 Deepseek 开源 Deepseek V3,671B 参数,超越闭源 SOTA 模型。 阿里巴巴 发布 QVQ-72B-Preview,前沿思维模型,图像分析能力强。 OpenAI 宣布 O3,性能突破,多项基准测试领先,预计 2025 年 1 月推出 O3 Mini。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~