首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

2024生成模型综述

科技 2025-01-03 19:29 浙江

2024年见证了AI领域的重大飞跃。从OpenAI的主导地位到Claude的异军突起，从xAI到中国的DeepSeek和Qwen，整个行业呈现出百花齐放的态势。让我们梳理2024年的关键进展，并展望2025年的研究方向。

大语言模型：架构创新与扩展范式

译码器Transformer仍是主流架构，但MLA等创新正在改变注意力机制
专家混合（MoE）模型重回焦点，DeepSeek等团队在推动其发展
词元化方案正从BPE向基于字节的方案过渡，期待Meta继续深耕

推理能力：新范式带来的质变

OpenAI的o系列引领推理新范式，证明了推理时计算的价值
开源社区通过DeepSeek r1和Qwen QwQ成功复现
蒸馏技术让基础模型也能获得推理能力的提升

图像生成：走向统一的底层架构

Diffusion Transformer成为主流方案
Flow Matching取代传统扩散成为训练框架首选
自回归方法展现新的可能性

多模态与智能体：下一个前沿

视觉语言模型走向早期融合
全模态模型（Omni-Modal）成为新趋势
智能体在特定场景展现潜力，但仍面临成本挑战

展望2025，我们很可能将见证：

更多自主研发的中国模型崛起
训练效率和量化技术的突破
视频生成等新领域的重大进展
更完善的评估体系建设

正如DeepSeek CEO梁文峰所说：在颠覆性技术面前，封闭源代码创造的护城河是暂时的。真正的护城河在于团队——在这个过程中成长、积累知识，形成能够持续创新的组织和文化。

这段话道出了开源社区和创新团队的核心竞争力。2025年，让我们继续见证AI领域更多突破性的发展。

参考文献：
[1] http://nrehiew.github.io/blog/2024/

欢迎支持我的知识星球（NLP工程化）：Dify源码剖析及答疑，Dify对话系统源码，电子书籍报告下载，公众号所有付费资料。若微信群二维码过期，则加微信buxingtianxia21进群。

NLP工程化知识星球

NLP工程化资料群

专注于对话系统领域的技术分享，重点写《Dify应用操作和源码剖析》专栏。

最新文章

Diffbot LLM Inference Server：智能推理服务器

Vision Parse：将PDF文档转换为Markdown的智能工具

Solana Agent Kit：连接AI Agent与Solana协议的开源工具包

JupyterLab Magic Wand：JupyterLab笔记本中的智能助手

Smolgrad：小型自动微分引擎

CodebaseToPrompt：将本地文件转换为大型语言模型（LLM）提示的工具

LLM Cursor Rules：在软件开发中用Cursor和LLM的最佳实践规则

ts-rs：Rust与TypeScript之间的桥梁

llmstxt-generator：网站内容整合工具，将网站内容爬取并整合成文本文件

Prodigy+ScheduleFree：一种新的优化器

SQLFlow：流数据处理的SQL工具

less_slow.cpp：学习如何编写更高效的C++代码

有大佬已经放出了 DeepSeek-V3 的Q4_k_m 量化版本了

中国科学技术大学的人工智能基础课

Devin.cursorrules：Cursor或Windsurf升级成接近Devin智能编程

一个基于 AI 驱动的软件开发多智能体平台：OpenHands

GitDiagram：将任何GitHub代码库一键转换成互动式图表

LLM合集：awesome-llm-apps

推荐一款高效文本生成音频（Text-to-Audio）模型：TANGOFLUX

Panel Graphic Walker：像操作Tableau一样直观探索数据的图形界面工具

FlexRAG：为科研人员和开发者量身打造的高性能RAG框架

LLM-as-an-Interviewer：一个通过模拟面试过程来评估LLMs能力的框架

Mainframe-Orchestra：多智能体团队协作框架

OS-Genesis：自动化GUI Agent轨迹构建工具

MEDEC数据集：首个医疗错误检测与纠正的临床笔记数据集

青龙字幕工具：基于Lance数据库格式的视频自动字幕生成工具，使用Gemini API进行

机器学习系统学习资源库：为机器学习系统新手提供的入门阅读列表

独立开发者出海工具箱：一个集合了独立开发者出海所需技术栈和工具的平台

ai-hedge-fund，投资决策AI Agent，探索使用AI做出交易决策

2024生成模型综述

Text-to-CAD：写文本 Prompt 就能生成一个 CAD 模型

GitHubDaily 2024 年在微博所分享的开源项目，已分类整理到 GitHub 上

Cherry Studio 是一款支持多个大语言模型（LLM）服务商的桌面客户端

5个开源的LLM构建RAG的方案

Agentarium：一个强大的Python框架，用于轻松管理和协调AI Agent

Alibaba LangEngine：基于 Java 的 AI 应用开发框架

基于Docling和Llama 3.2实现本地部署的一个Excel表格的RAG

Hugging Face正式发布smolagents新型agent框架

Hugging Face 的智能体分级

NeurIPS 2024 LLM推理教程代码：大型语言模型推理Tutorial

Harbor：一站式管理本地AI环境

AI赋能技术栈全景指南

Trend Finder - 全天候社交趋势捕手

Simple CSC：一款基于大型语言模型的中文拼写纠错工具

Resume Matcher 是一个基于 AI 的免费开源工具，用于优化简历

Termite：AI驱动的终端界面生成器

一款将模特穿着服装的图像还原成平铺商品图的工具：TryOffAnyone

计算帝国：1500年以来技术与权力谱系

华佗GPT-o1：一款专为复杂医学推理设计的人工智能模型

分享一款 GitHub 上开源的 LLM 应用评估框架：opik

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉