首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
开源热榜:阿里Qwen2-VL(2/7B),可处理长视频、任意分辨率图像;智谱CogVideoX-5b,RTX 3060可跑
文摘
2024-09-02 18:22
美国
看看本周新进展
本周带来的
6 个基础模型/精调模型
分别用于图像理解、视频理解、视频生成等
;
4 个必备工具
用于AI模型服务部署、RAG等。
👋网页端访问:https://sota.jiqizhixin.com
欢迎扫码加入社群
交流LLM推理与微调、Agent/RAG应用构建开发经验
http://mp.weixin.qq.com/s?__biz=MzkyMzcwMDIyMQ==&mid=2247496074&idx=2&sn=889bfffb6503066f3f9d4bb8612eb6ed
机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
最新文章
今日开源(2024-11-08):HelloMeme图像生成模型插件,超真实多图片之间的表情迁移,兼容多种模型
今日开源(2024-11-07):浙大开源TableGPT2,7B和72B双参数版本,针对解决表格数据任务,结构化数据成独立模态
今日开源(2024-11-06):腾讯Hunyuan3D-1.0,文本与图像到3D生成框架,最快10s获得3D资产
今日开源(2024-11-05):腾讯发布Hunyuan-Large,业界最大开源MoE模型,389B参数,支持256K上下文
今日开源(2024-11-04):中科院与字节联合发布DreamClear,基于深度学习技术,隐私安全优先的高性能图像修复技术
今日开源(2024-11-01):Meta发布MobileLLM模型代码,1B参数级高质量语言模型,零样本常识推理任务表现优异
今日开源(2024-10-31):字节开源MimicTalk代码,基于NeRF技术,15分钟生成3D说话人脸视频
今日开源(2024-10-30):SD 3.5 Medium开源发布,2.5B参数大小,生成从0.25到2百万像素之间的图像
今日开源(2024-10-29):Meta开源LongVU大模型,过滤重复帧、跨帧token压缩,增强现实世界长视频理解
今日开源(2024-10-28):蚂蚁开源知识增强大模型服务框架KAG,知识图谱结合向量检索,专业知识问答表现优异
今日开源(2024-10-25):智谱开源GLM-4-Voice,支持中英文以及中国方言语音,模拟有情感语调的实时语音对话
今日开源(2024-10-24):最大开源视频生成模型Mochi 1,10B参数,每秒30帧生成最长5.4秒视频,精准多模态融合
今日开源(2024-10-23):Stable Diffusion 3.5 全家桶,8B参数,10s生成100万像素以上图片
今日开源(2024-10-22):IBM开源Granite 3.0企业级AI,2B/8B等版本,超12万亿个训练数据token
今日开源(2024-10-21):DeepSeek发布Janus1.3B,统一多模态理解和生成,新颖自回归框架,解耦设计提升性能
今日开源(2024-10-18):复旦百度南大开源Hallo2,音频驱动的长时间、高分辨率肖像动画生成,公开预训练权重及源码
今日开源(2024-10-17):英伟达开源Llama 3.1 Nemotron 70B,基准测试中击败GPT-4o等强大模型
今日开源(2024-10-16):语音识别工具包FunASR,多场景应用,新增支持Whisper-large-v3-turbo
今日开源(2024-10-15):百川发布Baichuan-Omni 7B多模态大语言模型,全面提升图像、视频、音频等处理能力
今日开源(2024-10-14):类o1全链条训练框架OpenR,助力复杂推断模型构建,开启大模型智能决策新篇章!
今日开源(2024-10-12):上交发布libcom图像合成全能工具箱,全方位覆盖十余项功能,轻松实现前景与背景的完美融合!
今日开源(2024-10-11):北大&快手开源Pyramid Flow Matching,轻松生成10秒高质量视频的自回归方法
今日开源(2024-10-10):Gradio 5稳定版重磅来袭,只需几行代码,轻松构建高效AI应用!
今日开源(2024-10-09):语音识别系统Reverb ASR,20万小时语音数据训练,逐字转录高效准确
今日开源(2024-10-08):全新三维生成模型3DTopia-XL,图文输入,5秒内直出精细纹理数字资产
今日开源(2024-09-30):中国电信开源TeleChat2星辰语义大模型,中英文高质量语料训练,完全基于国产算力
今日开源(2024-09-29):智源开源多模态模型Emu3,单个transformer简化设计,预测下一个token训练生成
今日开源(2024-09-27):ProX自动清洗预训练数据,语言模型编程,节省20倍计算量,突破传统数据优化瓶颈
今日开源(2024-09-26):Molmo全开源视觉语言模型,小体积高性能,超越GPT-4,打败Meta新发Llama 3.2
今日开源(2024-09-25):简化版视觉语言模型Mini-LLaVA,支持图像、视频和文本的多模态处理,单个GPU即可运行
今日开源(2024-09-24):英伟达Llama-3.1-Nemotron-51B-Instruct,平衡准确性与效率的新选择
今日开源(2024-09-23):多模态大语言模型Oryx,突破视觉数据处理局限,高效应对任意分辨率和时长的视觉输入
今日开源(2024-09-20):阿里国际发布Ovis1.6:创新多模态大语言模型,推动视觉与文本的深度融合
今日开源(2024-09-19):阿里云发布Qwen2.5:全面升级的大型语言模型系列,支持多语言与长文本生成
今日开源(2024-09-14):腾讯发布GameGen-O,首个生成开放世界游戏的视频模型
今日开源(2024-09-13):元象科技发布XVERSE-MoE-A36B,中国最大开源MoE模型,助力AI应用低成本部署
今日开源(2024-09-12):Mistral AI发布Pixtral 12B,多模态大语言模型,支持任意尺寸、数量的图像处理
今日开源(2024-09-11):智谱开源LongCite助力LLM精准引用,提升长文本QA可信度
今日开源(2024-09-10):DeepSeek-Coder-V2最新版本发布,精通338种编程语言,上下文支持128K
今日开源(2024-09-09):DeepSeek-V2.5融合通用与代码能力的升级版本
开源热榜:面壁智能MiniCPM系列第三代,4B模型超过GPT-3.5,上下文无限;零一万物Yi-Coder,精通52种编程语言
今日开源(2024-09-06):面壁智能MiniCPM3-4B,性能超过GPT-3.5-Turbo,理论上可处理无限上下文
Qwen2-VL开源多模态最强?对比实测MiniCPM-V 2.6面壁小钢炮
今日开源(2024-09-05):零一万物Yi-Coder代码生成系列模型,提供1.5B、9B,支持128K上下文
今日开源(2024-09-04):Mini-Omni首个开源实时语音交互多模态模型,同时具备「听」和「说」的能力
今日开源(2024-09-03):Jina ColBERT v2多语言检索模型;10x工程师的AI代码编辑器Melty
SOTA!模型社区招实习生啦~
今日开源(2024-09-02):Cohere发布全新Command R和Command R+,专注RAG与工具调用优化
开源热榜:阿里Qwen2-VL(2/7B),可处理长视频、任意分辨率图像;智谱CogVideoX-5b,RTX 3060可跑
今日开源(2024-08-30):阿里Qwen2-VL,含2B、7B参数版本,支持长视频理解与多分辨率图像处理
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉