今日开源（2024-11-08）：HelloMeme图像生成模型插件，超真实多图片之间的表情迁移，兼容多种模型

文摘 2024-11-08 18:30 北京

🛠️框架平台、必备工具

①项目：HelloMeme

★HelloMeme项目通过集成空间编织注意力机制，将高层次和高保真条件嵌入扩散模型中。该项目提供了图像和视频生成的功能，支持用户通过参考图像和驱动图像/视频生成新的内容。

☆一键收藏：

https://sota.jiqizhixin.com/project/hellomeme

②项目：Cosmos Tokenizer

★Cosmos Tokenizer 是一套用于图像和视频的神经Tokenizer，旨在推进视觉token的技术前沿。该项目支持大规模、稳健和高效的自动回归transformer（如大型语言模型）或扩散生成器的开发。项目提供了不同tokenizer的推理代码和预训练模型，能够实现高达2048倍的总压缩率，同时保持较高的图像质量，并比现有的最先进方法快12倍。

☆一键收藏：

https://sota.jiqizhixin.com/project/cosmos-tokenizer

③项目：Regional-Prompting-FLUX

★Regional-Prompting-FLUX 是一种无需训练的区域提示方法，专为 Diffusion Transformers（即 FLUX）设计，能够实现细粒度的文本到图像生成。该方法在不需要额外训练的情况下，提供了与 LoRA 和 ControlNet 的高度兼容性。相比基于 RPG 的实现，Regional-Prompting-FLUX 推理速度更快且占用更少的 GPU 内存。

☆一键收藏：

https://sota.jiqizhixin.com/project/regional-prompting-flux

④项目：InkSight

★InkSight项目旨在通过学习阅读和书写，将离线手写内容转换为在线格式。该项目利用先进的机器学习和深度学习技术，提供了一种高效的手写识别解决方案。其核心在于将传统的手写输入转化为可编辑的数字文本，适用于多种应用场景，如文档数字化和手写笔记转换。

☆一键收藏：

https://sota.jiqizhixin.com/project/inksight

⑤项目：Aide code editor

★Aide是一个开源的AI原生代码编辑器，是VS Code的一个分支。它与领先的代理框架swebench-lite紧密集成，结合了VS Code的强大功能和先进的AI能力，旨在成为开发者的智能编码助手，帮助用户更快地编写更好的代码，同时保持对开发过程的完全控制。

☆一键收藏：

https://sota.jiqizhixin.com/project/aide-code-editor

🏆基座模型

①项目：OS-ATLAS

★OS-ATLAS是一个为通用GUI智能体设计的基础动作模型。该项目提供了两个基础的定位模型：OS-Atlas-Base-4B和OS-Atlas-Base-7B，分别从InternVL2-4B和Qwen2-VL-7B-Instruct微调而来。模型能够接受任意大小的图像输入，并输出相对坐标，用于图像的中心点或边界框的定位。

☆一键收藏：

https://sota.jiqizhixin.com/project/os-atlas

今日可用大模型，免费 API 调用

11月08日更新

① 多模态

Qwen2-VL-2B-Instruct
InternVL2-1B
InternVL2-2B
InternVL2-4B

② 中文大模型

Llama3.1-8B-Chinese-Chat
Qwen2-7B-Instruct
Mistral-7B-Instruct-v0.3
Meta-Llama-3.1-8B-Instruct

③ 其他

Llama-3.2-1B-Instruct
Llama-3.2-3B-Instruct
Janus-1.3B(deepseek)

------------- 详细内容 -------------

① 多模态

Qwen2-VL-2B-Instruct

清湛/湖州4090 公共线路 | 推理用时~10s | 倒计时2天

API调用地址：

https://sota.jiqizhixin.com/model-api/Qwen2-VL-2B-Instruct_476914df95/chat/completions

获取秘钥：

https://sota.jiqizhixin.com/xt-terminal/841ce671-abf3-425c-abae-25a3ebf7ae87

InternVL2-1B

清湛/湖州4090 公共线路；推理用时~19s | 倒计时2天

API调用地址：

https://sota.jiqizhixin.com/model-api/InternVL2-1B_ba0e4230fd/chat/completions

获取秘钥：

https://sota.jiqizhixin.com/xt-terminal/639608ab-8f04-484f-8f02-be15e041ffc4

InternVL2-2B

清湛/湖州4090 公共线路；推理用时~5s | 倒计时2天

API调用地址：

https://sota.jiqizhixin.com/model-api/InternVL2-2B_d879ed7c5e/chat/completions

获取秘钥：

https://sota.jiqizhixin.com/xt-terminal/4658dbdb-f562-46bb-976d-632576a457fa

InternVL2-4B

清湛/湖州4090 公共线路；推理用时~20s | 倒计时2天

API调用地址：

https://sota.jiqizhixin.com/model-api/InternVL2-4B_b354ea016a/chat/completions

获取秘钥：

https://sota.jiqizhixin.com/xt-terminal/12e21494-623f-4fc5-8e8b-53bfe8244e11

② 中文

Llama3.1-8B-Chinese-Chat

清湛/呼和浩特A40 公共线路；推理用时~25s | 倒计时2天

API调用地址：

https://sota.jiqizhixin.com/model-api/Llama3_1-8B-Chinese-Chat_be6a7351a9/chat/completions

获取秘钥：

https://sota.jiqizhixin.com/xt-terminal/09daa9b1-600d-47ea-96f1-a0de627f2276

Qwen2-7B-Instruct

清湛/呼和浩特A40 公共线路；推理用时~4s | 倒计时2天

API调用地址：

https://sota.jiqizhixin.com/model-api/qwen2-7b-instruct_961a4c2658/chat/completions

获取秘钥：

https://sota.jiqizhixin.com/xt-terminal/c567753a-cb24-4fda-8aac-fe1e2f437db1

Mistral-7B-Instruct-v0.3

清湛/呼和浩特A40 公共线路；推理用时~5s | 倒计时2天

API调用地址：

https://sota.jiqizhixin.com/model-api/Mistral-7B-Instruct-v0_3_d55a1b3441/chat/completions

获取秘钥：

https://sota.jiqizhixin.com/xt-terminal/4f45a6c3-01b3-4907-8836-0a90e62899ea

Meta-Llama-3.1-8B-Instruct

清湛/呼和浩特A40 公共线路；推理用时~5s | 倒计时2天

API调用地址：

https://sota.jiqizhixin.com/model-api/Meta-Llama-3_1-8B-Instruct_058eda30f1/chat/completions

获取秘钥：

https://sota.jiqizhixin.com/xt-terminal/faf646bc-bf73-4fed-93fd-fc8d4e5e6d4a

③ 其他

Llama-3.2-1B-Instruct

清湛/湖州4090 公共线路；推理用时~12s | 倒计时2天

API调用地址：

https://sota.jiqizhixin.com/model-api/Llama-3_2-1B-Instruct_04ba370ac5/chat/completions

获取秘钥：

https://sota.jiqizhixin.com/xt-terminal/bfc4890c-0b41-4050-ab78-bc4136162bb9

Llama-3.2-3B-Instruct

清湛/湖州4090 公共线路；推理用时~10s | 倒计时2天

API调用地址：

https://sota.jiqizhixin.com/model-api/Llama-3_2-3B-Instruct_26537cad08/chat/completions

获取秘钥：

https://sota.jiqizhixin.com/xt-terminal/d476dbe2-92b9-4f88-8c2d-be10542c83ae

Janus-1.3B(deepseek)

清湛/湖州4090 公共线路；推理用时~15s | 倒计时2天

API调用地址：

https://sota.jiqizhixin.com/model-api/Janus-1_3B_22407fe3ad/chat/completions

获取秘钥：

https://sota.jiqizhixin.com/xt-terminal/10a5d42d-7300-48cd-8dff-79b60d109a91

📋 查看API调用文档：

https://jiqizhixin.feishu.cn/wiki/EfHwwEuXZimdgpkQLXLcrOwKnyb

💻 试用更多模型API ：

https://sota.jiqizhixin.com/xt-terminal

http://mp.weixin.qq.com/s?__biz=MzkyMzcwMDIyMQ==&mid=2247496842&idx=1&sn=8d03164dc5343e68bee494e777d94598

机器之心SOTA模型

追踪 AI 开源进展，探索先进开发实践。

今日开源（2024-11-07）：浙大开源TableGPT2，7B和72B双参数版本，针对解决表格数据任务，结构化数据成独立模态

今日开源（2024-11-06）：腾讯Hunyuan3D-1.0，文本与图像到3D生成框架，最快10s获得3D资产

今日开源（2024-11-05）：腾讯发布Hunyuan-Large，业界最大开源MoE模型，389B参数，支持256K上下文

今日开源（2024-11-04）：中科院与字节联合发布DreamClear，基于深度学习技术，隐私安全优先的高性能图像修复技术

今日开源（2024-11-01）：Meta发布MobileLLM模型代码，1B参数级高质量语言模型，零样本常识推理任务表现优异

今日开源（2024-10-31）：字节开源MimicTalk代码，基于NeRF技术，15分钟生成3D说话人脸视频

今日开源（2024-10-30）：SD 3.5 Medium开源发布，2.5B参数大小，生成从0.25到2百万像素之间的图像

今日开源（2024-10-29）：Meta开源LongVU大模型，过滤重复帧、跨帧token压缩，增强现实世界长视频理解

今日开源（2024-10-28）：蚂蚁开源知识增强大模型服务框架KAG，知识图谱结合向量检索，专业知识问答表现优异

今日开源（2024-10-25）：智谱开源GLM-4-Voice，支持中英文以及中国方言语音，模拟有情感语调的实时语音对话

今日开源（2024-10-24）：最大开源视频生成模型Mochi 1，10B参数，每秒30帧生成最长5.4秒视频，精准多模态融合

今日开源（2024-10-23）：Stable Diffusion 3.5 全家桶，8B参数，10s生成100万像素以上图片

今日开源（2024-10-22）：IBM开源Granite 3.0企业级AI，2B/8B等版本，超12万亿个训练数据token

今日开源（2024-10-21）：DeepSeek发布Janus1.3B，统一多模态理解和生成，新颖自回归框架，解耦设计提升性能

今日开源（2024-10-18）：复旦百度南大开源Hallo2，音频驱动的长时间、高分辨率肖像动画生成，公开预训练权重及源码

今日开源（2024-10-17）：英伟达开源Llama 3.1 Nemotron 70B，基准测试中击败GPT-4o等强大模型

今日开源（2024-10-16）：语音识别工具包FunASR，多场景应用，新增支持Whisper-large-v3-turbo

今日开源（2024-10-15）：百川发布Baichuan-Omni 7B多模态大语言模型，全面提升图像、视频、音频等处理能力

今日开源（2024-10-14）：类o1全链条训练框架OpenR，助力复杂推断模型构建，开启大模型智能决策新篇章！

今日开源（2024-10-12）：上交发布libcom图像合成全能工具箱，全方位覆盖十余项功能，轻松实现前景与背景的完美融合！

今日开源（2024-10-11）：北大&快手开源Pyramid Flow Matching，轻松生成10秒高质量视频的自回归方法

今日开源（2024-10-10）：Gradio 5稳定版重磅来袭，只需几行代码，轻松构建高效AI应用！

今日开源（2024-10-09）：语音识别系统Reverb ASR，20万小时语音数据训练，逐字转录高效准确

今日开源（2024-10-08）：全新三维生成模型3DTopia-XL，图文输入，5秒内直出精细纹理数字资产

今日开源（2024-09-30）：中国电信开源TeleChat2星辰语义大模型，中英文高质量语料训练，完全基于国产算力

今日开源（2024-09-29）：智源开源多模态模型Emu3，单个transformer简化设计，预测下一个token训练生成

今日开源（2024-09-27）：ProX自动清洗预训练数据，语言模型编程，节省20倍计算量，突破传统数据优化瓶颈

今日开源（2024-09-26）：Molmo全开源视觉语言模型，小体积高性能，超越GPT-4，打败Meta新发Llama 3.2

今日开源（2024-09-25）：简化版视觉语言模型Mini-LLaVA，支持图像、视频和文本的多模态处理，单个GPU即可运行

今日开源（2024-09-24）：英伟达Llama-3.1-Nemotron-51B-Instruct，平衡准确性与效率的新选择

今日开源（2024-09-23）：多模态大语言模型Oryx，突破视觉数据处理局限，高效应对任意分辨率和时长的视觉输入

今日开源（2024-09-20）：阿里国际发布Ovis1.6：创新多模态大语言模型，推动视觉与文本的深度融合

今日开源（2024-09-19）：阿里云发布Qwen2.5：全面升级的大型语言模型系列，支持多语言与长文本生成

今日开源（2024-09-14）：腾讯发布GameGen-O，首个生成开放世界游戏的视频模型

今日开源（2024-09-13）：元象科技发布XVERSE-MoE-A36B，中国最大开源MoE模型，助力AI应用低成本部署

今日开源（2024-09-12）：Mistral AI发布Pixtral 12B，多模态大语言模型，支持任意尺寸、数量的图像处理

今日开源（2024-09-11）：智谱开源LongCite助力LLM精准引用，提升长文本QA可信度

今日开源（2024-09-10）：DeepSeek-Coder-V2最新版本发布，精通338种编程语言，上下文支持128K

今日开源（2024-09-09）：DeepSeek-V2.5融合通用与代码能力的升级版本

开源热榜：面壁智能MiniCPM系列第三代，4B模型超过GPT-3.5，上下文无限；零一万物Yi-Coder，精通52种编程语言

今日开源（2024-09-06）：面壁智能MiniCPM3-4B，性能超过GPT-3.5-Turbo，理论上可处理无限上下文

Qwen2-VL开源多模态最强？对比实测MiniCPM-V 2.6面壁小钢炮

今日开源（2024-09-05）：零一万物Yi-Coder代码生成系列模型，提供1.5B、9B，支持128K上下文

今日开源（2024-09-04）：Mini-Omni首个开源实时语音交互多模态模型，同时具备「听」和「说」的能力

今日开源（2024-09-03）：Jina ColBERT v2多语言检索模型；10x工程师的AI代码编辑器Melty

SOTA！模型社区招实习生啦~

今日开源（2024-09-02）：Cohere发布全新Command R和Command R+，专注RAG与工具调用优化

开源热榜：阿里Qwen2-VL（2/7B），可处理长视频、任意分辨率图像；智谱CogVideoX-5b，RTX 3060可跑

今日开源（2024-08-30）：阿里Qwen2-VL，含2B、7B参数版本，支持长视频理解与多分辨率图像处理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉