🛠️框架平台、必备工具
①项目:HelloMeme
★HelloMeme项目通过集成空间编织注意力机制,将高层次和高保真条件嵌入扩散模型中。该项目提供了图像和视频生成的功能,支持用户通过参考图像和驱动图像/视频生成新的内容。
☆一键收藏:
https://sota.jiqizhixin.com/project/hellomeme
②项目:Cosmos Tokenizer
★Cosmos Tokenizer 是一套用于图像和视频的神经Tokenizer,旨在推进视觉token的技术前沿。该项目支持大规模、稳健和高效的自动回归transformer(如大型语言模型)或扩散生成器的开发。项目提供了不同tokenizer的推理代码和预训练模型,能够实现高达2048倍的总压缩率,同时保持较高的图像质量,并比现有的最先进方法快12倍。
☆一键收藏:
https://sota.jiqizhixin.com/project/cosmos-tokenizer
③项目:Regional-Prompting-FLUX
★Regional-Prompting-FLUX 是一种无需训练的区域提示方法,专为 Diffusion Transformers(即 FLUX)设计,能够实现细粒度的文本到图像生成。该方法在不需要额外训练的情况下,提供了与 LoRA 和 ControlNet 的高度兼容性。相比基于 RPG 的实现,Regional-Prompting-FLUX 推理速度更快且占用更少的 GPU 内存。
☆一键收藏:
https://sota.jiqizhixin.com/project/regional-prompting-flux
④项目:InkSight
★InkSight项目旨在通过学习阅读和书写,将离线手写内容转换为在线格式。该项目利用先进的机器学习和深度学习技术,提供了一种高效的手写识别解决方案。其核心在于将传统的手写输入转化为可编辑的数字文本,适用于多种应用场景,如文档数字化和手写笔记转换。
☆一键收藏:
https://sota.jiqizhixin.com/project/inksight
⑤项目:Aide code editor
★Aide是一个开源的AI原生代码编辑器,是VS Code的一个分支。它与领先的代理框架swebench-lite紧密集成,结合了VS Code的强大功能和先进的AI能力,旨在成为开发者的智能编码助手,帮助用户更快地编写更好的代码,同时保持对开发过程的完全控制。
☆一键收藏:
https://sota.jiqizhixin.com/project/aide-code-editor
🏆基座模型
①项目:OS-ATLAS
★OS-ATLAS是一个为通用GUI智能体设计的基础动作模型。该项目提供了两个基础的定位模型:OS-Atlas-Base-4B和OS-Atlas-Base-7B,分别从InternVL2-4B和Qwen2-VL-7B-Instruct微调而来。模型能够接受任意大小的图像输入,并输出相对坐标,用于图像的中心点或边界框的定位。
☆一键收藏:
https://sota.jiqizhixin.com/project/os-atlas
今日可用大模型,免费 API 调用
11月08日更新
📋 查看API调用文档:
https://jiqizhixin.feishu.cn/wiki/EfHwwEuXZimdgpkQLXLcrOwKnyb
💻 试用更多模型API :
https://sota.jiqizhixin.com/xt-terminal