今日开源(2024-09-29):智源开源多模态模型Emu3,单个transformer简化设计,预测下一个token训练生成

文摘   2024-09-29 18:04   北京  


🏆 基座模型

①项目:智源Emu3

Emu3是一套最新的多模态模型,仅通过下一个token预测进行训练,能够实现高质量图像生成、准确的图文理解和流畅的视频创作它在生成和感知任务上超越了多个特定任务的旗舰模型,并且不需要扩散或组合架构。Emu3通过将多模态序列统一到一个单一的transformer模型中,简化了复杂的多模态模型设计,展示了在训练和推理过程中扩展的巨大潜力。

☆一键收藏:

https://sota.jiqizhixin.com/project/emu3


②项目:AMD-135M

AMD 发布了其首个小型语言模型 AMD-135M,采用了“推测解码”技术。AMD-Llama-135m 是一个基于 LLaMA2 模型架构的语言模型,使用 AMD MI250 GPU 进行训练。该模型可以通过 Hugging Face 的 transformers 库加载,并使用与 LLaMA2 相同的分词器。它可以作为 LLaMA2 和 CodeLlama 的推测解码草稿模型。

☆一键收藏:

https://sota.jiqizhixin.com/project/amd


🛠️框架平台、必备工具

①项目:Phidias

Phidias 是一种新颖的生成模型,利用扩散技术进行参考增强的3D生成。该方法通过检索或用户提供的3D参考模型来引导生成过程,从而提高生成质量、泛化能力和可控性。模型集成了三个关键组件:动态调节条件强度的meta-ControlNet、缓解输入图像与3D参考之间不对齐的动态参考路由,以及通过渐进课程进行自监督训练的自参考增强。这些设计共同显著提升了现有方法的效果,建立了一个使用文本、图像和3D条件进行3D生成的统一框架,具有多种应用。

☆一键收藏:

https://sota.jiqizhixin.com/project/phidias


②项目:GemFilter

GemFilter 是一个基于 PyTorch 的实现,旨在通过使用长上下文语言模型的早期层作为filter来选择和压缩输入tokens,从而显著减少后续处理的上下文长度。该项目提出了一种算法,可以将输入token减少 1000 倍,从而加速长上下文 LLM 的处理。

☆一键收藏:

https://sota.jiqizhixin.com/project/gemfilter


③项目:MaskLLM

MaskLLM作为一种可学习的稀疏性方法,旨在通过学习掩码来优化稀疏性选择,进而提高LLM在不同任务中的表现。通过Gumbel-Softmax采样技术,将掩码选择问题转化为一个可微分的学习过程,从而能够在大规模数据集上进行端到端训练。该方法不仅能够有效地减小模型的内存占用,还能在不显著降低性能的情况下实现快速推理。

☆一键收藏:

https://sota.jiqizhixin.com/project/maskllm


④项目:FineZip

FineZip 是一种使用大语言模型(LLMs)进行无损文本压缩的新方法。基于之前的工作如 LLMZip,FineZip 通过集成在线记忆和动态上下文大小技术,推动了文本压缩的边界。FineZip 的压缩速度比 LLMZip 快 54 倍,且压缩性能仅有轻微损失。FineZip 还通过批量编码和解码改进了 LLMZip 的算术编码方法。

☆一键收藏:

https://sota.jiqizhixin.com/project/finezip

👋网页端访问:https://sota.jiqizhixin.com

欢迎扫码加入社群
交流LLM推理与微调、Agent/RAG应用构建开发经验


机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章