🏆 基座模型
①项目:智源Emu3
★Emu3是一套最新的多模态模型,仅通过下一个token预测进行训练,能够实现高质量图像生成、准确的图文理解和流畅的视频创作。它在生成和感知任务上超越了多个特定任务的旗舰模型,并且不需要扩散或组合架构。Emu3通过将多模态序列统一到一个单一的transformer模型中,简化了复杂的多模态模型设计,展示了在训练和推理过程中扩展的巨大潜力。
☆一键收藏:
https://sota.jiqizhixin.com/project/emu3
②项目:AMD-135M
★AMD 发布了其首个小型语言模型 AMD-135M,采用了“推测解码”技术。AMD-Llama-135m 是一个基于 LLaMA2 模型架构的语言模型,使用 AMD MI250 GPU 进行训练。该模型可以通过 Hugging Face 的 transformers 库加载,并使用与 LLaMA2 相同的分词器。它可以作为 LLaMA2 和 CodeLlama 的推测解码草稿模型。
☆一键收藏:
https://sota.jiqizhixin.com/project/amd
🛠️框架平台、必备工具
①项目:Phidias
★Phidias 是一种新颖的生成模型,利用扩散技术进行参考增强的3D生成。该方法通过检索或用户提供的3D参考模型来引导生成过程,从而提高生成质量、泛化能力和可控性。模型集成了三个关键组件:动态调节条件强度的meta-ControlNet、缓解输入图像与3D参考之间不对齐的动态参考路由,以及通过渐进课程进行自监督训练的自参考增强。这些设计共同显著提升了现有方法的效果,建立了一个使用文本、图像和3D条件进行3D生成的统一框架,具有多种应用。
☆一键收藏:
https://sota.jiqizhixin.com/project/phidias
②项目:GemFilter
★GemFilter 是一个基于 PyTorch 的实现,旨在通过使用长上下文语言模型的早期层作为filter来选择和压缩输入tokens,从而显著减少后续处理的上下文长度。该项目提出了一种算法,可以将输入token减少 1000 倍,从而加速长上下文 LLM 的处理。
☆一键收藏:
https://sota.jiqizhixin.com/project/gemfilter
③项目:MaskLLM
★MaskLLM作为一种可学习的稀疏性方法,旨在通过学习掩码来优化稀疏性选择,进而提高LLM在不同任务中的表现。通过Gumbel-Softmax采样技术,将掩码选择问题转化为一个可微分的学习过程,从而能够在大规模数据集上进行端到端训练。该方法不仅能够有效地减小模型的内存占用,还能在不显著降低性能的情况下实现快速推理。
☆一键收藏:
https://sota.jiqizhixin.com/project/maskllm
④项目:FineZip
★FineZip 是一种使用大语言模型(LLMs)进行无损文本压缩的新方法。基于之前的工作如 LLMZip,FineZip 通过集成在线记忆和动态上下文大小技术,推动了文本压缩的边界。FineZip 的压缩速度比 LLMZip 快 54 倍,且压缩性能仅有轻微损失。FineZip 还通过批量编码和解码改进了 LLMZip 的算术编码方法。
☆一键收藏:
https://sota.jiqizhixin.com/project/finezip
👋网页端访问:https://sota.jiqizhixin.com