🏆 基座模型
①项目:H2O Danube3
★H2O-Danube3 是一系列小型语言模型,包括 H2O-Danube3-4B 和 H2O-Danube3-500M,分别在 6T 和 4T tokens上进行训练。模型在高质量的网络数据上进行预训练,主要包含英文tokens,经过三个阶段的数据混合处理,最终进行监督微调以适应聊天版本。由于其紧凑的架构,H2O-Danube3 可以在现代智能手机上高效运行,实现本地推理和快速处理能力,即使在移动设备上也能表现出色。
☆一键收藏:
https://sota.jiqizhixin.com/project/h2o-danube3
②项目:MotionClone
★MotionClone 是一个无需训练的框架,能够从参考视频中克隆动作以控制文本到视频的生成。通过在视频反演中使用时序注意力来表示参考视频中的动作,并引入主要时序注意力指导以减轻注意力权重中噪声或非常微小动作的影响。此外,为了帮助生成模型合成合理的空间关系并增强其提示跟随能力,提出了一种位置感知语义指导机制,利用参考视频中的前景粗略位置和原始无分类器指导特征来指导视频生成。
☆一键收藏:
https://sota.jiqizhixin.com/project/motionclone
🛠️框架平台、必备工具
①项目:Cradle
★Cradle是昆仑万维联合北京智源等开源的AI框架,不仅能玩多种商业游戏,还能操作各种软件应用。在这个全新的通用计算机控制框架加持下,AI Agent无需训练便能像人一样直接控制键盘鼠标,不依赖任何内部API,实现任意开闭源软件交互。通过在标准化的通用环境中提供强大的推理能力、自我改进和技能管理,支持Agent完成任何计算任务,且对环境要求极低。
☆一键收藏:
https://sota.jiqizhixin.com/project/cradle
②项目:LLM Graph Builder
★LLM Graph Builder是Neo4j开源的基于LLM提取知识图谱的生成器,可以把非结构化数据,PDF、文档、文本、YouTube视频、网页等转换成存储在 Neo4j 中的知识图谱。LLM Graph Builder利用大模型OpenAI、Gemini 、Llama3、Diffbot、Claude、Qwen等从非结构化数据中提取节点、关系及其属性(可自定义要提取的关系、节点)。
☆一键收藏:
https://sota.jiqizhixin.com/project/llm-graph-builder
③项目:mllm
★mllm 是一个快速轻量的多模态大语言模型推理引擎,专为移动和边缘设备设计。它采用纯 C/C++ 实现,无需依赖项,支持 ARM NEON 和 x86 AVX2,并提供 4 位和 6 位整数量化。mllm 能在设备端实现智能个人助手、基于文本的图像检索和屏幕视觉问答等功能,保障数据隐私。
☆一键收藏:
https://sota.jiqizhixin.com/project/mllm
④项目:Embodied AI Paper List
★Embodied AI Paper List 是一个关于 Embodied AI 的优秀论文列表和综述资源。该项目由中山大学 HCPLab 团队维护,旨在汇总和分享最新的 Embodied AI 研究成果和资源。项目包括多个子领域的论文和书籍,如多模态大模型、视觉语言动作模型、通用机器人学习等,帮助研究人员快速了解和跟进该领域的前沿进展。
☆一键收藏:
https://sota.jiqizhixin.com/project/embodied-ai-paper-list
🛠️Robotics开发
①项目:embodied-CoT
★Embodied Chain of Thought (ECoT) 是一种新颖的训练机器人策略的方法。该方法通过视觉-语言-动作模型在响应指令和图像时生成推理步骤,然后选择机器人动作,从而实现更好的性能、可解释性和泛化能力。项目代码基于 OpenVLA 构建,提供了详细的代码和依赖项文档。
☆一键收藏:
https://sota.jiqizhixin.com/project/embodied-cot
👋网页端访问:https://sota.jiqizhixin.com