论文标题:TableGPT2: A Large Multimodal Model with Tabular Data Integration
论文地址:https://arxiv.org/pdf/2411.02059
TableGPT 智能体:https://github.com/tablegpt/tablegpt-agent
Hugging Face:https://huggingface.co/tablegpt/TableGPT2-7B
TableGPT2 是一个专为数据密集型任务设计的大规模解码器,旨在解释和分析表格数据。该模型旨在弥合传统大型语言模型能力与实际表格/结构化数据任务需求之间的差距,适用于商业智能、自动化数据驱动分析以及涉及数据库或数据仓库的应用任务。
该团队还初步探索了表格数据的多模态对齐。
具体来说,TableGPT2 创新性地加入了一个单独的模态模块,专门用于读取和解释表格数据。
类似于视觉 - 语言模型(VLM),TableGPT2 包含一个表格数据读取模块,其作用是生成与来自文本输入的 token 嵌入相连接的专用嵌入。
这个新增模块可让 TableGPT2 更好地捕获表格数据的结构和语义,从而在复杂的商业智能场景中实现更准确的表格理解。
如下图 1 描绘了 TableGPT2 的整体模型框架。
TableGPT2 有两种配置:7B 和 72B 版本。它们全都基于 Qwen2.5 系列模型。
最近,英伟达发布了新的视觉压缩工具——Cosmos Tokenizer,它能帮助我们在保持图像和视频高质量效果的同时实现显著的压缩率。
GitHub: https://github.com/NVIDIA/Cosmos-Tokenizer
Cosmos Tokenizer 是一套用于图像和视频的神经 Tokenizer,旨在推进视觉token的技术前沿。
该项目支持大规模、稳健和高效的自动回归 transformer(如大型语言模型)或扩散生成器的开发。
项目提供了不同 tokenizer 的推理代码和预训练模型,能够实现高达 2048 倍的总压缩率,同时保持较高的图像质量,并比现有的最先进方法快 12 倍。
论文链接:https://arxiv.org/pdf/2411.02337
Github 地址:https://github.com/THUDM/WebRL
清华、智谱的研究团队推出了自进化在线课程强化学习框架 WebRL,旨在训练高性能 Web Agent,特别是针对 WebArena 环境。
WebRL 解决了构建 LLM Web Agent 的三个关键挑战:训练任务稀缺、反馈信号稀少以及在线学习中的策略分布漂移。
具体来说,WebRL 包含:
1)从不成功的尝试中生成新任务的自进化课程;
2)鲁棒的结果监督奖励模型(ORM);
3)确保持续改进的自适应强化学习策略。
应用 WebRL 将开源 Llama-3.1 和 GLM-4 模型转化为熟练的 Web Agent。在 WebArena-Lite 上,WebRL 将 Llama-3.1-8B 的成功率从 4.8% 提高到 42.4%,将 GLM-4-9B 的成功率从 6.1% 提高到 43%。