最强表格AI问世,浙大开源 TableGPT2!

文摘   2024-11-10 18:50   广东  
01
最强表格AI:浙大 TableGPT2 开源了!

  • 论文标题:TableGPT2: A Large Multimodal Model with Tabular Data Integration

  • 论文地址:https://arxiv.org/pdf/2411.02059

  • TableGPT 智能体:https://github.com/tablegpt/tablegpt-agent

  • Hugging Face:https://huggingface.co/tablegpt/TableGPT2-7B

TableGPT2 是一个专为数据密集型任务设计的大规模解码器,旨在解释和分析表格数据。该模型旨在弥合传统大型语言模型能力与实际表格/结构化数据任务需求之间的差距,适用于商业智能、自动化数据驱动分析以及涉及数据库或数据仓库的应用任务。

该团队还初步探索了表格数据的多模态对齐。

具体来说,TableGPT2 创新性地加入了一个单独的模态模块,专门用于读取和解释表格数据。

类似于视觉 - 语言模型(VLM),TableGPT2 包含一个表格数据读取模块,其作用是生成与来自文本输入的 token 嵌入相连接的专用嵌入。

这个新增模块可让 TableGPT2 更好地捕获表格数据的结构和语义,从而在复杂的商业智能场景中实现更准确的表格理解。

如下图 1 描绘了 TableGPT2 的整体模型框架。

TableGPT2 有两种配置:7B 和 72B 版本。它们全都基于 Qwen2.5 系列模型。

下表 5 展示了 TableGPT2 (7B 和 72B 版本)与最先进基线模型的比较结果。值得注意的是,在没有对任何特定基准训练集进行大量训练的情况下,TableGPT2 显著优于几乎所有其他 LLM 方法。并且在某些基准上,TableGPT2 能够媲美甚至优于 GPT-4o


02
英伟达发布新的视觉压缩工具:Cosmos Tokenizer

最近,英伟达发布了新的视觉压缩工具——Cosmos Tokenizer,它能帮助我们在保持图像和视频高质量效果的同时实现显著的压缩率。

  • GitHub: https://github.com/NVIDIA/Cosmos-Tokenizer

Cosmos Tokenizer 是一套用于图像和视频的神经 Tokenizer,旨在推进视觉token的技术前沿。

该项目支持大规模、稳健和高效的自动回归 transformer(如大型语言模型)或扩散生成器的开发。

项目提供了不同 tokenizer 的推理代码和预训练模型,能够实现高达 2048 倍的总压缩率,同时保持较高的图像质量,并比现有的最先进方法快 12 倍

这款工具的特点在于它采用了统一的架构来处理图像和视频,而且支持连续型和离散型多种压缩方式。与现有技术相比,它的处理速度上提升了 2-12 倍,同时还保持了更小的模型体积

在实际测试中,Cosmos Tokenizer 能够处理长达 8-10 秒的 1080p 高清视频,在各项基准测试中都优于现有方案。而且在视频质量评估上,它比现有技术提升了 4 分贝的峰值信噪比(PSNR),可以生成更清晰的画面效果。

03
清华、智谱团队推出自进化在线课程强化学习框架 WebRL

  • 论文链接:https://arxiv.org/pdf/2411.02337

  • Github 地址:https://github.com/THUDM/WebRL

清华、智谱的研究团队推出了自进化在线课程强化学习框架 WebRL,旨在训练高性能 Web Agent,特别是针对 WebArena 环境。

该项目采用了强化学习技术,结合了自动化的课程学习策略,以提高Web智能体的性能和适应性。WebRL 提供了多种模型检查点和训练脚本,支持用户自定义训练和评估。

WebRL 解决了构建 LLM Web Agent 的三个关键挑战:训练任务稀缺、反馈信号稀少以及在线学习中的策略分布漂移。

具体来说,WebRL 包含:

  • 1)从不成功的尝试中生成新任务的自进化课程;

  • 2)鲁棒的结果监督奖励模型(ORM);

  • 3)确保持续改进的自适应强化学习策略。

应用 WebRL 将开源 Llama-3.1 和 GLM-4 模型转化为熟练的 Web Agent。在 WebArena-Lite 上,WebRLLlama-3.1-8B 的成功率从 4.8% 提高到 42.4%,将 GLM-4-9B 的成功率从 6.1% 提高到 43%

这些开源模型的性能大大超过了 GPT-4-Turbo(17.6%)和 GPT-4o(13.9%),也超过了之前在开源 LLM 上训练的 SOTA Web Agent(AutoWebGLM,18.2%)

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章