当结构化数据也变成一个模态,哪家的大语言模型能脱颖而出呢?
论文标题:TableGPT2: A Large Multimodal Model with Tabular Data Integration 论文地址:https://arxiv.org/pdf/2411.02059 TableGPT 智能体:https://github.com/tablegpt/tablegpt-agent Hugging Face:https://huggingface.co/tablegpt/TableGPT2-7B
首先,使用一组基于规则的过滤器,包括使用 Python 和 SQL 执行器检查代码的可执行性和正确性,从而消除常见错误(例如键错误和类型转换问题)。此外,还会使用正则表达式和其他规则来丢弃异常输出。 然后,使用多个模型(如 GPT-4o)对过滤后的数据进行评分;这里使用的提示词是专门设计的,可以保证得到更为细致的评估。只要当样本在所有评分组合上都超过阈值时,该样本才会被保留下来。 之后,通过人工检查进行样本校准。如果样本准确率低于 95%,就重新审查并优化其数据生成和过滤脚本。 最后,执行评估,这会用到一个包含约 94.9K 个案例(包括现有案例和新构建的案例)的固定验证集,如此可确保生成的结果是可执行且准确的。同时还会执行进一步的手动验证来抽查任何不一致之处并检测潜在的数据问题,例如缺少函数调用或多轮对话能力较差。
在查询内引入字段时进行模糊化处理 通过匿名化字段名和类别值来实现表格数据增强 通过结合单轮和多轮问答任务来增强模型的多功能性 使用变动的提示词格式和输出结构来降低 TableGPT2 对某些提示词模板的敏感度 在数据生成过程中应用后处理增强来提升训练数据的多样性
运行时间的提示词工程 一个安全的代码沙箱 一个智能体评估模块
表格理解 表格问答(TableQA) 表格事实验证 表格到文本生成(Table2Text) 自然语言到 SQL(NL2SQL) 整体评估
模糊性,表格中潜在的形似「A1」、「A2」等难以确认实际含义的匿名字段会对自动分析构成很大的挑战;
不规则性,在生产环境中,表格数据通过包含普遍的合并操作和不规则的结构,比如合并单元格和非均匀布局。
项目地址:https://github.com/tablegpt/tablegpt-agent/tree/main/realtabbench