SpreadsheetLLM：微软对Excel编码的“摊膀伏”

文摘科技 2024-07-17 08:40 上海

文｜庞德公

编辑｜郭嘉

--->更多内容，请移步“鲁班秘笈”！！<---

SpreadsheetLLM

Excel的特点是二维数据格式、灵活的布局和多样化的格式选项。微软最近引入了SpreadsheetLLM，开创了一种高效的编码方法，用于释放和优化LLMs在电子表格上的强大理解和推理能力。最初研究人员提出一种包含单元格地址、值和格式的普通序列化方法。但是这种方法受到LLMs 上下文长度的约束，为此微软推出了SheetCompressor（下图绿色部分），它是一种创新的编码框架，可以有效地压缩电子表格。

左边为文档输入，经过SheetCompressor的压缩编码，之后将编码输入到现有的大模型，进而加深大模型对电子表格的深入理解，最后利用chain of Spreadsheet完成下游任务。

SSLLM最终在GPT4的上下文学习中比普通方法高出25.6%。此外，利用SheetCompressor进行微调的平均压缩比为25×，却达到了最先进的 78.9%F1 分数，比目前的优等生高出12.3%。

最后研究人员还提出了电子表格链，用于电子表格理解的下游任务，事实证明SpreadsheetLLM在各种电子表格任务中非常有效。

SheetCompressor

SheetCompressor是这次研究的灵魂，本文重点来看看它的实现模式。它主要由三个模块组成：基于结构锚点的压缩、逆索引转换和数据格式感知聚合。

首先在在整个电子表格中放置“结构锚点”，以帮助LLM更好地了解正在发生什么。

然后，删除“遥远的、均匀的行和列”，以生成电子表格的压缩“骨架”版本，如上图所示。

索引转换解决了由具有大量空单元格和重复值的电子表格引起的挑战。“为了提高效率，SheetCompressor摆脱了传统的逐行和逐列序列化，采用JSON格式的无损倒排索引翻译，” 研究人员表示 “这种方法创建了一个字典，该字典为非空单元格文本编制索引，并将具有相同文本的地址合并，在保证数据完整性的同时且优化Token长度。”

<输入Token的长度很重要，因为这些经过编码的Token下一步就会被送到各种大模型学习，而大模型对于输入Token是有限制的！>

认识到精确的数值对于掌握电子表格结构不太重要，研究人员从这些单元格中提取数字格式字符串和数据类型。

然后具有相同格式或类型的相邻单元格聚集在一起，进而简化对数值数据分布的理解，而不会浪费Token长度。

通过上面三种办法的叠加组合，SheetCompressor显着减少了96%的电子表格的Enbedding Token。在文中的一个示例中，电子表格由576行和23列组成，原始编码为61,240个标记。按照新的技术首先使用结构锚提取单元格，将它们重新排列成一个较小的24×8工作表。随后执行索引反转，删除空单元格。最后根据数据格式聚合单元格，实现电子表格的极其紧凑的表示，其中仅包含708个标记！

上表为三个组件在测试数据集上面的各种组合压缩比率清单，第一列为没有运用任何手段，所以压缩比率为1（原始的Token长度/压缩的Token长度）。可以观察到三种方法组合可以达到24.79的压缩比例。

性能对比

为了评估SpreadsheetLLM的性能，研究人员选择了TableSense-CNN作为基线，因为之前在电子表格检测任务中证明了有效性。本次采用F1分数作为主要指标来评估和比较不同模型的性能，它平衡了精确度和召回率，提供了模型准确性的整体视图。

微调后GPT4模型在所有数据集上获得了约 76%的F1分数，而利用本文涉及的不带聚合编码的方法在所有数据集上获得了约79%的F1分数。

这标志着与在原始数据上微调的相同模型相比提高了27%，比 TableSense-CNN提高了13%，并成为新的王（SOTA）。整个编码方法在可容忍的范围内略微降低了F1分数，但取得了良好的压缩结果。

此外基于本文的压缩方法，Llama3的分数加了25%，Phi3增加了36%，Llama2增加了38%，Mistral-v2增加了18%。这些结果突显了编码方法显著增强了性能，也就是说它改善了上下文学习（In-Context Learning）。同时还节省了大量的成本，这种方法的成本几乎与输入Token成正比，根据ICL中GPT4和GPT3.5-turbo型号的价格，在测试集中降低了96%的成本。

鲁班号导读火热上线!!

------>敬请移步“鲁班秘笈”！<------

http://mp.weixin.qq.com/s?__biz=MzkzNDM4MDQyMg==&mid=2247486613&idx=1&sn=07b858661b00bf82140c14c633b36d21

鲁班模锤

基于开源技术生态，跟踪与普及人工智能、隐私计算、区块链以及数据空间的最新技术。着力于数据治理自动化，依托语料库构建数据可信流通方案，为所有企业提供平等的数据增益服务。

最新文章

神经网络与2024诺贝尔物理奖

利用语料来透析（“哲学思考”） “数字孪生” 上

WordLlama：在消费级GPU上奔跑的“瘦子”

AI新思考：“浴火重生”的草莓模型

Apple发布iPhone16和Apple Intelligence

突发：Runway删库跑路，备受瞩目的Stable Diffusion v1.5不见了！

优雅谈大模型：白话ZeRO 下

Jamba前生今世：1.5开源来袭

AI架构系列：去其形而留其意

ViT篇外：NVIDIA Llama-3.1-Minitron 4B

FlashAttention3：再次深度挖掘硬件潜力

Grok 2携AI图片生成重生

TorchChat：Ollama的潜在对手

优雅谈大模型：Python编程篇

AIGC中数据治理的“科林格里奇困境”

泡沫还是机遇？复盘18个月的AI装备竞赛

三个臭皮匠与一个诸葛亮：覆盖率与正确率的博弈

NiFi ：1 初识这把“十年一剑”的利器

Flux：Midjourney的新图像模型挑战者

Apple在Swift中引入同态加密

Meta再下一城：SAM 2

“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学”

新版PyTorch：AI任务加速与Intel GPU集成

优雅谈大模型：白话ZeRO 上

Llama 3.1和xAI的超集群加速AI军备竞赛

LLama3.1 405B即将来袭：开源首次超越GPT-4o

优雅谈大模型：“System2”与“System 1”

本周当之无愧：小模型周

百万专家小专家：“N个小皮匠”？！

SpreadsheetLLM：微软对Excel编码的“摊膀伏”

LLM基础模型系列：Prefix-Tuning

FlashAttention3：“苗条”的就是比较好！

数据跨境法案：美国篇下

MobileLLM：“苗条”的模型比较好！

白话无人驾驶：2 运动规划

白话无人驾驶：1风暴来袭

优雅谈大模型：白话向量数据库

RWKV: 与Transformer和Mamba掰掰手腕的小家碧玉

LLM基础模型系列：Prompt-Tuning

LLM基础模型系列：Fine-Tuning总览

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉