金磊 发自 凹非寺
量子位 | 公众号 QbitAI
大模型理解、推理Excel,现在变得更加精准了。
这就是来自微软的一项最新研究——SPREADSHEETLLM,主打的就是让大模型有条不紊地处理各种电子表格任务。
例如在下面这张图中,如果用传统的大模型方法,会直接忽略掉“R5:R14”这列数据。
然而,这一列数据其实是与左侧单元格有着较强的语义关系,表示这些值在左侧单元格中的百分比。
现在有了SPREADSHEETLLM,这种有难度的推理任务已经是可以轻松应对了。
再如当Excel表格里存在结构稀疏或者有大量空格单元的时候,大模型在识别任务上也会出错,最终导致结果的错误。
而SPREADSHEETLLM就能让大模型更加精准地“看清”Excel——
可以识别并保留表格的关键结构信息,同时去除多余的空单元格和行。
这项研究目前已经引来了不少网友们的围观,有人认为它将对那些跟数据打交道的打工人造成不小的冲击。
我们先来了解一下传统大模型在处理Excel等电子表格任务时存在的问题。
首要面对的是token数量的局限性。
在业界内广为人知的是,众多大规模预训练模型在执行任务时会遭遇token额度不足的情况;而电子表格,因其富含密集的二维矩阵与错综复杂的架构,尤其容易触及这一上限。
传统上,电子表格被转化为HTML或XML等格式,这些编码方式因需频繁嵌入标记以描述数据组织形式,从而加剧了对token资源的消耗。
尽管Markdown提供了一种较为经济的编码选择,减少了token的使用,但其缺失对于单元格坐标的精确标识,这在定位具体单元格时可能引发误差。
此外,尚有结构锚点辨识的难题。
在尚未开发出有效手段识别电子表格中作为结构基准的行与列边界前,即使GPT-4这样的先进模型亦难以解析电子表格的排布与构造。
为了克服以上挑战,微软的研究团队构想并推出了一项名为SheetCompressor的编码体系,该体系由三大核心组件构成:
结构锚点压缩(structural-anchor-based compression),旨在精简标记结构;
反向索引转换(inverse index translation),用于优化单元格的定位精度;
数据格式感知聚合(data-format-aware aggregation),确保不同数据类型的高效处理与整合。
结构锚点压缩的目标在于鉴别电子表格内的结构锚点,具体指的是位于表格边缘的那些特性不一的行与列。
此过程着重于甄别并抽取出这些关键的结构锚点,随后剔除距离锚点较远的同质化行和列,由此构建出一个简化版本的“框架”式电子表格。
这一策略在显著降低所需处理数据规模的同时,确保了对于解析表格架构而言必不可少的信息得以保全。
反向索引转换旨在提升tokens的利用效能,这一点在应对含有众多空白单元与重复数据项的电子表格时尤为显著。
它摒弃了常规的按照行列顺序进行的序列化技术,转而采纳一种基于无损JSON格式的逆向索引映射方案。
此法的核心是构建一个字典结构,其中非空单元格的内容被视作键值,所有含有相同文本的单元格位置则被整合在一起,这样一来,在增进tokens运用效率的同时,也确保了原始数据的完整无缺。
数据格式感知聚合的设计意图在于优化对数值型单元格的认知过程,鉴于邻近的数值单元格往往共享相近的数字格式特点。
这一机制首先捕捉单元格的数字格式表述及其数据种类,随后将那些格式或类型相匹配的邻接单元格归集为群组。
借由此种途径,矩形区块内的数据便能以一致的格式字符串及数据类别加以概括,此举不仅促进了对数值信息布局的解读,同时也大幅度节减了所需的tokens消耗。
在实验结果来看,SheetCompressor将tokens使用量减少了96%,并且与原始数据上微调的相同模型相比,性能提高了27%,在表格检测任务上的F1分数达到了约79%。
除了上述内容,微软的研究团队还开发了一个名为Chain of Spreadsheet(CoS)的架构。
该架构旨在增强SPREADSHEETLLM的功能性,尤其着重于提升其处理电子表格下游任务的能力。
CoS的首要步骤是识别出与特定作业请求关联的电子表格,并精确定义这些内容的范围;这样做能够确保在后续分析中仅涉及相关数据,从而提升处理效率并保持聚焦。
一旦相关表格被确认,接下来的任务就是形成对询问的精准反馈。
通过将整个流程拆解成易于掌控的环节,CoS能够妥善应对复杂的电子表格挑战,进而产生既精确又具备情境意识的回应。
就成效而言,采用CoS方法明显提升了大型模型在问答任务中的精确度。
举例来说,相较于基准GPT-4模型,运用CoS技术的准确率增幅达到了22%。
此外,模型经过微调,在电子表格检测任务中的表现同样验证了CoS方案的广泛适用性,具体体现在问答任务的准确率上提升了6%。
综上所述,大型模型如今在处理诸如Excel之类的电子表格时,其效能确实展现出了显著的提升。
关于互联网持续学习圈