AI4S Cup LLM系列场景挑战赛
教育
科技
2024-09-09 18:00
湖北
阅读今日所有推文,汇聚好运召唤神龙
Fighting,小侠客们好呀,今天的侠客主题是AI4S Cup LLM系列场景挑战赛。AI4S Cup 系列比赛是由北京科学智能研究院(AISI)主办的 AI for Science(AI4S)领域的重要赛事。通过真实的科学场景和数据,以比赛的形式促进选手们的交流与碰撞,继而推动 AI4S 的发展。AI4S Cup 大模型系列挑战赛致力于推动大语言模型在科学研究中的实际应用,打破传统科学文献分析与多模态数据处理的技术壁垒。通过这些挑战赛,我们希望为科研工作者和开发者提供一个交流和展示的平台,共同探索大模型在科学领域的无限可能。当前的赛题不仅涵盖科学文献分析、多模态表格理解、知识图谱提取等前沿领域,未来我们还将推出更多覆盖广泛科学应用场景的比赛。通过这些实际问题的解决,推动大语言模型技术在科研中的创新应用。期待大家持续关注,与我们一起站在技术创新的前沿,共同探索大模型的更多可能!【赛题背景】AI4S Cup - 超声CT成像中的波速重建这一赛题关注深度学习技术加速反演过程关。选手需训练神经网络来直接模拟反演过程,通过波场观测数据直接推理出被观测物体的波速分布,从而实现快速、准确的超声 CT 图像重建,共建 AI for Science 生态。本次比赛奖金由 AISI 赞助,总奖金 80,000 元。第一名队伍奖金 30,000 元。【赛题介绍】超声CT是一项新兴的高分辨率临床成像技术,具有低成本、无辐射等优点。然而,超声CT中的影像重建需要进行全波形反演(FWI),全波形反演需要反复求解Helmholtz方程,计算耗时长、算法复杂度高。传统数值方法低下的计算效率,成为超声CT临床应用的主要瓶颈。近年来,深度学习技术的突破为解决这一问题提供了新的思路。与传统的数值重建方法相比,神经网络能将复杂的求解过程简化为一个直接的映射关系进行学习,在加速求解的同时保持结果的准确度。“AI4S Cup - 超声CT成像中的声场预测”比赛中,选手基于赛题组提供的超声CT数据集,训练神经算子求解 Helmholtz方程,即根据被观测的物体的波速分布和波源信息,推断得到空间中的波场分布,在加速计算的同时保证计算结果的高精确度。
而在本次赛题中,选手将基于赛题组提供的超声CT数据集,训练神经网络来直接模拟反演过程。希望模型能够从给出的波场观测数据直接推理出被观测物体的波速分布,从而实现快速、准确的超声CT图像重建。通过参与本次比赛,选手将进一步掌握利用深度学习技术加速反演过程的方法,共建AI for Science生态。
【数据集】本次赛题将提供 baseline 训练样本、代码、模型和目标评测算例。要求选手自主进行采样、模型设计、训练、推理部署,最终用于USCT逆向模拟算例,根据不同传感器位置的波场观测数据预测被观测物体的波速分布。本次选手训练模型的数据集加载在数据集 USCT-Train 中,包含以下内容:
训练数据的输入部分包含 3 个频段的 7200 组不同乳腺的波场观测数据。每组数据是由圆周上 256 个等角度间隔的发射器(波源)发射波后,在所有接收器处接收的波场数据(各个发射器同时作为接收器)。将这些数据存储在 ./dobs_ 300k_train/,./dobs_400k_train/,./dobs_500k_train/文件夹中,文件名格式为 train_1.npy 至 train_7200.npy 。每个文件包含一个 256 x 256 的复观测波场矩阵,其中 dobs[i,j] 表示第 j 个发射源发射的波由第 i 个接收源接收的观测结果。
还提供这 256 个发射(接收)器的真实坐标,将这些数据储存在 x_pos.mat 和 y_pos.mat 中,文件包含 256 个发射(接收)器对应的横/纵坐标。训练数据的输出部分为 3 个频段的 7200 组对应的乳腺波速数据,每组波速数据的分辨率为 480 x 480。将这些数据存储在数据集的./speed/train文件夹中,文件名格式为 train_1.npy 至 train_7200.npy,每个文件包含一个 480 x 480 的实数波速矩阵(在该次比赛中,关注的被观测物体波速位于波速矩阵的中央,因此只关注波速矩阵中[90-390,90-390]位置的波速数据的预测准确程度)。
提供一个mask.npy作为进行近场屏蔽的参考,该文件包含一个 256*256 的 0/1 矩阵,可以对输入的波场观测数据进行预处理。(近场屏蔽是处理波场观测数据时的一种方法——对离发射波的发射器过近的接收器接收到的信号进行屏蔽(置为 0 ),该方法在训练神经网络时可能有效。)
train.py 为选手进行模型训练的代码;
model.pt 为选手训练出的模型权重文件;
inference.py 为选手进行模型推理的代码。
选手推理代码应该实现定义模型,加载权重文件以及提供推理接口,我们在数据集中提供了示例。评分程序将调用推理接口在测试数据集中计算。【赛题背景】AI4S Cup - LLM挑战赛 - 多模态表格识别与理解旨在推动多模态技术的发展,提升对复杂科学模态数据的解析和处理能力。本轮挑战赛以科学文献中常见的表格模态为切入点,参赛者需要设计并实现算法,准确识别和理解科学文献中的多模态表格信息。通过这一赛事,我们希望激发创新思维,促进跨领域的合作和技术进步,最终多模态表格识别与理解任务的进一步发展。本次比赛采用封闭环境进行测评,评测的数据格式已经在报名主页中进行了详细介绍。本次比赛由北京科学智能研究院、深势科技共同赞助,总奖金80,000元。【赛题介绍】表格数据在科学出版物、财务报表、发票、网页和许多其他场景中是一种有效的结构化数据表示方式。从表格图像中提取表格数据并根据提取到的数据执行后续推理任务是具有挑战性的,主要原因是由于表格通常具有复杂的列和行表示,并包含复杂的合并单元格操作。为了推动学术界和工业界对多模态表格理解任务的研究,推出了最新的TableBench(Multi-modal Table Evaluation Benchmark)评测基准。基于此基准,“多模态表格识别与理解”挑战赛评估参赛模型对于多模态表格数据的识别和理解能力。此外,本次比赛采用封闭评测的方式,选手只能提交完整的模型文件与权重,在比赛方提供的封闭机器上进行评测。【数据集】提供一个大规模的多模态表格评测基准数据集——TableBench(Multi-modal Table Evaluation Benchmark)。TableBench数据集包含了从arXiv开源社区中提取到了5360张细粒度人工标注的表格数据,覆盖了8个大类学科和153个二级学科类别。这些数据为参赛者提供了丰富的测试资源,帮助他们开发和优化模型。输入图片形式的图表以及一个Question,判断模型是否可以正确作答,本次挑战赛将从以下三个方面来对模型进行评测:
Task A(任务1),Table种类判别:给定图片形式的表格和其对应的文字描述,判断该表格是自于哪个学科;
Task B(任务2),Table行列判断:给定图片形式的表格,判断表格有几行几列;
以上两个是基础视觉任务,同时我们还进行表格high-level理解类的问答任务Task C(任务3),Table理解问答:给定图片形式的表格和其对应的文字描述,进行理解类型问题的问答。
训练数据:比赛不提供训练数据,可使用[赛题介绍]中推荐的数据,及其他渠道获取的开源数据以及开源模型。
测试数据格式:
test_dataset_basedir
├── dataset.json(Task C 问题和候选项内容)
├── sample_submission.json(提交格式样例)
├── category.txt (Task A可填入的类别列表)
└── test_images (保存有测试集表格图像的文件夹)
├── {filenames}.png
└── ...
【赛题背景】AI4S Cup - LLM挑战赛 - 大模型科学文献分析聚焦于利用大语言模型进行科学文献的理解,实现多模态场景(例如文本、表格、图片、分子、反应式)下的信息提取和分析。选手自主设计算法进行科学文献的理解,并提交规定文件。本次比赛采用封闭环境进行测评,并使用与开源仓库SciAssess(https://github.com/sci-assess/SciAssess)一致的数据格式。本次比赛由北京深势科技有限公司赞助,总奖金80,000元。第一名队伍奖金30,000元。【赛题介绍】大语言模型(LLMs)在自然语言理解和生成领域取得了显著进展,引发了将其应用于科学文献分析的广泛兴趣。阅读科学文献是科研工作中必不可少的一步,然而由于其存在长文本与多模态(文本、表格、图片、分子、反应式)的特性,对于大模型而言存在极大的挑战性。为了推动AI技术应用于科学文献分析的发展,推出了最新的SciAssess评测基准。基于此基准测试,选取了其中的跨5个领域,5种模态的7个任务作为子集来评估本次比赛中模型在多样化的科学任务中的表现。本次比赛采用封闭测评的方式,选手只能提交完整的模型文件与权重,在比赛方提供的封闭机器上进行测评。
【数据集】SciAssess是专为全面评估LLMs在科学文献分析中表现而设计的基准测试。它涵盖了从基础科学到生物医药等多个科学领域的各种任务,主要评估LLMs在记忆(L1)、理解(L2)和分析推理(L3)方面的能力,并包括了文本、表格、图像、分子、反应式等多种模态,包括总计5个领域,29种任务,6种模态的14721条题目。以下是L1、L2和L3的详细描述。记忆能力(L1):测试模型在处理大量信息时的记忆和调用能力。
理解能力(L2):评估模型对文献内容的理解深度和准确性。
分析推理能力(L3):测试模型在复杂任务中的分析和推理能力,判断其对科学问题的解决能力。
本数据集具有一致的数据格式,以下是每个字段的含义:
以上就是AI4S Cup LLM系列场景挑战赛的所有内容了。感兴趣的小侠客可以在本文左下角点击"阅读原文",进入AI4S Cup比赛官网深度学习。今天的学习到此结束,我们下次再见咯~