AI4S Cup LLM系列场景挑战赛

教育科技 2024-09-09 18:00 湖北

点击“算法数据侠”，“星标”公众号

阅读今日所有推文，汇聚好运召唤神龙

Fighting，小侠客们好呀，今天的侠客主题是AI4S Cup LLM系列场景挑战赛。AI4S Cup 系列比赛是由北京科学智能研究院（AISI）主办的 AI for Science（AI4S）领域的重要赛事。通过真实的科学场景和数据，以比赛的形式促进选手们的交流与碰撞，继而推动 AI4S 的发展。

AI4S Cup 大模型系列挑战赛致力于推动大语言模型在科学研究中的实际应用，打破传统科学文献分析与多模态数据处理的技术壁垒。通过这些挑战赛，我们希望为科研工作者和开发者提供一个交流和展示的平台，共同探索大模型在科学领域的无限可能。当前的赛题不仅涵盖科学文献分析、多模态表格理解、知识图谱提取等前沿领域，未来我们还将推出更多覆盖广泛科学应用场景的比赛。通过这些实际问题的解决，推动大语言模型技术在科研中的创新应用。期待大家持续关注，与我们一起站在技术创新的前沿，共同探索大模型的更多可能！

—

超声CT成像中的波速重建

【赛题背景】AI4S Cup - 超声CT成像中的波速重建这一赛题关注深度学习技术加速反演过程关。选手需训练神经网络来直接模拟反演过程，通过波场观测数据直接推理出被观测物体的波速分布，从而实现快速、准确的超声 CT 图像重建，共建 AI for Science 生态。本次比赛奖金由 AISI 赞助，总奖金 80,000 元。第一名队伍奖金 30,000 元。

【应用领域】AI+超声CT成像中的波速重建

【赛题介绍】超声CT是一项新兴的高分辨率临床成像技术，具有低成本、无辐射等优点。然而，超声CT中的影像重建需要进行全波形反演(FWI),全波形反演需要反复求解Helmholtz方程，计算耗时长、算法复杂度高。传统数值方法低下的计算效率，成为超声CT临床应用的主要瓶颈。

近年来，深度学习技术的突破为解决这一问题提供了新的思路。与传统的数值重建方法相比，神经网络能将复杂的求解过程简化为一个直接的映射关系进行学习，在加速求解的同时保持结果的准确度。“AI4S Cup - 超声CT成像中的声场预测”比赛中，选手基于赛题组提供的超声CT数据集，训练神经算子求解 Helmholtz方程，即根据被观测的物体的波速分布和波源信息，推断得到空间中的波场分布，在加速计算的同时保证计算结果的高精确度。

而在本次赛题中，选手将基于赛题组提供的超声CT数据集，训练神经网络来直接模拟反演过程。希望模型能够从给出的波场观测数据直接推理出被观测物体的波速分布，从而实现快速、准确的超声CT图像重建。通过参与本次比赛，选手将进一步掌握利用深度学习技术加速反演过程的方法，共建AI for Science生态。

【数据集】本次赛题将提供 baseline 训练样本、代码、模型和目标评测算例。要求选手自主进行采样、模型设计、训练、推理部署，最终用于USCT逆向模拟算例，根据不同传感器位置的波场观测数据预测被观测物体的波速分布。

本次选手训练模型的数据集加载在数据集 USCT-Train 中，包含以下内容：

训练数据的输入部分包含 3 个频段的 7200 组不同乳腺的波场观测数据。每组数据是由圆周上 256 个等角度间隔的发射器（波源）发射波后，在所有接收器处接收的波场数据（各个发射器同时作为接收器）。将这些数据存储在 ./dobs_ 300k_train/,./dobs_400k_train/,./dobs_500k_train/文件夹中，文件名格式为 train_1.npy 至 train_7200.npy 。每个文件包含一个 256 x 256 的复观测波场矩阵，其中 dobs[i,j] 表示第 j 个发射源发射的波由第 i 个接收源接收的观测结果。

还提供这 256 个发射（接收）器的真实坐标，将这些数据储存在 x_pos.mat 和 y_pos.mat 中，文件包含 256 个发射（接收）器对应的横/纵坐标。训练数据的输出部分为 3 个频段的 7200 组对应的乳腺波速数据，每组波速数据的分辨率为 480 x 480。将这些数据存储在数据集的./speed/train文件夹中，文件名格式为 train_1.npy 至 train_7200.npy，每个文件包含一个 480 x 480 的实数波速矩阵（在该次比赛中，关注的被观测物体波速位于波速矩阵的中央，因此只关注波速矩阵中[90-390,90-390]位置的波速数据的预测准确程度）。

提供一个mask.npy作为进行近场屏蔽的参考，该文件包含一个 256*256 的 0/1 矩阵，可以对输入的波场观测数据进行预处理。（近场屏蔽是处理波场观测数据时的一种方法——对离发射波的发射器过近的接收器接收到的信号进行屏蔽（置为 0 ），该方法在训练神经网络时可能有效。）

train.py 为选手进行模型训练的代码；

model.pt 为选手训练出的模型权重文件；

inference.py 为选手进行模型推理的代码。

选手推理代码应该实现定义模型，加载权重文件以及提供推理接口，我们在数据集中提供了示例。评分程序将调用推理接口在测试数据集中计算。

—

多模态表格识别与理解

【赛题背景】AI4S Cup - LLM挑战赛 - 多模态表格识别与理解旨在推动多模态技术的发展，提升对复杂科学模态数据的解析和处理能力。本轮挑战赛以科学文献中常见的表格模态为切入点，参赛者需要设计并实现算法，准确识别和理解科学文献中的多模态表格信息。通过这一赛事，我们希望激发创新思维，促进跨领域的合作和技术进步，最终多模态表格识别与理解任务的进一步发展。本次比赛采用封闭环境进行测评，评测的数据格式已经在报名主页中进行了详细介绍。本次比赛由北京科学智能研究院、深势科技共同赞助，总奖金80,000元。

【应用领域】AI+多模态表格识别与理解

【赛题介绍】表格数据在科学出版物、财务报表、发票、网页和许多其他场景中是一种有效的结构化数据表示方式。从表格图像中提取表格数据并根据提取到的数据执行后续推理任务是具有挑战性的，主要原因是由于表格通常具有复杂的列和行表示，并包含复杂的合并单元格操作。为了推动学术界和工业界对多模态表格理解任务的研究，推出了最新的TableBench（Multi-modal Table Evaluation Benchmark）评测基准。基于此基准，“多模态表格识别与理解”挑战赛评估参赛模型对于多模态表格数据的识别和理解能力。此外，本次比赛采用封闭评测的方式，选手只能提交完整的模型文件与权重，在比赛方提供的封闭机器上进行评测。

【数据集】提供一个大规模的多模态表格评测基准数据集——TableBench（Multi-modal Table Evaluation Benchmark）。TableBench数据集包含了从arXiv开源社区中提取到了5360张细粒度人工标注的表格数据，覆盖了8个大类学科和153个二级学科类别。这些数据为参赛者提供了丰富的测试资源，帮助他们开发和优化模型。

输入图片形式的图表以及一个Question，判断模型是否可以正确作答，本次挑战赛将从以下三个方面来对模型进行评测：

Task A（任务1），Table种类判别：给定图片形式的表格和其对应的文字描述，判断该表格是自于哪个学科；

Task B（任务2），Table行列判断：给定图片形式的表格，判断表格有几行几列；

以上两个是基础视觉任务，同时我们还进行表格high-level理解类的问答任务Task C（任务3），Table理解问答：给定图片形式的表格和其对应的文字描述，进行理解类型问题的问答。

训练数据：比赛不提供训练数据，可使用[赛题介绍]中推荐的数据，及其他渠道获取的开源数据以及开源模型。

测试数据格式：

test_dataset_basedir

├── dataset.json（Task C 问题和候选项内容）

├── sample_submission.json（提交格式样例）

├── category.txt （Task A可填入的类别列表）

└── test_images （保存有测试集表格图像的文件夹）

├── {filenames}.png

└── ...

—

大模型科学文献分析

【赛题背景】AI4S Cup - LLM挑战赛 - 大模型科学文献分析聚焦于利用大语言模型进行科学文献的理解，实现多模态场景（例如文本、表格、图片、分子、反应式）下的信息提取和分析。选手自主设计算法进行科学文献的理解，并提交规定文件。本次比赛采用封闭环境进行测评，并使用与开源仓库SciAssess（https://github.com/sci-assess/SciAssess）一致的数据格式。本次比赛由北京深势科技有限公司赞助，总奖金80,000元。第一名队伍奖金30,000元。

【应用领域】AI+大模型科学文献分析

【赛题介绍】大语言模型（LLMs）在自然语言理解和生成领域取得了显著进展，引发了将其应用于科学文献分析的广泛兴趣。阅读科学文献是科研工作中必不可少的一步，然而由于其存在长文本与多模态（文本、表格、图片、分子、反应式）的特性，对于大模型而言存在极大的挑战性。

为了推动AI技术应用于科学文献分析的发展，推出了最新的SciAssess评测基准。基于此基准测试，选取了其中的跨5个领域，5种模态的7个任务作为子集来评估本次比赛中模型在多样化的科学任务中的表现。本次比赛采用封闭测评的方式，选手只能提交完整的模型文件与权重，在比赛方提供的封闭机器上进行测评。

【数据集】SciAssess是专为全面评估LLMs在科学文献分析中表现而设计的基准测试。它涵盖了从基础科学到生物医药等多个科学领域的各种任务，主要评估LLMs在记忆（L1）、理解（L2）和分析推理（L3）方面的能力,并包括了文本、表格、图像、分子、反应式等多种模态，包括总计5个领域，29种任务，6种模态的14721条题目。以下是L1、L2和L3的详细描述。

记忆能力（L1）：测试模型在处理大量信息时的记忆和调用能力。

理解能力（L2）：评估模型对文献内容的理解深度和准确性。

分析推理能力（L3）：测试模型在复杂任务中的分析和推理能力，判断其对科学问题的解决能力。

本数据集具有一致的数据格式，以下是每个字段的含义：

—

结束语

以上就是AI4S Cup LLM系列场景挑战赛的所有内容了。感兴趣的小侠客可以在本文左下角点击"阅读原文"，进入AI4S Cup比赛官网深度学习。今天的学习到此结束，我们下次再见咯~

http://mp.weixin.qq.com/s?__biz=MzIxNjE1Njg4OA==&mid=2247494594&idx=1&sn=a6e65fe2b7e2d6de901f554cf49f91dd

算法数据侠

Hi, 今日的你比昨日更优秀！算法数据侠致力于最全最优质的AI算法与数据集分享，不定期更新AI算法/数据集、竞赛TOP方案和前沿学术速递，期待各位小侠客共勉！

最新文章

LSTM又杀回来了！新架构登上Nature！

PyGWalker：将你的pandas dataframe变成交互式可视化分析工具

最强合集！99+时序预测/时空挖掘算法

TimeMOE: 使用稀疏模型实现更大更好的时间序列预测

校招 | 国家电网2025届校招

AI+论文idea来了！13个方向123篇研究+代码

2024 Time Series Paper S10（含源码）

校招 | 中国烟草2025届校招

LSTM卷土重来！xLSTM：时序预测新架构

AI+智慧电池数据集（含提取码）

AI+即插即用模块，paper轻松涨点！

2024 Time Series Paper S9（含源码）

KAN架构爆火！AI+时间序列新方向！

颠覆传统！LLM+时间序列预测的创新思路！

AI4S Cup LLM系列场景挑战赛

OpenAI再次封神！AI大模型渗透太快了。。

机器学习可视化神器——Scikit-Plot

2024 Time Series Paper S8（含源码）

21.5 万张 X 光，78 万个问题！德州大学、NIH 等携手联合发布了医学视觉问答数据集 Medical-CXR-VQA

实测 Github Models：GPT-4o、Llama 3.1 405B等大模型免费使用 | 附本地部署教程

解决数据孤岛/计算消耗/误差累积问题，上海人工智能实验室苏锐：FengWu-GHR实现AI气象预测多重突破

橙篇——AI内容创作的新篇章

2024 Time Series Paper S7（含源码）

高效便捷的特征筛选工具——Powershap

AI+新能源风机视觉数据集（含提取码）

LazyPredict：帮你选择最佳ML模型

有道QAnything背后的故事---关于RAG的一点经验分享

2024 DCIC海上风电出力预测Top4分享

2024 Time Series Paper S6（含源码）

大裁员，某司数据人员已集体转行....

本地智能文档问答系统 - QAnything

2024 Time Series Paper S5（含源码）

时间序列论文标准数据集（含提取码）

全体数据从业者请做好随时失业的准备！

大模型的门槛，又被打下来了！

AI+新能源充电桩数据集（含提取码）

Kimi 人工智能助手评测

春招 | 中国海油2024春招

突发！刚刚公布：全体数据人狂欢吧！！

又一篇AI顶会！这个idea简直“ 杀疯了 ” ....

春招 | 茅台集团2024春招

2024 Time Series Paper S4（含源码）

提前恭喜！全体数据人要彻底炸锅了！这波好消息来的太突然！

Stanford天空图像和光伏发电数据集

基于数据驱动的锂电池SOH估计和RUL预测

春招 | 国家能源集团2024春招

AI+新能源微电网数据集（含提取码）

多元融合整车健康状态协同评估体系

裁员了，很严重，大家做好准备吧！

FuXi-Extreme：改进极端天气预报的伏羲气象大模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉