点击下方“PaperEveryday”,每天获得顶刊论文解读
点击加入论文投稿、写作、阅读分享交流群
论文信息
题目:PoseScript: Linking 3D Human Poses and Natural Language
PoseScript:将三维人体姿态与自然语言相链接
作者:Ginger Delmas; Philippe Weinzaepfel; Thomas Lucas; Francesc Moreno-Noguer; Grégory Rogez
源码链接:https://europe.naverlabs.com/research/computer-vision/posescript/
论文创新点
提出了PoseScript数据集,这是第一个将3D人体姿势与自然语言描述相链接的数据集。该数据集通过结合6,000多个3D人体姿势与丰富的人工标注描述; 通过一个精心设计的自动字幕流程生成的自然语言描述,显著扩展了数据集的规模,达到了100,000个姿势描述。这一流程不仅提高了数据的多样性,而且使得数据集能够与数据密集型学习算法兼容,为预训练深度模型提供了可能。 此外,本文还提出了三个多模态学习任务,展示了PoseScript数据集的潜力和应用范围:
摘要
关键词
I. 引言
我们介绍了PoseScript数据集(第III节)。它将人类姿态和自然语言中的结构化描述联系起来,无论是通过人类编写的注释还是使用我们的自动字幕流程获得的。 我们随后研究了文本到姿态检索的任务(第IV节)。 我们提出了文本条件姿态生成的任务(第V节)。 我们最后关注了姿态描述生成的任务(第VI节)。这项工作的初步版本在[24]中提出,我们已经介绍了PoseScript数据集和前两个任务的基线。在这项工作中,我们通过增加PoseScript数据集的规模,研究姿态描述生成问题,并提供额外的分析,扩展了我们的贡献。特别是,我们研究了我们的字幕流程的不同方面的影响,以及用于预训练的自动生成字幕的数量。我们进一步改进了我们的模型,使用额外的数据,并使用transformers[25]作为我们的文本编码器。
II. 相关工作
III. POSESCRIPT 数据集
A. 姿势选择
B. 数据集收集
C. 自动字幕流程
Posecode提取。Posecode描述了特定一组关节之间的关系。我们捕获五种类型的基本关系:角度、距离和相对位置(如[23]中所述),以及俯仰、翻滚和地面接触。 Posecode选择旨在从提取的posecodes中选择一个有趣的子集,以获得简洁但具有区分性的描述。首先,我们移除了一些显而易见的设置(例如“左手在右手的左边”)。接下来,基于对整个姿势集合的统计研究,我们随机跳过一些非必要的——即非显而易见但非高度区分性——posecodes,以考虑自然人类遗漏。我们还设置了一些高度区分性的posecodes作为不可跳过的。 Posecode聚合包括合并共享语义信息的posecodes,以减少字幕的大小并使其更自然。我们提出了四种特定的聚合规则: Posecode转换为句子分为两个步骤。首先,我们为每个posecode选择主题。对于对称posecodes——涉及两个仅身体侧面不同的关节——主题在两个关键点之间随机选择,另一个随机使用其名称、其侧面或“其他”来避免重复并提供更多样化的字幕。对于不对称posecodes,我们定义了一个“主要”关键点(作为主题)和“支持”关键点,用于指定姿势信息。
D. 数据集统计
IV. 应用于文本到姿势检索
V. 应用于文本条件姿势生成
VI. 应用于姿势描述生成
VII. 自动字幕的特点
A. 姿势选择
B. 数据集收集
C. 自动字幕流程
Posecode提取。Posecode描述了特定一组关节之间的关系。我们捕获五种类型的基本关系:角度、距离和相对位置(如[23]中所述),以及俯仰、翻滚和地面接触。 Posecode选择旨在从提取的posecodes中选择一个有趣的子集,以获得简洁但具有区分性的描述。首先,我们移除了一些显而易见的设置(例如“左手在右手的左边”)。接下来,基于对整个姿势集合的统计研究,我们随机跳过一些非必要的——即非显而易见但非高度区分性——posecodes,以考虑自然人类遗漏。我们还设置了一些高度区分性的posecodes作为不可跳过的。 Posecode聚合包括合并共享语义信息的posecodes,以减少字幕的大小并使其更自然。我们提出了四种特定的聚合规则:
实体基础聚合将描述属于较大实体(例如手臂或腿部)的关节的posecodes合并。 对称性基础聚合融合仅身体侧面不同的关节集上的posecodes。 关键点基础聚合将共同关键点的posecodes合并,并将其作为主题。 解释基础聚合合并具有相同分类但适用于不同关节集的posecodes。
D. 数据集统计
IV. 应用于文本到姿势检索
问题表述
编码器
训练
评估协议
定量结果
定性检索结果
在图像数据库中的检索
V. 应用于文本条件姿势生成
VI. 应用于姿势描述生成
VII. 自动字幕的特点
VIII. 训练数据的大小
IX. 实现细节
X. 讨论和结论
声明
#论 文 推 广#
让你的论文工作被更多人看到
你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 PaperEveryday 小编