TPAMI 2024 | PoseScript:将三维人体姿态与自然语言相链接

文摘   2024-11-20 19:00   中国香港  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

论文信息

题目:PoseScript: Linking 3D Human Poses and Natural Language

PoseScript:将三维人体姿态与自然语言相链接

作者:Ginger Delmas; Philippe Weinzaepfel; Thomas Lucas; Francesc Moreno-Noguer; Grégory Rogez

源码链接:https://europe.naverlabs.com/research/computer-vision/posescript/

论文创新点

  1. 提出了PoseScript数据集,这是第一个将3D人体姿势与自然语言描述相链接的数据集。该数据集通过结合6,000多个3D人体姿势与丰富的人工标注描述;
  2. 通过一个精心设计的自动字幕流程生成的自然语言描述,显著扩展了数据集的规模,达到了100,000个姿势描述。这一流程不仅提高了数据的多样性,而且使得数据集能够与数据密集型学习算法兼容,为预训练深度模型提供了可能。
  3. 此外,本文还提出了三个多模态学习任务,展示了PoseScript数据集的潜力和应用范围:

摘要

自然语言在许多计算机视觉应用中扮演着关键角色,例如图像描述、视觉问题回答和跨模态检索,以提供细粒度的语义信息。然而,尽管人体姿态对于理解人类行为至关重要,但当前的3D人体姿态数据集缺乏详细的语言描述。为了解决这一问题,我们引入了PoseScript数据集。该数据集将来自AMASS的六千多个3D人体姿态与丰富的人体标注描述配对,描述了身体部位及其空间关系。此外,为了将数据集规模增加到与数据密集型学习算法兼容的规模,我们提出了一个精心设计的描述过程,从给定的3D关键点生成自然语言的自动合成描述。该过程使用一组简单但通用的规则提取低级姿态信息,称为“posecodes”。然后,这些posecodes通过句法规则组合成更高级别的文本描述。通过自动标注,可用数据量显著增加(100k),使得能够有效地预训练深度模型以进行人类描述的微调。为了展示标注姿态的潜力,我们提出了三个多模态学习任务,这些任务利用了PoseScript数据集。首先,我们开发了一个将3D姿态和文本描述映射到联合嵌入空间的流程,允许从大规模数据集中检索相关姿态。其次,我们为文本条件模型生成3D姿态建立了基线。第三,我们提出了一个学习过程,用于生成姿态描述。这些应用展示了标注姿态在各种任务中的多样性和实用性,并为该领域的未来研究铺平了道路。数据集可在PoseScript网站上找到。

关键词

3D人体姿态、自然语言、多模态学习、描述、生成、检索、描述。

I. 引言

“姿势有头部向下,最终触及地面,身体重量落在手掌和脚上。手臂伸直向前,与肩同宽;脚相隔一英尺,腿部伸直,臀部尽可能抬高。”上述文本描述了下犬式瑜伽姿势,读者可以轻松地从自然语言描述中想象出这样的姿势。能够自动将自然语言描述和准确的3D人体姿态映射起来,将为许多应用打开大门,例如在不实际部署运动捕捉(MoCap)系统时帮助图像标注;在大规模数据集中执行基于姿态的语义搜索(见图1顶部),这些数据集目前仅基于高级元数据,如执行的动作[1]-[3];在数字动画中生成复杂的姿势或运动数据(见图1中间);或教授视觉障碍者姿势技能[4](见图1底部)。

尽管结合语言和图像或视频的问题已经引起了显著的关注[5]-[8],特别是通过最近的多模态神经网络CLIP[9]和DALL-E[10]获得的令人印象深刻的结果,但将文本和3D几何链接的问题才刚刚开始增长。最近有一些尝试将文本映射到刚性3D形状[11]、[12],以及使用自然语言进行3D对象定位[13]或3D对象区分[14]。最近,Fieraru等人[15]介绍了AIFit,这是一种方法,用于自动生成关于参考和目标运动之间差异的人类可解释反馈。还有许多尝试使用各种形式的文本来模拟人类。属性被用来模拟身体形状[16]和面部图像[17]。其他方法[18]-[21]利用文本描述来生成运动,但没有对身体四肢进行细粒度控制。与我们的工作更相关的,Pavlakos等人[22]利用两个关节沿深度维度的关系,Pons-Moll等人[23]通过一系列posebits来描述3D人体姿态,这些是针对不同类型问题(如“右手是否高于臀部?”)的二进制指示器。然而,这些布尔断言的表达性有限,远不如人类使用的自然语言描述。在本文中,我们提出将3D人体姿态与自然语言中的身体部位及其空间关系的自由形式和任意复杂结构描述映射起来。为此,我们首先介绍了多模态PoseScript数据集,该数据集由人类标注者为AMASS数据集中的约6,000个姿态编写的字幕组成[2]。为了扩大这个数据集,我们还提出了一个自动描述流程,用于以人为中心的姿态,使其能够在几分钟内注释成千上万的人体姿态。我们的流程建立在(a)通过扩展posebits[23]到更细粒度的分类关系的不同身体部位(例如“膝盖略微/相对/完全弯曲”),我们称之为posecodes的低级信息,以及(b)来自BABEL数据集[3]标注的动作标签,或posecodes的组合的更高层次概念上。我们定义了规则来选择和聚合posecodes,并将它们转换为句子以产生文本描述。因此,我们能够自动提取输入3D姿态的类似人类字幕。重要的是,由于过程是随机的,我们可以为每个姿态生成多个描述,就像不同的人类标注者会做的那样。我们使用这个过程来描述从AMASS数据集中提取的100,000个姿态。图2显示了人类编写和自动字幕的例子。
使用PoseScript数据集,我们提出了三个多模态学习任务,见图1。第一个是跨模态检索任务,目标是从一个数据库中检索与给定文本查询最相似的3D姿态;这也可以通过将它们与3D人体拟合相关联,应用于RGB图像数据库。第二个任务是生成多样化的人体姿态,条件是文本描述。第三个目标是根据提供的3D姿态生成文本描述。在所有情况下,我们的实验表明,使用自动字幕预训练模型然后再在真实字幕上微调它们是有益的。总之,我们的贡献是三方面的:
  • 我们介绍了PoseScript数据集(第III节)。它将人类姿态和自然语言中的结构化描述联系起来,无论是通过人类编写的注释还是使用我们的自动字幕流程获得的。
  • 我们随后研究了文本到姿态检索的任务(第IV节)。
  • 我们提出了文本条件姿态生成的任务(第V节)。
  • 我们最后关注了姿态描述生成的任务(第VI节)。这项工作的初步版本在[24]中提出,我们已经介绍了PoseScript数据集和前两个任务的基线。在这项工作中,我们通过增加PoseScript数据集的规模,研究姿态描述生成问题,并提供额外的分析,扩展了我们的贡献。特别是,我们研究了我们的字幕流程的不同方面的影响,以及用于预训练的自动生成字幕的数量。我们进一步改进了我们的模型,使用额外的数据,并使用transformers[25]作为我们的文本编码器。

II. 相关工作

图像中的人类文本。一些先前的工作使用属性作为语义级表示来编辑身体形状[16]、人类服装[26]和面部图像[17]。相比之下,我们利用自然语言,它具有不受限制和更灵活的优势。尽管其他人也这样做,用于面部视频[27]或穿着人类图像的服装建模姿势[28],我们的方法专注于多样化的3D身体姿势和姿势语义。与我们的工作更接近的是[29]、[30],它们专注于从字幕生成2D人体姿势、SMPL参数甚至图像。然而,它们使用的是MS Coco[31]字幕,这些字幕通常是关于人类执行的活动的简单图像级陈述,并且有时与场景中的其他元素相关,例如“足球运动员在球在空中时跑步”。相比之下,我们专注于关于姿势的细粒度详细字幕。FixMyPose[32]提供了关于两个合成图像中人体姿势差异的手动注释字幕。这些字幕还包括关于环境对象的信息,例如“地毯”或“门”。类似地,AIFit[15]提出了一种自动生成关于参考动作和执行动作之间差异的文本的方法,基于角度和位置的差异。相反,我们的方法专注于描述单一姿势,而不依赖任何其他视觉元素。
人类运动的文本。我们处理静态姿势,而一些现有方法主要研究了基于3D动作(序列)识别或基于文本的2D[19]或3D运动合成。这些方法要么基于动作标签[20]、[33]、[34]条件模型,要么基于自然语言描述[18]、[21]、[35]-[44]。或者,其他工作利用外观信息[45]、[46]。然而,即使运动描述有效地约束了一系列姿势,它们也没有特别说明单个姿势。如果动画工作室寻找一个“男人双手叉腰跑步”的3D身体姿势序列怎么办?艺术家用于初始化动画的模型应该对人体部位之间的关系有深入的理解。为此,了解特定的姿势语义非常重要,超越了全局姿势序列语义。
姿势语义表示。我们的字幕生成过程依赖于捕获有关姿势语义相关信息的posecodes。Posecodes的灵感来自posebits[23],其中显示人类的图像被各种二进制指示器注释。然后使用这些数据来减少3D姿态估计中的歧义。相反,我们从标准化的3D姿势中自动提取posecodes以生成自然语言描述。序数深度[22]可以被视为posebits的一个特例,专注于两个关节之间的深度关系。作者利用训练图像上的这种注释通过添加额外的约束来改进人体网格恢复模型。Poselets[47]也可以被视为另一种提取区分性姿势信息的方式,但它们不易于解释。与这些表示相比,我们提出生成自然语言的姿势描述,其优势在于(a) 它是一种非常直观的交流方式,以及(b) 提供了更大的灵活性。最近,TIPS[48]为DeepFashion[49]图像中的姿势引入了结构化描述。这些描述是通过从预定义列表中选择某些身体部位的状态来收集的。虽然我们提出的字幕流程的底层过程相似,但我们处理的是3D姿势而不是图像,并设计了一种自动化方法。此外,我们不仅限于时尚,关注于大量多样化的姿势。最终,我们收集了人类标注者的实际自由形式文本描述。总之,我们提出的PoseScript数据集与现有数据集的区别在于,它专注于单一的3D姿势而不是运动[50],这些姿势是多样化的,并且不仅限于建模姿势[48]。此外,它提供了直接的自然语言描述,而不是简单的动作标签[1]、[3]、[33]、[51]、[52]、二进制关系[22]、[23]或修改文本[15]、[32]。

III. POSESCRIPT 数据集

PoseScript 数据集由静态3D人体姿势和细粒度的语义注释组成,这些注释以自然语言的形式提供。我们提供了人类编写的注释描述(PoseScript-H),并进一步增加了通过自动生成的字幕(PoseScript-A)的数据量。姿势选择策略在第III-A节中介绍,众包数据收集过程在第III-B节中介绍,自动字幕流程在第III-C节中介绍。最后,第III-D节报告了PoseScript数据集的聚合统计信息。

A. 姿势选择

PoseScript 数据集包含从AMASS[2]数据集中采样的100,000个人体姿势,这些姿势来自14,096个序列。为确保多样性,我们排除了每个序列的前25帧和最后25帧,这些帧包含了初始化姿势,如T姿势。此外,我们每25帧只采样一个姿势,以避免过于相似的冗余姿势。为了进一步最大化可变性,我们使用了最远点采样算法。首先,我们使用默认形状系数和全局方向设置为0的中性身体模型标准化每个姿势的关节位置。然后,我们从数据集中随机选择一个姿势,并迭代地添加具有最高MPJE(均值每关节误差)的姿势到已选姿势集合中。这个过程一直持续到我们获得了具有最大可变性的所需数量的姿势。图3显示了AMASS子数据集中的100,000个选定姿势的来源。

值得注意的是,DanceDB和MPI Limits在AMASS中的所有序列都在PoseScript中使用;大多数PoseScript中的姿势实际上来自DanceDB(28%)、CMU(20%)和BioMotionLab(13%)。这是因为这些子数据集相比AMASS中的其他子数据集展现出更大的姿势多样性。

B. 数据集收集

我们使用亚马逊机械土耳其(AMT)[2],一个众包标注平台,从AMASS数据集[2]中提取的3D人体姿势收集人类编写的字幕。标注界面。如图4所示的界面,首先向标注者展示了一个人体姿势的网格(蓝色),以及一个用于控制视图的滑块。

任务是使用相对于主题(身体的“左”是“左”)的方向,身体部位之间的指示(例如“右手在臀部”),常见的姿势参考(例如“倒立”)和类比来描述蓝色姿势。其次,为了鼓励区分性字幕,我们额外展示了3个辨别姿势(灰色),这些姿势在语义上与要标注的姿势接近。然后指导工人细化他们的描述,使其只适合蓝色姿势。虽然这个界面最初设计为一步(一次显示所有姿势),但我们发现标注者有时会提供足够的信息来描述蓝色姿势,以便将其与显示的灰色姿势区分开来,但不足以完全描述它。这种两步设计是为了限制这种现象,以获得既完整又精确的描述。图2(左)展示了一些PoseScript-H的例子。姿势辨别器在PoseScript中选择。它们应该与目标姿势相似,这是通过姿势嵌入之间的距离来衡量的,这些嵌入是通过我们检索模型的早期版本获得的。它们还必须至少有15个不同的posecode分类。这确保了选定的姿势辨别器与要标注的姿势有一些语义相似性,同时有足够的差异,可以被标注者轻松区分。标注者资格。标注任务最初对居住在英语国家的工人开放,他们至少有5000个以前的任务被批准,并且批准率超过95%。我们手动审查了近1000个注释,基于以下标准:描述是“完整”的(即,几乎所有的身体部位都被描述),没有左右混淆,没有距离度量(因为这些不随身体大小而扩展),没有主观评论,拼写错误很少,语法良好。
基于这些评估,我们进一步筛选了41名工人,并仅向他们提供了任务分配;只有他们的一部分注释,随机选择的,随后会被手动复审。另外61名工人提交了优秀的注释,但没有完成足够的任务以获得资格。
定价。预计完成一个HIT(Human Intelligence Task,人类智能任务)需要2-3分钟。每个HIT的报酬是0.50美元,这是基于2022年加利福尼亚州的最低工资标准。我们还为每完成50个注释的合格标注者额外支付2美元奖金。
语义分析。我们在表I中报告了对115个注释进行的语义分析结果。结果显示,数据集的一个挑战性方面是某些身体部位的隐含侧面描述:推断相应的侧面涉及对先前描述的身体部位和它们之间的层级关系的推理。在这项研究过程中,我们还测量出注释平均描述了6.2个不同的身体部位:这些部位在注释之间有所不同,并且可以给出多个指示来详细说明一个身体部位的位置。这暗示了注释中的细节水平。

C. 自动字幕流程

现在描述用于生成3D人体姿势的合成文本描述的过程。如图5所示,它依赖于提取、选择和聚合称为posecodes的基本姿势信息片段,最终将它们转换为句子以产生描述。该过程以3D关键点坐标的人体中心姿势作为输入。这些是使用SMPL-H身体模型[53]使用默认形状系数和沿y轴的标准化全局方向推断出来的。

  1. Posecode提取。Posecode描述了特定一组关节之间的关系。我们捕获五种类型的基本关系:角度、距离和相对位置(如[23]中所述),以及俯仰、翻滚和地面接触。
  2. Posecode选择旨在从提取的posecodes中选择一个有趣的子集,以获得简洁但具有区分性的描述。首先,我们移除了一些显而易见的设置(例如“左手在右手的左边”)。接下来,基于对整个姿势集合的统计研究,我们随机跳过一些非必要的——即非显而易见但非高度区分性——posecodes,以考虑自然人类遗漏。我们还设置了一些高度区分性的posecodes作为不可跳过的。
  3. Posecode聚合包括合并共享语义信息的posecodes,以减少字幕的大小并使其更自然。我们提出了四种特定的聚合规则:
  4. Posecode转换为句子分为两个步骤。首先,我们为每个posecode选择主题。对于对称posecodes——涉及两个仅身体侧面不同的关节——主题在两个关键点之间随机选择,另一个随机使用其名称、其侧面或“其他”来避免重复并提供更多样化的字幕。对于不对称posecodes,我们定义了一个“主要”关键点(作为主题)和“支持”关键点,用于指定姿势信息。

D. 数据集统计

我们在AMT上收集了6,283个人类注释(PoseScript-H)。我们通过手动纠正字典中没有的单词的拼写、删除两个连续相同单词中的一个以及检查拼写检查器(即NeuSpell[54])检测到的错误来半自动清理描述。人类编写的描述平均长度为54.2个标记(50.3个单词,加上标点符号)。图6展示了在1866个词汇中最常见的单词的概览。我们使用自动字幕流程增加了数据集中的姿势描述数量(PoseScript-A)。我们设计了总共87个posecodes,并为100,000个姿势中的每一个自动生成了3个字幕,用时不到10分钟。换句话说,我们可以在手动编写10个字幕的时间内生成近100万个字幕。总的来说,自动描述的产生使用了15%的posecode跳过率和95%的聚合概率。进一步的posecodes统计数据提供在补充材料中。我们将数据集大致分为70%用于训练,10%用于验证,20%用于测试,同时确保来自同一AMASS序列的姿势属于同一分割。

IV. 应用于文本到姿势检索

本节讨论文本到姿势检索的问题,这涉及到根据与给定文本查询的相关性对大量姿势进行排名。这项任务对于逆问题的姿势到文本检索也是相关的。为了解决跨模态检索问题,通常的做法是将两种模态编码到共享的潜在空间中。
问题表述。设是一组字幕和姿势对的集合。按照构造,是字幕最相关的姿势,这意味着在文本到姿势检索中,应该在排名中排在之后。换句话说,检索模型的目标是学习一个相似性函数,使得。通过计算查询与集合中每个姿势之间的相似性分数并进行排名,可以为给定的文本查询检索出一组相关的姿势(对于姿势到文本检索则反之亦然)。鉴于姿势和字幕属于不同的模态,我们使用单独的编码器将它们嵌入到一个共同的潜在空间中。具体来说,我们使用一个文本编码器和一个姿势编码器分别对字幕和姿势进行编码。设是在联合嵌入空间中的字幕和姿势的L2归一化表示,如图7所示。两个模态之间的相似性分数基于它们各自的嵌入之间的距离计算。

编码器。字幕被标记化,然后使用GloVe词嵌入[56]上的双向GRU[55]或DistilBERT[57]预训练词嵌入上的变换器[25]进行嵌入。姿势被编码为一个大小为(52, 3)的矩阵,由SMPL-H身体关节的旋转轴角表示。它被展平并输入到姿势编码器中,选择的编码器是VPoser编码器[58]。一个额外的ReLU层和最终的投影层产生一个与文本编码相同大小的嵌入。
训练。给定一批训练对,我们使用在跨模态检索中常见的基于批次的分类(BBC)损失:
其中是一个可学习的参数,是余弦相似度函数
评估协议。通过为每个查询文本对所有姿势进行排名来评估文本到姿势检索,然后计算召回率@K(R@K),即查询文本中对应姿势排在前K个检索姿势中的比例。我们同样评估姿势到文本检索。我们使用,并额外报告所有召回率@K值的平均值(mRecall)。
定量结果。我们在PoseScript的测试集上报告结果,包括自动和人类编写的字幕。在自动字幕上训练的模型获得了72.8%的平均召回率,R@1接近50%,R@10超过80%。然而,在人类字幕上的性能下降,因为许多丰富人类词汇中的单词在训练自动字幕时未见过。当在人类字幕上训练时,模型获得了更高的——但仍然相当低的——性能。使用人类字幕对在自动字幕上训练的初始模型进行微调,几乎使平均召回率(分别为40.9%和57.9%)翻倍,与从头开始训练相比(分别为23.0%和35.7%)。这个实验清楚地表明,使用自动字幕流程来扩展PoseScript数据集的好处。特别是,这表明模型能够从自动字幕中的非平凡组合中推导出人类字幕中的新概念。最后两行显示,使用基于变换器的文本编码器和通过镜像姿势(即,在文本中切换左右侧单词)进行数据增强时,会获得进一步的改进。

定性检索结果。图8展示了人类编写字幕的文本到姿势检索结果。方向“左”和“右”是相对于身体而言的。

在图像数据库中的检索。MS Coco[31]是用于人体网格恢复的几个真实世界数据集之一。我们使用EFT[60]提供的74,834个伪地面真实SMPL拟合,将我们的文本到姿势检索模型应用于此MS Coco-EFT集合。然后我们在MS Coco-EFT集合中检索3D姿势,并显示与检索到的顶级姿势相对应的图像和围绕人体周围的边界框。结果如图9所示。总体而言,查询文本中指定的约束在图像中得到了满足。检索是基于姿势而不是上下文,因此第一行的第三张图片中的姿势接近实际的跪姿。这展示了在PoseScript数据集上训练的检索模型应用于第三模态:特定姿势检索在图像中的一种应用。我们的模型可以应用于任何包含人类图像的数据集,只要也有SMPL拟合可用。

V. 应用于文本条件姿势生成

接下来,我们研究文本条件人体姿势生成问题,即生成与给定文本查询匹配的可能姿势。我们提出的模型基于变分自编码器(VAEs)[61]。

训练。我们的目标是根据其字幕生成姿势。为此,我们训练了一个条件VAE模型,在训练时接收由姿势和其字幕组成的元组。图10给出了我们模型的概述。姿势编码器将姿势映射到潜在变量的后验分布,通过产生正态分布的均值和方差。另一个编码器用于获得基于的条件先验分布。从中采样潜在变量,并将其解码成重建姿势。训练损失结合了原始姿势和重建姿势之间的重建项,以及之间的Kullback-Leibler (KL) 散度:
我们还实验了额外的损失项,表示为:KL散度在后验(分别。先验)和标准高斯之间。这些可以被视为其他正则化项,它们还允许在没有任何条件的情况下从模型中采样姿势。我们将解码器的方差视为一个学习的常数,并使用负对数似然(nll)作为重建损失,可以是从高斯分布——对应于L2损失和学习的方差项——或拉普拉斯密度,对应于L1损失。按照VPoser,我们使用SMPL(-H)输入和轴角表示,输出关节旋转和连续6D表示[63]。我们的重建损失是旋转矩阵之间的重建损失之和——使用高斯对数似然评估——关节的位置和顶点的位置,两者都使用拉普拉斯对数似然评估。
文本条件生成。在测试时,字幕被编码成,从中采样并解码成生成的姿势
评估指标。我们遵循Fr´echet inception距离的原则评估样本质量:我们比较使用我们的检索模型提取的特征分布,使用真实测试姿势和从测试字幕生成的姿势。这被表示为FID。我们还报告了在真实姿势上训练并在生成姿势上评估的检索模型的召回率(mR R/G),反之亦然(mR G/R)。这两个指标对样本质量都很敏感:如果数据不真实,检索模型将失败。第二个指标也对多样性敏感:缺失数据分布的部分会阻碍在样本上训练的检索模型。最后,我们报告了在关节、顶点或旋转矩阵上计算的证据下界(ELBO),由目标维度归一化。
结果。我们在表III中展示了定量结果。我们首先发现,在自动字幕上训练和评估的模型中添加额外的正则化损失是稍微有帮助的。此外,它方便了在没有任何条件的情况下采样姿势。我们保留这种配置,并在(a)在人类字幕上训练和(b)在自动字幕上预训练然后微调在人类字幕上进行评估。预训练极大地改善了所有指标,表明它有助于产生真实和多样化的样本。基于变换器的文本编码器在性能上明显优于基于GloVe和biGRU的编码器,无论是在mRecall方面。这表明基于变换器的文本编码器对姿势语义有更精细的理解。镜像增强也带来了轻微的改进。我们在图11中展示了生成样本;姿势是真实的,并且通常与查询相符。当文本允许时,尤其是在右腿的高度或第四行两腿之间的距离,存在一些变化。罕见词汇如“躺着”在底部行导致生成样本的方差增加;尽管如此,其中一些仍然接近参考。

应用于图像中的SMPL拟合的示例。我们在图12中展示了利用文本数据进行3D任务的潜力,这是一个来自SMPLify[64]的具有挑战性的例子。我们使用我们的文本条件姿势先验,而不是通用的VPoser先验[58],以初始化更接近真实的姿态,并更好地指导循环中的优化。这有助于避免陷入不良的局部最小值。

VI. 应用于姿势描述生成

我们现在介绍我们学习的方法来生成自然语言的姿势描述。与第III-C节中介绍的过程不同,这种方法不依赖于启发式或模板结构。它在人类编写的字幕上训练,产生的文本更加简洁,表述更好,概念更高级。请注意,这个模型并不贬低第III-C节中的流程:像其他模型一样,它从预训练在流程产生的自动字幕上中获益匪浅。我们使用一个自回归模型,从BOS(序列开始)标记开始,迭代地预测每个新标记,给定之前生成的所有标记和姿势条件;见图13。

训练。模型提供了标记化的字幕个标记。它嵌入每个标记,添加位置编码,然后将结果输入到变换器中,该变换器通过交叉注意力机制对姿势进行条件处理。使用因果注意力掩码防止模型在处理标记时关注的标记。最后,模型输出词汇表上的概率分布,其中对应于概率。交叉熵损失最大化,因此训练模型预测下一个标记从先前的
推理。给定BOS标记和输入姿势,描述通过在每一步最大化可能性迭代地解码,直到解码特殊标记EOS。在步骤,标记被解码为最大化输出的标记;然后它被追加到早期解码的标记1到中,以便在下一次传递中预测标记
评估。我们报告了标准的自然语言处理(NLP)指标BLEU-4[65]、Rouge-L[66]和METEOR[67]。遵循TM2T[41],我们使用第IV节中的检索模型来衡量召回率@K(top-k R-precision),当对查询姿势进行排名时,我们的模型为其他姿势生成的31个随机样本文本中对应的文本。此外,我们报告了通过比较输入姿势与由第V节中的模型从生成文本生成的姿势来获得的重建度量(MPJE、MPVE和关节旋转上的测地线距离)。虽然NLP指标衡量参考文本和生成文本之间的共同n-gram,但其他度量评估生成描述的语义内容。实际上,如果文本不够详细,就无法帮助生成或检索回输入姿势。
结果。再次,我们注意到在自动字幕上预训练可以显著改善描述,并且镜像增强有所帮助。我们注意到R-Precision和重建度量依赖于训练模型,并且它们对数据的理解有偏见(即,有些概念可能编码不良)。这可能解释了为什么产生的文本看起来比原始文本产生更好的结果。我们展示了图14中模型生成的描述示例。看来,模型能够产生有意义的描述,具有自我中心关系和高级概念(例如手倒立)。然而,它有时会幻觉(最后一个例子中的腿部位置),或者它努力理解姿势作为一个整体,特别是在罕见的情况,如倒立姿势(如果身体没有向后弯曲那么多,头部确实会向上看)。

VII. 自动字幕的特点

在本节中,我们旨在研究自动字幕流程的不同方面的影响。为此,我们为每个姿势生成了6种不同特点的字幕,每种都具有不同的特征:我们使用相同的流程生成所有字幕,该流程在第III节中介绍,并禁用流程中的一些步骤以产生不同的版本。

A. 姿势选择

PoseScript 数据集包含从AMASS[2]数据集中采样的100,000个人体姿势,这些姿势来自14,096个序列。为确保多样性,我们排除了每个序列的前25帧和最后25帧,这些帧包含了初始化姿势,如T姿势。此外,我们每25帧只采样一个姿势,以避免过于相似的冗余姿势。为了进一步最大化可变性,我们使用了最远点采样算法。首先,我们使用默认形状系数和全局方向设置为0的中性身体模型标准化每个姿势的关节位置。然后,我们从数据集中随机选择一个姿势,并迭代地添加具有最高MPJE(均值每关节误差)的姿势到已选姿势集合中。这个过程一直持续到我们获得了具有最大可变性的所需数量的姿势。图3显示了AMASS子数据集中的100,000个选定姿势的来源。值得注意的是,DanceDB和MPI Limits在AMASS中的所有序列都在PoseScript中使用;大多数PoseScript中的姿势实际上来自DanceDB(28%)、CMU(20%)和BioMotionLab(13%)。这是因为这些子数据集相比AMASS中的其他子数据集展现出更大的姿势多样性。

B. 数据集收集

我们使用亚马逊机械土耳其(AMT)[2],一个众包标注平台,从AMASS数据集[2]中提取的3D人体姿势收集人类编写的字幕。标注界面。如图4所示的界面,首先向标注者展示了一个人体姿势的网格(蓝色),以及一个用于控制视图的滑块。任务是使用相对于主题(身体的“左”是“左”)的方向,身体部位之间的指示(例如“右手在臀部”),常见的姿势参考(例如“倒立”)和类比来描述蓝色姿势。其次,为了鼓励区分性字幕,我们额外展示了3个辨别姿势(灰色),这些姿势在语义上与要标注的姿势接近。然后指导工人细化他们的描述,使其只适合蓝色姿势。虽然这个界面最初设计为一步(一次显示所有姿势),但我们发现标注者有时会提供足够的信息来描述蓝色姿势,以便将其与显示的灰色姿势区分开来,但不足以完全描述它。这种两步设计是为了限制这种现象,以获得既完整又精确的描述。图2(左)展示了一些PoseScript-H的例子。姿势辨别器在PoseScript中选择。它们应该与目标姿势相似,这是通过姿势嵌入之间的距离来衡量的,这些嵌入是通过我们检索模型的早期版本获得的。它们还必须至少有15个不同的posecode分类。这确保了选定的姿势辨别器与要标注的姿势有一些语义相似性,同时有足够的差异,可以被标注者轻松区分。标注者资格。标注任务最初对居住在英语国家的工人开放,他们至少有5000个以前的任务被批准,并且批准率超过95%。我们手动审查了近1000个注释,基于以下标准:描述是“完整”的(即,几乎所有的身体部位都被描述),没有左右混淆,没有距离度量(因为这些不随身体大小而扩展),没有主观评论,拼写错误很少,语法良好。

C. 自动字幕流程

我们现在描述用于生成3D人体姿势的合成文本描述的过程。如图5所示,它依赖于提取、选择和聚合称为posecodes的基本姿势信息片段,最终将它们转换为句子以产生描述。该过程以3D关键点坐标的人体中心姿势作为输入。这些是使用SMPL-H身体模型[53]使用默认形状系数和沿y轴的标准化全局方向推断出来的。
  1. Posecode提取。Posecode描述了特定一组关节之间的关系。我们捕获五种类型的基本关系:角度、距离和相对位置(如[23]中所述),以及俯仰、翻滚和地面接触。
  2. Posecode选择旨在从提取的posecodes中选择一个有趣的子集,以获得简洁但具有区分性的描述。首先,我们移除了一些显而易见的设置(例如“左手在右手的左边”)。接下来,基于对整个姿势集合的统计研究,我们随机跳过一些非必要的——即非显而易见但非高度区分性——posecodes,以考虑自然人类遗漏。我们还设置了一些高度区分性的posecodes作为不可跳过的。
  3. Posecode聚合包括合并共享语义信息的posecodes,以减少字幕的大小并使其更自然。我们提出了四种特定的聚合规则:
  • 实体基础聚合将描述属于较大实体(例如手臂或腿部)的关节的posecodes合并。
  • 对称性基础聚合融合仅身体侧面不同的关节集上的posecodes。
  • 关键点基础聚合将共同关键点的posecodes合并,并将其作为主题。
  • 解释基础聚合合并具有相同分类但适用于不同关节集的posecodes。
  • Posecode转换为句子分为两个步骤。首先,我们为每个posecode选择主题。对于对称posecodes——涉及两个仅身体侧面不同的关节——主题在两个关键点之间随机选择,另一个随机使用其名称、其侧面或“其他”来避免重复并提供更多样化的字幕。对于不对称posecodes,我们定义了一个“主要”关键点(作为主题)和“支持”关键点,用于指定姿势信息。第二,我们将所有posecodes组合在一起进行最终聚合。我们通过将每个posecode数据插入一个模板句子来获得个别描述,这些句子是为给定posecode类别随机挑选的。最后,我们使用随机预定义的过渡词将片段按随机顺序连接起来。可选地,对于BABEL[3]中注释的序列提取的姿势,我们添加一个基于相关高级概念的句子(例如“这个人在做一个瑜伽姿势”)。
  • D. 数据集统计

    我们在AMT上收集了6,283个人类注释(PoseScript-H)。我们通过手动纠正字典中没有的单词的拼写、删除两个连续相同单词中的一个以及检查拼写检查器(即NeuSpell[54])检测到的错误来半自动清理描述。人类编写的描述平均长度为54.2个标记(50.3个单词,加上标点符号)。图6展示了在1866个词汇中最常见的单词的概览。我们使用自动字幕流程增加了数据集中的姿势描述数量(PoseScript-A)。我们设计了总共87个posecodes,并为100,000个姿势中的每一个自动生成了3个字幕,用时不到10分钟。换句话说,我们可以在手动编写10个字幕的时间内生成近100万个字幕。总的来说,自动描述的产生使用了15%的posecode跳过率和95%的聚合概率。进一步的posecodes统计数据提供在补充材料中。我们将数据集大致分为70%用于训练,10%用于验证,20%用于测试,同时确保来自同一AMASS序列的姿势属于同一分割。

    IV. 应用于文本到姿势检索

    本节讨论文本到姿势检索的问题,这涉及到根据与给定文本查询的相关性对大量姿势进行排名。这项任务对于逆问题的姿势到文本检索也是相关的。为了解决跨模态检索问题,通常的做法是将两种模态编码到共享的潜在空间中。

    问题表述

    是一组字幕和姿势对的集合。按照构造,是字幕最相关的姿势,这意味着在文本到姿势检索中,应该在排名中排在之后。换句话说,检索模型的目标是学习一个相似性函数,使得。通过计算查询与集合中每个姿势之间的相似性分数并进行排名,可以为给定的文本查询检索出一组相关的姿势(对于姿势到文本检索则反之亦然)。鉴于姿势和字幕属于不同的模态,我们使用单独的编码器将它们嵌入到一个共同的潜在空间中。具体来说,我们使用一个文本编码器和一个姿势编码器分别对字幕和姿势进行编码。设是在联合嵌入空间中的字幕和姿势的L2归一化表示,如图7所示。两个模态之间的相似性分数基于它们各自的嵌入之间的距离计算。

    编码器

    字幕被标记化,然后使用GloVe词嵌入[56]上的双向GRU[55]或DistilBERT[57]预训练词嵌入上的变换器[25]进行嵌入。姿势被编码为一个大小为(52, 3)的矩阵,由SMPL-H身体关节的旋转轴角表示。它被展平并输入到姿势编码器中,选择的编码器是VPoser编码器[58]。一个额外的ReLU层和最终的投影层产生一个与文本编码相同大小的嵌入。

    训练

    给定一批训练对,我们使用在跨模态检索中常见的基于批次的分类(BBC)损失:
    其中是一个可学习的参数,是余弦相似度函数

    评估协议

    通过为每个查询文本对所有姿势进行排名来评估文本到姿势检索,然后计算召回率@K(R@K),即查询文本中对应姿势排在前K个检索姿势中的比例。我们同样评估姿势到文本检索。我们使用,并额外报告所有召回率@K值的平均值(mRecall)。

    定量结果

    我们在PoseScript的测试集上报告结果,包括自动和人类编写的字幕。在自动字幕上训练的模型获得了72.8%的平均召回率,R@1接近50%,R@10超过80%。然而,在人类字幕上的性能下降,因为许多丰富人类词汇中的单词在训练自动字幕时未见过。当在人类字幕上训练时,模型获得了更高的——但仍然相当低的——性能。使用人类字幕对在自动字幕上训练的初始模型进行微调,几乎使平均召回率(分别为40.9%和57.9%)翻倍,与从头开始训练相比(分别为23.0%和35.7%)。这个实验清楚地表明,使用自动字幕流程来扩展PoseScript数据集的好处。特别是,这表明模型能够从自动字幕中的非平凡组合中推导出人类字幕中的新概念。最后两行显示,使用基于变换器的文本编码器和通过镜像姿势(即,在文本中切换左右侧单词)进行数据增强时,会获得进一步的改进。

    定性检索结果

    图8展示了人类编写字幕的文本到姿势检索结果。方向“左”和“右”是相对于身体而言的。

    在图像数据库中的检索

    MS Coco[31]是用于人体网格恢复的几个真实世界数据集之一。我们使用EFT[60]提供的74,834个伪地面真实SMPL拟合,将我们的文本到姿势检索模型应用于此MS Coco-EFT集合。然后我们在MS Coco-EFT集合中检索3D姿势,并显示与检索到的顶级姿势相对应的图像和围绕人体周围的边界框。结果如图9所示。总体而言,查询文本中指定的约束在图像中得到了满足。检索是基于姿势而不是上下文,因此第一行的第三张图片中的姿势接近实际的跪姿。这展示了在PoseScript数据集上训练的检索模型应用于第三模态:特定姿势检索在图像中的一种应用。我们的模型可以应用于任何包含人类图像的数据集,只要也有SMPL拟合可用。

    V. 应用于文本条件姿势生成

    接下来,我们研究文本条件人体姿势生成问题,即生成与给定文本查询匹配的可能姿势。我们提出的模型基于变分自编码器(VAEs)[61]。
    训练: 我们的目标是根据其字幕生成姿势。为此,我们训练了一个条件VAE模型,在训练时接收由姿势和其字幕组成的元组。图10给出了我们模型的概述。姿势编码器将姿势映射到潜在变量的后验分布,通过产生正态分布的均值和方差。另一个编码器用于获得基于的条件先验分布。从中采样潜在变量,并将其解码成重建姿势。训练损失结合了原始姿势和重建姿势之间的重建项,以及之间的Kullback-Leibler (KL) 散度:
    我们还实验了额外的损失项,表示为:KL散度在后验(分别。先验)和标准高斯之间。这些可以被视为其他正则化项,它们还允许在没有任何条件的情况下从模型中采样姿势。我们将解码器的方差视为一个学习的常数,并使用负对数似然(nll)作为重建损失,可以是从高斯分布——对应于L2损失和学习的方差项——或拉普拉斯密度,对应于L1损失。按照VPoser,我们使用SMPL(-H)输入和轴角表示,输出关节旋转与连续6D表示[63]。我们的重建损失是旋转矩阵之间的重建损失之和——使用高斯对数似然评估——关节的位置和顶点的位置,两者都使用拉普拉斯对数似然评估。
    文本条件生成: 在测试时,字幕被编码成,从中采样并解码成生成的姿势
    评估指标: 我们遵循Fr´echet inception距离的原则评估样本质量:我们比较使用我们的检索模型提取的特征分布,使用真实测试姿势和从测试字幕生成的姿势。这被表示为FID。我们还报告了在真实姿势上训练并在生成姿势上评估的检索模型的召回率(mR R/G),反之亦然(mR G/R)。这两个指标对样本质量都很敏感:如果数据不真实,检索模型将失败。第二个指标也对多样性敏感:缺失数据分布的部分会阻碍在样本上训练的检索模型。最后,我们报告了在关节、顶点或旋转矩阵上计算的证据下界(ELBO),由目标维度归一化。
    结果: 我们在表III中展示了定量结果。我们首先发现,在自动字幕上训练和评估的模型中添加额外的正则化损失是稍微有帮助的。此外,它方便了在没有任何条件的情况下采样姿势。我们保留这种配置,并在人类字幕上训练和评估时进行评估。预训练极大地改善了所有指标,表明它有助于产生真实和多样化的样本。基于变换器的文本编码器在性能上明显优于基于GloVe和biGRU的编码器,无论是在mRecall方面。这表明基于变换器的文本编码器对姿势语义有更精细的理解。镜像增强也带来了轻微的改进。我们在图11中展示了生成样本;姿势是真实的,并且通常与查询相符。当文本允许时,存在一些变化,例如顶部示例中右腿的高度或第四行中两腿之间的距离。罕见词汇如“躺着”在底部行导致生成样本的方差增加;尽管如此,其中一些仍然接近参考。
    应用于图像中的SMPL拟合的示例。我们在图12中展示了利用文本数据进行3D任务的潜力,这是一个来自SMPLify[64]的具有挑战性的例子。我们使用我们的文本条件姿势先验,而不是通用的VPoser先验[58],以初始化更接近真实的姿态,并更好地指导循环中的优化。这有助于避免陷入不良的局部最小值陷阱。

    VI. 应用于姿势描述生成

    我们现在介绍我们学习的方法来生成自然语言的姿势描述。与第III-C节中介绍的过程不同,这种方法不依赖于启发式或模板结构。它在人类编写的字幕上训练,产生的文本更加简洁,表述更好,概念更高级。请注意,这个模型并不贬低第III-C节中的流程:像其他模型一样,它从预训练在流程产生的自动字幕上中获益匪浅。我们使用一个自回归模型,从BOS(序列开始)标记开始,迭代地预测每个新标记,给定之前生成的所有标记和姿势条件;见图13。
    训练。模型提供了标记化的字幕个标记。它嵌入每个标记,添加位置编码,然后将结果输入到变换器中,该变换器通过交叉注意力机制对姿势进行条件处理。使用因果注意力掩码防止模型在处理标记时关注的标记。最后,模型输出词汇表上的概率分布,其中对应于概率。交叉熵损失最大化,因此训练模型预测下一个标记从先前的
    推理。给定BOS标记和输入姿势,描述通过在每一步最大化可能性迭代地解码,直到解码特殊标记EOS。在步骤,标记被解码为最大化输出的标记;然后它被追加到早期解码的标记1到中,以便在下一次传递中预测标记
    评估。我们报告了标准的自然语言处理(NLP)指标BLEU-4[65]、Rouge-L[66]和METEOR[67]。遵循TM2T[41],我们使用第IV节中的检索模型来衡量召回率@K(top-k R-precision),当对查询姿势进行排名时,我们的模型为其他姿势生成的31个随机样本文本中对应的文本。此外,我们报告了通过比较输入姿势与由第V节中的模型从生成文本生成的姿势来获得的重建度量(MPJE、MPVE和关节旋转上的测地线距离)。虽然NLP指标衡量参考文本和生成文本之间的共同n-gram,但其他度量评估生成描述的语义内容。实际上,如果文本不够详细,就无法帮助生成或检索回输入姿势。
    结果。我们在表IV中展示了定量结果。我们再次发现,在自动字幕上预训练可以显著改善描述,并且镜像增强有所帮助。我们注意到R-Precision和重建度量依赖于训练模型,并且它们对数据的理解有偏见(即,有些概念可能编码不良)。这可能解释了为什么产生的文本看起来比原始文本产生更好的结果。我们在图14中展示了模型生成的描述示例。看来,模型能够产生有意义的描述,具有自我中心关系和高级概念(例如手倒立)。然而,它有时会幻觉(最后一个例子中的腿部位置),或者它努力理解姿势作为一个整体,特别是在罕见的情况,如倒立姿势(如果身体没有向后弯曲那么多,头部确实会向上看)。

    VII. 自动字幕的特点

    在本节中,我们旨在研究自动字幕流程的不同方面的影响。为此,我们为每个姿势生成了6种不同特点的字幕,每种都具有不同的特征:我们使用相同的流程生成所有字幕,该流程在第III节中介绍,并禁用流程中的一些步骤以产生不同的版本。
    具体来说,被停用的步骤包括:(1)随机跳过适合描述的姿势代码;(2)聚合姿势代码(“隐含性”),省略支持关键点(例如,“右脚在躯干后面”在停用此步骤时不会变成“右脚在后面”)以及随机使用替代词指代身体部位(例如,“它”/“他们”、“另一个”);(3)添加由BABEL[3]提供的高度级姿势注释构建的句子;以及(4)基于连锁反应规则移除多余的姿势代码。
    在PoseScript的100万个姿势中,只有36,317个在BABEL中被注释,并且可能从自动描述中额外的句子中受益。由于PoseScript姿势中有28%来自DanceDB,而DanceDB在BABEL中没有被注释,我们额外为那些起源于DanceDB的姿势分配了“跳舞”标签,用于已经利用BABEL辅助注释的一种自动标题变体。这导致64,758个姿势从辅助标签中受益。
    表V总结了本节介绍的6种标题版本(N1至N5)的特点,以及构成PoseScript-A(最后一行)的标题版本的特点,PoseScript-A在本文的其余部分中使用。

    我们预训练了6个不同的检索模型(GloVe+biGRU配置),每个版本N1至N5各一个。每个模型都在同一版本的3个生成标题的池上进行训练。接下来,我们在PoseScript-H上微调检索模型。我们在表V的最后一列报告了PoseScript-H测试集上的平均召回率。
    由于相对较高的变异性,很难判断自动标题生成流程中哪些方面是最重要的。然而,显然隐含性(即,姿势代码聚合)使得自动标题更接近于人工编写的标题,因为利用标题N3进行预训练取得了最佳结果。最终,通过在不同版本的3个标题的池上预训练模型获得了最佳性能(最后一行)。这最后一个标题池,即PoseScript-A,是在其他部分的实验中使用的那个。

    VIII. 训练数据的大小

    在本节中,我们研究了用于预训练的自动字幕数量的影响。为此,我们定义了不同大小的数据子集,包括自动(10k, 20k和100k)或人类编写的注释(3.9k和6.3k)。我们为每个PoseScript-A子集训练了一个检索模型,并在PoseScript-H上进行微调。此外,我们直接在每个人类编写的数据子集上训练检索模型。我们在PoseScript-H的测试集上比较结果,如图15所示。我们观察到,当自动字幕的数量显著超过人类编写的描述时,使用更多的自动字幕进行预训练可以获得更好的结果。

    IX. 实现细节

    我们遵循VPoser[58]的姿势编码器和解码器架构(除了我们使用SMPLH[53]的52个关节)。GloVe词嵌入是300维的。我们使用一个一层双向GRU,其隐藏状态特征为512维。我们的基于变换器的[25]文本编码器使用冻结的DistilBERT[57]词嵌入,其维度为768,然后通过ReLU并投影到512维空间。我们接下来应用余弦位置编码,并将结果输入到由4层、4个头、GELU激活和1024大小的前馈网络组成的变换器。文本序列的最终嵌入是通过输出的平均池化获得的。我们使用相同的编码器进行检索和生成任务。我们的文本解码器是一个变换器,其配置与文本编码器相同,除了它有8个头;单词嵌入和潜在空间的大小都是512。模型使用Adam[68]进行优化。检索模型的初始损失温度为γ = 10,姿势自动编码器在微调时的学习率系数为0.1。有关详细信息,请参见表VI。

    X. 讨论和结论

    我们介绍了PoseScript,这是第一个将3D人体姿势和自然语言描述映射起来的数据集。我们提供了多模态应用,包括文本到姿势检索、文本条件人体姿势生成和姿势描述生成。在所有三个研究任务中,预训练自动文本显著提高了性能(提高了2倍)。
    局限性。我们模型的准确性在很大程度上取决于训练数据。例如,我们的模型在处理自我接触或倒立姿势时存在困难,因为这些姿势的数据有限。除了收集更多的人类编写文本外,另一种选择是设计特定的posecodes来描述这些姿势配置。另一个普遍观察是,我们的模型努力产生满足所有文本要求的结果,因为PoseScript描述非常丰富和复杂。
    未来工作。PoseScript数据集可以扩展以考虑多人互动。还可以利用大型多模态模型(例如文本到图像)的知识来帮助填补收集数据中的一些方面(例如活动概念)的空白。可以进一步探索使用基于文本的姿势先验(即具有身体语义意识)的其他应用,例如动作识别。

    声明

    本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

    #论  文  推  广#

     让你的论文工作被更多人看到 


    你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


    计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


    稿件基本要求:

    • 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

    • 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


    投稿通道:

    • 添加小编微信协商投稿事宜,备注:姓名-投稿

    △长按添加 PaperEveryday 小编


    PaperEveryday
    为大家分享计算机和机器人领域顶级期刊
     最新文章