特斯拉Optimus「执行器及其方法论」专利

文摘   2024-11-15 22:20   北京  

(本文素材来源于专利WO2024072984A1)一种使用执行器控制机器人(600)运动的系统或方法,系统可以包括:一种或多种第一类型的执行器(1002),位于机器人的躯干、肩部和髋部位置;一种或多种第二类型的执行器(1004),位于机器人的腕部位置;一种或多种第三类型的执行器(1006),也位于机器人的腕部位置;一种或多种第四类型的执行器(1008),位于机器人的肘部和脚踝位置;一种或多种第五类型的执行器(1010),位于机器人的躯干和髋部位置;以及一种或多种第六类型的执行器(1012),位于机器人的膝盖和髋部位置。翻译而来供参考,亦可阅读英文原版、中英双语版(见文末)

图1A是一个框图,展示了一个示例性的自主机器人600。该机器人配备了多个图像传感器102A-102F和一个示例处理系统120。图像传感器包括分布在机器人600周围的摄像头,例如,这些摄像头可以为机器人提供接近360度的全景视野。

图像传感器可以获取图像,供处理系统120使用,以至少确定与靠近车辆100的物体相关的信息。图像可以以特定频率获取,例如30Hz、36Hz、60Hz、65Hz等。在某些实施例中,某些图像传感器可能比其他传感器更快速地获取图像。这些图像可能通过处理系统120基于本文描述的基于视觉的机器学习模型进行处理。为便于说明,处理系统120被示意性地展示在类似于机器人600人类头部的位置,但这种布置并非必要。

在一个实施例中,图像传感器A包括三个横向偏移的图像传感器。例如,相机外壳可以包括三个向前指向的图像传感器。第一个图像传感器可能具有广角镜头(如鱼眼镜头),第二个图像传感器可能具有标准镜头(如35mm等效焦距、30mm等效焦距等),第三个图像传感器可能具有变焦或窄视角镜头。这样,机器人600可以从前方获取三个不同焦距的图像。

第二个图像传感器可以朝向侧面或后方,并位于机器人600的左侧。同样,第三个图像传感器也可以朝向侧面或后方,并位于机器人600的右侧。第四个图像传感器可能放置在机器人600的后方,以便获取机器人向后移动时的图像(例如,假设机器人600正在向前移动)。

尽管所示实施例中包括图像传感器,但可以理解,使用更多或更少的图像传感器也符合本文所描述的技术。

处理器系统120可以从图像传感器获取图像,并使用本文描述的基于视觉的机器学习模型检测物体及与物体相关的信号。基于这些物体,处理器系统120可以调整一个或多个位置或操作功能或任务。例如,处理器系统120可以让机器人600转向、减速、执行预定义任务、避免碰撞、选择路径、生成警报等。尽管未在此详细描述,但可以理解,处理器系统120还可以执行一个或多个规划和/或导航引擎或模型,这些引擎或模型利用基于视觉的机器学习模型的输出,实现自动驾驶。

在某些实施例中,处理器系统120可能包含一个或多个矩阵处理器,这些处理器被配置为快速处理与机器学习模型相关的信息。在一些实施例中,处理器系统120可用于执行卷积神经网络前向传播中的卷积操作。例如,输入数据和权重数据可以进行卷积运算。处理器系统120可能包含多个乘累加单元,这些单元负责执行卷积操作。举例来说,矩阵处理器可能会使用已组织或格式化的输入数据和权重数据,以便进行更大规模的卷积运算。

例如,输入数据可以是一个三维矩阵或张量的形式(例如,跨多个输入通道的二维数据)。在此例中,输出数据可能跨多个输出通道。处理器系统120可以通过将每个二维输出通道合并或扁平化为一个向量,处理较大的输入数据,使得整个通道或其大部分可以由处理器系统120处理。另一个例子是,数据可以被高效重复使用,使得权重数据可以在多个卷积运算中共享。对于一个输出通道,权重数据106可能表示用于计算该输出通道的权重数据(例如,卷积核)。

另一个关于处理器系统的示例描述,可能涉及使用一个或多个矩阵处理器,包含在美国专利号11,157,287、美国专利号11,409,692和美国专利号11,157,441中,这些专利在此通过引用全部并入本文,作为本披露的一部分,如同在此完整列出一样。

图1B是一个框图,展示了示例处理器系统120如何基于从示例图像传感器接收到的图像信息122,确定物体/信号信息124的过程。

图像信息122包括来自分布在机器人(例如,机器人600)周围的图像传感器的图像。在图1A的示例中,共有8个图像传感器,因此图1B中展示了8张图像。例如,图像信息122的顶部行包括来自前置图像传感器的三张图像。如上所述,图像信息122可以以特定频率接收,因此展示的图像代表特定时间戳的图像。在某些实施例中,图像信息122可能代表高动态范围(HDR)图像。例如,不同的曝光度可以组合生成HDR图像。另一个例子是,图像传感器采集的图像可以经过预处理,转换为HDR图像(例如,使用机器学习模型)。

在某些实施例中,每个图像传感器可以获取多个不同曝光时间的图像,每个图像具有不同的快门速度或积分时间。例如,不同的积分时间可能相隔大于阈值的时间差。在这个例子中,可能存在三个积分时间,在某些实施例中,它们的时间间隔大约是数量级的差异。处理器系统120或其他处理器可以根据图像中与“裁剪”相关的测量值来选择其中一个曝光图像。在一些实施例中,处理器系统120或其他处理器可能会基于多个曝光图像的组合来生成图像。例如,生成图像的每个像素可以从多个曝光图像中的一个选择,该像素没有包含被裁剪的值(例如,红、绿、蓝的值没有超过像素阈值)。

处理器系统120可以执行一个基于视觉的机器学习模型引擎126来处理图像信息122。基于视觉的机器学习模型的一个示例将在下文中更详细地描述。正如本文所述,该视觉模型可以结合图像中包含的信息。例如,每个图像可以被提供给一个特定的骨干网络。在某些实施例中,骨干网络可以表示卷积神经网络。在一些实施例中,这些骨干网络的输出可以被结合(例如,形成一个张量),或作为单独的张量提供给模型的一个或多个后续部分。在某些实施例中,注意力网络(例如,交叉注意力)可能会接收组合后的结果,或接收与每个图像传感器相关的输入张量。然后,如下所述,组合后的输出可以用于分析,具体示例为对处理后的图像数据进行物体检测的确定。

如图1B所示,基于视觉的机器学习模型引擎126可能输出物体/信号信息124。该信息124可以表示识别图像信息122中所描绘物体的信息。例如,信息122可能包括物体的位置(例如,与物体相关的立方体信息)、物体的速度、物体的加速度、物体的类型或分类,以及汽车物体是否有车门打开等。物体/信号信息124的示例将在图2中进行描述。

关于立方体,示例信息122可能包括位置信息(例如,相对于一个公共虚拟空间或向量空间)、大小信息、形状信息等。例如,这些立方体可能是三维的。示例信息122还可能包括物体是否正在进入机器人600的预期行进路径。机器人600的视觉范围的示例结果在图1C中以示例形式展示。

此外,正如将要描述的那样,基于视觉的机器学习模型引擎126可以处理跨越时间的多个图像。例如,可以使用视频模块来分析图像(例如,由骨干网络或之后的视觉机器学习模型生成的特征图),这些图像是在之前的某个时间阈值内选择的(例如,3秒、5秒、15秒或可调的时间段)。通过这种方式,物体可以随时间进行跟踪,使得处理器系统120即使在物体暂时被遮挡时也能监控其位置。

在某些实施例中,基于视觉的机器学习模型引擎126可能输出形成一个或多个图像的信息。每个图像可以编码特定信息,例如物体的位置。例如,围绕自动机器人的物体的边界框可能会形成一幅图像。在一些实施例中,图3B和图4B中的投影322和422可能是由基于视觉的机器学习模型生成的图像。

图2是一个基于视觉的机器学习模型的框图,其中包括至少一个处理网络210。该示例模型可以由自动机器人(如机器人600)执行。因此,可以理解该模型的操作由机器人600中包含的处理器系统(例如,系统120)执行。

在所示的示例中,图像202A-202F由基于视觉的机器学习模型接收。这些图像202A-202F可能来自分布在机器人周围的图像传感器,例如图1A中的图像传感器。基于视觉的机器学习模型包括骨干网络200,这些网络接收各自的图像作为输入。因此,骨干网络200处理图像202A-202F中的原始像素。在某些实施例中,骨干网络200可能是卷积神经网络。例如,每个骨干网络中可能包含5层、10层、15层或更多的卷积层。

在某些实施例中,骨干网络200可能包含残差块、受循环神经网络(RNN)调节的残差网络等。此外,骨干网络200可能包含加权双向特征金字塔网络(BiFPN)。BiFPN的输出可能表示基于图像202A-202H确定的多尺度特征。在一些实施例中,高斯模糊可能会在训练和/或推理时应用于图像的某些部分。例如,路边缘在图像中可能非常尖锐明确。在这种情况下,可以对路边缘应用高斯模糊,以便视觉信息可以扩散,从而使卷积神经网络能够检测到这些边缘。

此外,某些骨干网络200可能会对图像进行预处理,例如执行校正、裁剪等操作。关于裁剪,来自前视鱼眼镜头的图像202C可能会进行垂直裁剪,以去除由于机器人600的曲率(例如,与机器人机身相关的曲率或保护机制)而包含的某些元素。

关于校正,本文描述的机器人600可能是可在各种环境和应用中实现的机器人示例。由于制造公差和/或机器人600使用中的差异,机器人中的图像传感器可能会有略微不同的角度或位置(例如,滚转、俯仰和/或偏航的差异)。此外,不同型号的机器人600可能会执行相同的基于视觉的机器学习模型。这些不同型号的机器人可能具有不同的图像传感器位置和/或角度。本文描述的基于视觉的机器学习模型可能部分通过从机器人车队聚合的信息进行训练。因此,由于机器人600中图像传感器角度或位置的细微差异,图像的视角差异可能是显而易见的。

因此,校正可以通过骨干网络200来解决这些差异。例如,可以对图像202A-202F或其中的一部分应用变换(例如,仿射变换),以对图像进行归一化处理。在此示例中,变换可能基于与图像传感器(例如,图像传感器)相关的相机参数,如外部和/或内部参数。在某些实施例中,图像传感器可能会经历初始校准步骤,并且可以选择性地多次校准。例如,当机器人执行定位或操作任务时,摄像头可以进行校准,以确定可用于校正过程的相机参数。在此示例中,特定标记(例如,路径符号)可能用于提示校准。校正过程可能选择性地表示骨干网络200的一个或多个层,其中用于变换的参数通过训练数据进行学习。

因此,骨干网络200可以输出特征图(例如,张量),这些特征图会被处理网络210使用。在某些实施例中,来自骨干网络200的输出可以组合成一个矩阵或张量。在其他实施例中,输出可以以多个张量的形式提供给处理网络210(例如,图示例中为8个张量)。在该示例中,输出被称为视觉信息204,并作为输入提供给网络210。

来自骨干网络200的输出张量可以通过处理网络210组合(例如,融合)到各自的虚拟摄像机空间中(例如,一个向量空间)。机器人600周围的图像传感器可能位于不同的高度。例如,左右图像传感器可能比前后图像传感器位置更高。因此,为了提供围绕机器人600的物体的一致视图,可以使用虚拟摄像机空间。如上所述,处理网络210可能使用一个或多个虚拟摄像机空间。

对于由基于视觉的机器学习模型确定的某些信息,可以使用自动机器人的运动学信息206。示例的运动学信息206可能包括机器人600的速度、加速度、偏航率等。在某些实施例中,图像202A-202F可能与获取这些图像的时间或相似时间内确定的运动学信息206相关联。例如,运动学信息206(如速度、偏航率、加速度)可以被编码(例如,嵌入到潜在空间中),并与这些图像相关联。

关于确定一个或多个物体(如机器人)的速度,基于视觉的机器学习模型可以使用自动机器人的自身速度来确定物体的相对速度。此外,处理网络210可能会以特定的帧速率处理图像。因此,可以获取连续的图像,这些图像的时间间隔相同或基本相同。基于这些信息,处理网络210可以经过训练来估算物体的相对速度。

处理网络210的示例输出可能代表与物体相关的信息,例如位置(例如,在虚拟摄像机空间中的位置)、深度等。例如,信息可能与围绕机器人600的物体相关的立方体有关。输出还可能代表信号,这些信号被处理器系统用于自动驾驶机器人600。示例信号可能包括对处理后的视觉信号的部分进行指示,说明这些部分是否可以被描述为显示物体或非物体。

输出可以通过网络210的前向传播生成。在某些实施例中,前向传播可能以特定的频率进行计算(例如,24 Hz、30 Hz等)。在某些实施例中,输出可以用于规划引擎。例如,规划引擎可以基于现实环境的潜望镜和全景视图,确定自动机器人需要执行的驾驶动作(例如,加速、转弯、刹车等)。

如图2进一步所示,处理网络的输出将作为建模网络220的输入。建模网络220的输出可能对应于与一个建模的占用网络相关的处理结果。如前所述,建模的占用网络对应于一个三维模型的映射,结果是围绕机器人的一些区域的组织化。在一个实施例中,三维模型对应于体素网格(例如,三维方块),这些体素共同构建出机器人600周围的区域。每个体素的特征是一个预测或概率,表明映射的图像数据是否显示了一个物体或障碍物(例如,个体体素的占用情况)。此外,每个体素可能与其他语义数据相关联,例如速度数据、分组标准、物体类型数据等。这些语义数据可以作为占用网络的一部分提供。进一步地,在某些实施例中,个别体素的尺寸可以被进一步优化,通常称为体素偏移,以区分或去除图像数据中可能描绘但在导航或操作控制中不作为实际障碍物的潜在物体或障碍物。例如,体素偏移或个别体素尺寸的变化可以考虑到环境中的物体(例如,制造场所中的灰尘),这些物体可能出现在图像数据中,但不会在占用网络中被建模为障碍物。

图3是处理网络210的框图。正如图2所描述的那样,处理网络210可以用于从一个或多个摄像头或视觉系统生成视觉图像数据。在所示的示例中,来自骨干网络(例如,网络200)的视觉信息204作为输入提供给固定投影引擎302。

固定投影引擎302可以将信息投影到与虚拟摄像头相关的虚拟摄像空间中。如前所述,虚拟摄像头可能位于自动机器人上方1米、1.5米、2.5米等位置,并执行基于视觉的机器学习模型。在不受限于理论的情况下,可以理解输入图像的像素可以映射到虚拟摄像空间中。例如,可以使用查找表结合与图像传感器相关的外部和内部摄像头参数(例如,图1A中的图像传感器)来实现这一映射。

例如,每个像素在虚拟摄像空间中可能与一个深度相关联。每个像素可以代表从图像中延伸到虚拟摄像空间的一条光线。对于给定像素,可以假设或确定一个深度。对于这条光线,固定投影引擎302可以识别沿该光线从给定像素到达的两个不同深度。在某些实施例中,这些深度可能分别为5米和50米。在其他实施例中,深度可能为3米、7米、45米、52米等。处理器系统120可以基于这些像素光线的组合来形成虚拟摄像空间。可以理解,输入图像中像素的位置大致对应于构成视觉信息204的张量中的位置。

在某些实施例中,处理网络210可能会对向量空间进行扭曲,使三维向量空间的部分区域被放大。例如,通过位于1.5米、2米等高度的摄像头看到的真实世界环境中的物体可能会被处理网络210扭曲。向量空间可能会被扭曲,以便使感兴趣的部分被放大或更加突出。例如,宽度和高度维度可能会被扭曲以拉长物体。为了实现这种扭曲,可以使用训练数据,输出标签为根据扭曲调整后的物体位置。此外,固定投影引擎302可以扭曲高度维度,以确保物体在至少一个维度上被放大。

固定投影引擎302的输出作为输入提供给帧选择器引擎304。为了确保物体即使在被临时遮挡时也能够通过时间进行跟踪,基于视觉的机器学习模型在前向传播过程中可以利用多个帧。例如,每个帧可能与图像传感器被触发获取图像的某个时间或短时间范围相关联。因此,帧选择器引擎304可能会选择与之前一定时间阈值内不同时间拍摄的图像相对应的视觉信息204。

例如,视觉信息204可以由处理器系统120以特定帧速率输出(例如,20 Hz、24 Hz、30 Hz)。在经过固定投影引擎302后,视觉信息204可能会被处理器系统120排队或以其他方式存储。例如,视觉信息204可能按时间顺序索引。因此,帧选择器引擎304可以从队列或其他数据存储元素中获取视觉信息。在某些实施例中,帧选择器引擎304可能会获取12、14、16帧等(例如,与12、14或16个时间戳相关联的视觉信息),这些帧分布在前3秒、5秒、7秒、9秒内的时间段。在某些实施例中,这些帧可能在前一段时间内均匀地间隔开。虽然本文中描述的是帧,但可以理解,帧选择器引擎304可以选择与特定时间拍摄的图像帧或短时间范围内的图像帧相关联的特征图。

帧选择器引擎304的输出在某些实施例中可能代表上述帧306A-N的组合。例如,输出可以组合成一个张量,然后由处理网络210的其余部分进行处理。

例如,输出的帧306A-N(按时间索引的特征)可以提供给多个视频模块。在所示示例中,使用了两个视频模块308A和308B。这些视频模块308A-308B可能代表卷积神经网络,使处理器系统120执行三维卷积。例如,卷积可以导致空间和时间维度的混合。通过这种方式,视频模块308A-308B可以允许在时间上跟踪运动和物体。在某些实施例中,视频模块可能代表注意力网络(例如,空间注意力)。

关于视频模块308A,与执行基于视觉的机器学习模型的自动机器人相关的运动学信息206可以作为输入提供给模块308A。如前所述,运动学信息206可能表示加速度、速度、偏航率、转向信息、制动信息等。在帧选择器引擎304选择的每个帧306A-N中,运动学信息206也可能相关联。因此,视频模块308A可以对这些运动学信息206进行编码,以用于确定机器人600周围物体的速度等信息。对于处理网络210而言,这里的速度可能表示自我中心(allocentric)速度。

处理网络210包含多个头(heads),如310和312,用于确定与物体相关的不同信息。例如,头310可以确定与物体相关的速度信息,而头312可以确定位置信息等,如图2所示。

通常,本文描述的基于视觉的机器学习模型可能包含多个主干或头部。如业内人士所知,这些主干或头部(在此统称为头部)可以从神经网络的公共部分延伸,并被训练为特定信息的专家。例如,第一头部可以被训练为输出机器人周围物体的速度信息。另一个例子是,第二头部可以被训练为输出描述物体特征或信息的特定信号。示例信号可能包括附近的门是否打开或半开等。

除了在特定信息方面具有专长之外,将模型分为不同的头(heads)还允许对其进行分步训练,从而快速整合新的训练数据。当获取到新的训练信息时,可以快速更新机器学习模型中最能从该训练信息中受益的部分。在此示例中,训练信息可能代表由机器人在实际操作中收集的特定现实场景的图像或视频片段。因此,可以训练特定的头部,并更新这些部分网络中的权重。例如,其他部分(例如,网络的早期部分)可能不会更新权重,从而减少训练时间和更新机器人600的时间。
在某些实施例中,针对一个或多个头部的训练数据可以被调整,以专注于这些头部。例如,图像可以被屏蔽(例如,损失屏蔽),使得只有图像中的某些像素受到监督,而其他像素不受监督。在此示例中,某些像素可能被分配为零值,而其他像素可能保持其值或被分配为一值。因此,如果训练图像展示了一个很少见的物体(例如,一种相对较新的物体形式)或信号(例如,已知物体但具有不规则形状),则可以选择性地屏蔽训练图像,以专注于该物体或信号。在训练期间,生成的误差可以用于训练与标注者将物体或信号相关联的像素的损失。因此,只有与该类型物体或信号相关的头部可能会被更新。
为了确保获得足够的训练数据,机器人600可以选择性地执行分类器,这些分类器在满足某些条件时会触发获取图像。例如,由终端用户操作的机器人可以自动获取展示轮胎喷溅、雨天条件、雪、雾、火烟等情况的训练图像。关于分类器使用的进一步描述,详见美国专利公开号2021/0271259,该专利在此通过引用全部并入本文,如同在此完整列出一样。

图4是建模网络220的框图。如图2所示,建模网络220可用于根据输入的视觉信息(如处理网络210)生成三维模型。映射引擎402可用于将特征数据从输入的图像数据中映射出来,并将输入的数据投射到三维模型中。如前所述,建模的占用网络对应于一个映射的三维模型,该模型组织了机器人周围的一个或多个区域。在一个实施例中,三维模型对应于体素网格(例如,三维立方体),这些体素共同构建出机器人600周围的区域。
映射引擎402的输出作为输入提供给查询引擎404。对于体素网格中的每个体素,查询引擎404会查询图像数据以确定图像数据中是否描绘或检测到物体/障碍物。如前所述,物体或障碍物(例如,占用)的确定是一个二进制决定。例如,与物体/障碍物相关的体素的任何部分都可能表明该体素是“占用”的,无论该体素是否完全填充。
查询引擎404的输出可以提供给处理引擎406进行额外处理。在某个方面,处理引擎406可以对建模网格中的体素进行偏移或维度调整。尽管体素的占用确定被视为二进制的,但处理引擎406可以被配置为调整个别体素的维度,以便为导航或控制信息提供的占用网络能够更好地近似物体或障碍物的细节或轮廓。这与保持体素维度静态时产生的几何形状近似相对立。在另一个方面,处理引擎406还可以对体素进行分组或创建语义,将被认为是同一物体一部分的体素关联在一起。例如,一个物体/障碍物可能跨越多个建模的体素空间,使得每个体素都被单独视为“占用”。该模型还可以包括组织信息或类型标识符,使得指挥和控制组件可以考虑与同一物体相关联的体素以作出决策。
如图4进一步所示,度量引擎还可以接收和计算每个体素的各种度量或其他语义数据。此类度量数据或语义数据可能包括但不限于速度、方向、类型、相关物体等。生成三维模型时,不必区分静态物体和动态物体。相反,对于每个时间点的视觉数据,三维模型可以考虑体素是否被占用。然而,指挥和控制机制可能希望了解物体的运动学特性(例如,静态或动态)。因此,占用网络可以将体素数据与额外的度量/语义数据相关联,以促进占用网络处理结果的使用。

处理图像数据的结果与占用网络相关,其中一个或多个周围区域与对障碍物/物体的预测或估计相关。占用网络的处理结果可以独立于其他视觉系统处理技术,这些技术通过视觉系统数据检测和表征单个物体。

机器人结构图和架构

图5A展示了机器人600的结构框图。机器人600可能包含一个或多个电机602,这些电机驱动一个或多个执行器或操作关节604。一个或多个执行器604可能与机器人600的每个肢体的关节相关联。例如,在某些实施例中,每个肢体可能包含多个关节或连接点,每个关节可能包括多个执行器(例如,一个或多个旋转执行器和一个或多个线性执行器)。在某些实施例中,旋转执行器允许关节绕邻近连接点的轴旋转,而线性执行器允许连接点之间进行平移。

在某些实施例中,一个或多个肢体(如手臂、腿)可能包括一系列旋转执行器。一个旋转执行器可以与肩部或髋部相关联,另一个与肘部或膝盖相关,第三个与手腕或脚踝相关。当然,单个肢体中可以使用多于或少于三个旋转执行器,这仍然符合本披露的范围。

图5B和图5C展示了执行器或操作关节604的示例。在某些实施例中,机器人600包含28个执行器604。当然,机器人600可以使用多于或少于28个执行器,仍符合本披露的范围。任何给定肢体中执行器604的数量和位置是根据使肢体实现六自由度的运动(如前后、上下、左右、偏航、俯仰、滚动)来选择的。

在某些实施例中,一个或多个电机602可以是电动的、气动的或液压的。电动机可能包括感应电动机、永磁电动机等。在某些实施例中,一个或多个电机602驱动一个或多个执行器604。每个执行器604可能与一个电机602相关联。

图5E、5G和5I展示了旋转执行器500的示例实施例。在一些实施例中,旋转执行器500可以包括机械离合器502和角接触球轴承504,这些组件连接在轴506上,并集成在旋转执行器500的高速侧510上。旋转执行器500还可能在低速侧520上包括交叉滚子轴承512,以及在高速侧和低速侧之间设置波形齿轮514。此外,旋转执行器500可能包含安装在转子513外表面的磁铁516。旋转执行器500还可能包括一个输入位置传感器522,检测高速侧510的角位置,以及一个输出位置传感器524,检测低速侧520的角位置,还有一个非接触式扭矩传感器518,监控旋转执行器500的输出扭矩。

图5F、5H和5J展示了线性执行器550的示例实施例。在某些实施例中,线性执行器550可能包含安装在低速侧560的行星滚子552,位于低速侧的执行器轴561和高速侧的转子574之间,以提供稳定性。线性执行器550还可能包含反转滚珠丝杠554,用作低速侧和高速侧之间的齿轮传动装置,以提高效率和耐久性。线性执行器550还可能在高速侧的两端分别包含滚珠轴承562和四点接触轴承564。线性执行器550还可能包括一个定子572,以及一个安装在转子574外表面的磁铁566。此外,线性执行器550可能包括一个力传感器567,用于监控主轴580上的力,以及一个位置传感器568,用于检测转子574的角位置。

机器人600的电池和通信架构


机器人600可能包括电池606,这些电池组由多个电池组成,常用于为电动机提供电力。如图5D所示,展示了集成在机器人600中的电池组,带有垂直定向的电池和保护外壳。

机器人600还包括通信主干608,旨在为处理器610、电机602、执行器604、电池组件606、传感器等提供通信功能。通信主干608可以直接连接各个组件,通过一个或多个通信回路形成冗余机制,使得即便某些组件出现故障,其他组件的通信功能也不受影响。

处理器系统120用于处理数据,例如来自机器人600周围图像传感器的图像。此外,处理器系统120可以输出和接收信息(例如用户输入)。

执行器设计选择和优化


图6展示了用于左髋关节偏航(hip yaw)的执行器604的目标和方法,包括执行器的扭矩和速度。图7展示了这些目标与系统成本和执行器质量的关联。图8类似于图7,但展示了用于选择执行器优化设计的多个关联。图9展示了图6中的执行器运动性能相关的扭矩和速度数据。

一种选择执行器的方法在图6至图9中被描述,通过对机器人600的每个位置或关节的各种运动进行分析,以确定每个位置应该使用哪种执行器。例如,图10展示了性能图(如系统成本图)可用于机器人的每个位置的每种运动(如右肩偏航、右肩滚动、右肩俯仰等)。该方法可以创建多个位置的运动类型性能图,然后按共性将这些运动类型分组。在某些实施例中,多个位置的运动类型可分为六类,每类对应不同的执行器。

例如,图10中展示的执行器系统可以包括:

第一类执行器1002,安装在机器人躯干、肩部和髋部位置;

第二类执行器1004,安装在机器人腕部位置;

第三类执行器1006,也安装在腕部位置;

第四类执行器1008,安装在肘部和踝部位置;

第五类执行器1010,安装在躯干和髋部位置;

第六类执行器1012,安装在膝盖和髋部位置。

自动化和变异

上述所有过程可以通过软件代码模块在计算系统上全自动执行。代码模块可存储在任何非易失性计算机可读介质中。一些或所有方法也可在专用硬件中实现。

所描述的各种逻辑模块、引擎等可以通过诸如处理单元、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他逻辑设备、离散硬件组件等实现,并执行所述功能。

总结来说,机器人600的设计和功能具备高度灵活性,支持多种执行器选择、自动化控制、以及组件冗余机制,保证了其在复杂环境中的运行稳定性和高效性。

声明:本文素材来源于 https://patentimages.storage.googleapis.com/57/09/54/cf5ead653dec6d/WO2024072984A1.pdf 敬原作者。侵权可后台联系删除。

篇幅所限,以上仅摘录部分内容。

如需获取英文原版、中英双语版

请加入知识星球,并搜索编号“A211”获取详细资料。

另在知识星球有一篇非公开资料

航天器天文导航技术的研究进展(编号S117)


AI工业
树立大江大海大格局,练基础基层基本功。共同打造落地的、一流的工业智能产品。
 最新文章