论文题目:Object Recognition as Next Token Prediction
论文链接:https://arxiv.org/pdf/2312.02142
代码链接:https://github.com/kaiyuyue/nxtp
一、摘要
我们提出了一种将物体姿态识别作为下一个标记预测的方法。其思路是应用一个语言解码器,通过图像嵌入自回归地预测文本标记,从而形成标签。为了将这种预测过程建立在自回归基础上,我们为解码器定制了一种非因果注意力掩码,包含两个关键特征:将来自不同标签的标记建模为独立的,并将图像标记视为前缀。这种掩码机制启发了一种高效的方法——一次性采样——以并行方式同时采样多个标签的标记,并在推理过程中根据其概率对生成的标签进行排序。为了进一步提高效率,我们提出了一种简单的策略,通过直接丢弃预训练语言模型的中间块来构建一个紧凑的解码器。这种方法产生了一个在性能上与完整模型相匹配但显著更高效的解码器。代码可在 github.com/kaiyuyue/nxtp 获取。
二、实验
这里展示部分结果,更多结果请参考论文。