cde,世界上最好的 BERT 大小文本嵌入模型

学术   2024-10-09 14:36   湖北  

论文笔记分享,标题:Contextual Document Embeddings。hf地址:https://huggingface.co/jxm/cde-small-v1

常规的文本嵌入模型训练一般存在两个主要问题:

  1. 训练起来很复杂,需要很多技巧:如大batch、蒸馏、负样本...
  2. 训练好的嵌入模型,并不知道它们会被用在什么语料库中,因此所有文本都是以相同的方式编码的

针对(1),工作中开发了一种新的训练技术:上下文批处理。所有批次共享大量上下文,批次间差异大,批次内差异小。一个批次可能关于诺贝尔物理奖颁布给了Hinton,下一个批次可能关于小米su7。

对于(2),提出了一种新的上下文嵌入架构。这需要更改训练流程以包含上下文的信息,本质上,模型可以看到周围的额外文本,并据此更新嵌入内容。

在MTEB上,以143M参数来获得了65分的结果!

核心原理可以分两部分来看

  1. 损失,常规的对比学习中,训练目标通常是通过最大化正样本对的相似度,最小化负样本对的相似度来训练。这里,通过构建更困难的batch(即更难区分的负样本对)来提高模型的性能。整体流程就是组划分->过滤FN->packing->对比训练
  1. 上下文文档嵌入。如何在编码文档时考虑到上下文信息。

分为2阶段来完成,第一阶段就是获取上下文的嵌入结果,然后将这些上下文嵌入作为第二阶段编码器的输入。需要注意的是,由于文档是无序的,所以需要移除位置信息;为了提高训练效率,同一批中上下文共享,避免第一阶段的重复计算。


NLP前沿
一手ai news分享 \x26amp; 热点paper解读
 最新文章