发布时间:2025-01-18 18:01
本文继续围绕下面这篇论文从试验的角度解析基于Transformer采用Poly-Encoder的架构是如何来平衡模型的速度和质量表现,以及试验中在模型表现和推理时间等方面Poly-encoder与Bi-encoder,Cross-encoder架构的对比等。
五、试验部分
如下图所示,有以下几种方法来从最基本的Transformer的输出(h 1 ctxt, ..., h N ctxt)推导出context vectors(y 1 ctxt, ..., y m ctxt):
-对m个code(c1,…,cm)进行学习,如上下文ci通过注意力机制和所有输出(h 1 ctxt, ..., h N ctx