每周论文4

1️⃣[Character-Level Language Modeling with Deeper Self-Attention]

将transformer用于character-level的语言模型中,通过添加多个loss来提高其表现以及加快拟合速度,同时加深transformer的层数,极大提升表现,12层的transformer layer能达到SOTA,而64层则有更多的提升。

普通RNN用于character-level language model:
将句子按character为单位组成多个batch,每个batch预测最后一个词,然后将该batch的隐状态传入下一个batch。也即“truncated backpropagation through time” (TBTT)。

如果用在Transformer,如下图,我们只预测$t_4$。

本文的一大贡献是多加了三种loss,并且有些loss的权值会随着训练的过程而逐渐减小,每个loss都会自己的schedule。这些loss加快了拟合速度,同时也提升了表现。

Loss

Multiple Positions

对于batch内而言,每个时间步t都要预测下一个词。

Intermediate Layer Losses

要求中间层也做出预测:

在这里,越底层的layer其loss权值越低。

Multiple Targets

每一个position,不仅仅要预测下一个词,还要预测下几个词,预测下一个词和预测下几个词的分类器是独立的。

Positional embedding

每一层的都添加一个不共享的可学习的positional embedding。


2️⃣[Self-Attention with Relative Position Representations]

提出使用相对位置替代Transformer的绝对位置信息,并在NMT上有一定的提升。

分解:
在原先的self-attention中,输出为:

其中:

现在我们考虑添加相对位置,其中相对位置信息在各层都是共享的:

$a_{ij}^K$的具体形式:


上式为了降低复杂度,不考虑长于k的相对位置信息。

考虑到transformer的并行性,为了并行性,我们考虑如下式子:

其中,第一项和原来的Transformer一致;第二项,通过reshape可以达到并行的效果,然后两项直接加起来。

实验证明,使用相对位置效果是有一定的提升的,而同时使用绝对位置和相对位置并没有提升。


3️⃣[WEIGHTED TRANSFORMER NETWORK FOR MACHINE TRANSLATION]

这篇被ICLR拒了,但有审稿人打了9分的高分。

对Transformer进行改进,拥有更好的效果和更小的计算代价。

传统的Transformer:

在本文中,先对head进行升维并乘以权重,过了FNN后,再乘以另一个权重。其中权重$\alpha$ $ \kappa$为可学习参数:

其中要求权重之和为1。即$\sum_{i=1}^{M}\alpha_i=1$,$\sum_{i=1}^{M}\kappa_i=1$。

文中对$\kappa$和$\alpha$作了解释。

κ can be interpreted as a learned concatenation weight and α as the learned addition weight

通过实验,发现该模型会有更好的正则化特性。同时效果也有一定提升,收敛速度更快:


4️⃣[You May Not Need Attention]

粗略地过了一遍,一些细节没有弄明白。

提出一种将encoder-decoder融合起来的模型,也即eager translation model,不需要attention,能够实现即时的翻译,也即读入一个词就能翻译一个词,同时不需要记录encoder的所有输出,因此需要很少的内存。

分为三步:
①pre-processing
进行预处理,使得源句子和目标句子满足eager feasible for every aligned pair of words $(s_i , t_j ), i ≤ j$。

首先通过现成的工具进行对齐操作(alignment),然后对于那些不符合eager feasible的有具体算法(没认真看)进行补padding。如图

我们还可以在target sentence的开头添加b个padding,使得模型能够在开始预测之前获取更多的source sentence的词。

②模型
两层的LSTM,输入是上一次的y和当前的x拼接起来直接传进去。

③post processing
在最终结果之前,将padding去掉。

在inference(也即beam search)时,还有几个操作/trick:

  • Padding limit
  • Source padding injection SPI

实验表明,eager model在长的句子表现超过传统带attention的NMT,而长句子的建模正是attention-based 的模型的一大挑战;而在短句子上就不如attention-based的NMT。