每周论文37

本周论文:

  1. TENER: Adapting Transformer Encoder for Named Entity Recognition

[TENER: Adapting Transformer Encoder for Named Entity Recognition]

提出一种经过修改的Transformer,能在NER任务上达到SOTA。

主要几个改动:
① 将position embedding改了。因为原先的position只对位置感知,对方向没有感知,而这个在NER任务上可能有帮助。

可以看到方向还是挺重要的:

而在transformer中position只能感知距离而没有方向感:

具体方法是将绝对位置换成相对位置:

$Q, K, V=H W_{q}, H_{d_{k}}, H W_{v}$

$R_{t-j}=\left[\ldots \sin \left(\frac{t-j}{10000^{2 i / d_{k}}}\right) \cos \left(\frac{t-j}{10000^{2 i / d_{k}}}\right) \ldots\right]^{T}$

$A_{t, j}^{r e l}=Q_{t} K_{j}^{T}+Q_{t} R_{t-j}^{T}+\mathbf{u} K_{j}^{T}+\mathbf{v} R_{t-j}^{T}$

$\operatorname{Attn}(Q, K, V)=\operatorname{softmax}\left(A^{r e l}\right) V$

参考了transformer-xl。

②减少参数
上述公式可以看出,减小了key的可学习参数;同时在multihead中,去掉了$W_O$:
$MultiHead (H)=\left[\text { head}^{(1)} ; \ldots ; \text { head}^{(n)}\right] W_{O}$

这是为了减少过拟合的风险。

③unscale dot-product attention
在原先计算dot-product时有除以一个$\sqrt{d_k}$,这是为了让attention分布更加平滑。而在这里去掉了这个scale,使得模型能够分配更加sharp的attention分布,这对NER这个任务有好处,因为NER只需要少数几个context就足够了。

这篇的工程意义很大,解决了实际问题。