每周论文11

1️⃣[Multi-Head Attention with Disagreement Regularization]

EMNLP的短文。

鼓励transformer中head与head之间的差异。

加了三种正则化方法:
①on subspace

②on attention position

③on output

没什么亮点。


2️⃣[Dropout: A Simple Way to Prevent Neural Networks from Overfitting]

经典论文。
dropout方法很简单,但如何想到,其背后的intuition,以及一些现象很有启发意义。
仅罗列一些intuition/motivation以及现象:

  1. 网络复杂关系学到很多噪声,导致overfitting
  2. 最好的regularization方法是对所有的parameter setting的结果进行average。这就是贝叶斯方法, dropout是对该方法进行近似,论文也提到了model combination
  3. dropout能够减少unit之间复杂的co-adaptation,能够更鲁棒,也就是说,不需要依赖其他unit去纠正自己的错误。each hidden unit in a neural network trained with dropout must learn to work with a randomly chosen sample of other units. This should make each hidden unit more robust and drive it towards creating useful features on its own without relying on other hidden units to correct its mistakes
  4. dropout的特性:sparsity。标准的网络在训练过程中会固化其他unit的错误,导致复杂的co-adaptation,但这种复杂的adaptation会导致泛化性的降低,因为对于未见到的数据这种复杂的adaptation是没用的。因此dropout的网络中每个unit都要学会自己纠正自己的错误,因此每个unit能够独立学到数据的一部分特性。dropout会导致稀疏化,每次都只会有一小部分的activation高。使用dropout配合高的学习率比较好,因为dropout可能会导致gradient之间互相cancel,同时也可以使用高的momentum。