每周论文10

1️⃣[Regularization of Neural Networks using DropConnect]

在dropout的基础上提出dropconnect。与dropout不同的是,dropconnect对weight进行drop而不是对layer进行drop。

创新之处在于inference的时候和dropout不同。

训练

inference

在inference的时候通过高斯采样的方法去模拟训练时的伯努利分布。
intuition
本文对dropout在inference简单对unit进行缩放进行反思,认为这在数学上并不合理,因此提出用高斯分布去采样。


2️⃣[Attentive Pooling Networks]

提出attentive pooling机制,用以answer selection。
(什么是answer selection:给定一个问题,给定多个答案候选,要从答案选项中选择正确的答案。)

传统answer selection:

首先将词转化成词向量,接着通过bi-LSTM或CNN获得一个矩阵表示,接下来对Q和A分别进行max-pooling获得固定表示,最后通过cos距离判断答案是否是正确答案,从答案候选中选择分数最高的。

但这样的问题在于Q和A之间没有交互。

本文利用attention作为Q和A的交互。

获得Q和A矩阵的方式是一致的。
接下来,首先计算一个G矩阵,通过双线性attention公式获得:

G所代表的意义是Q和A的每个词之间的对齐:对于第i行来说,代表Q的第i个词和A中所有词的一个分数;对于第j列来说,代表第j个词和Q中所有词的分数。

接下来对G的行和列分别进行max-pooling操作:

此步代表选择与某词关系最重要的词。

接下来对g分别进行softmax,再分别进行点积以获得最终向量表示:

同样,最终使用cos距离计算相似度。


3️⃣[Improved Regularization of Convolutional Neural Networks with Cutout]

是从数据增强和dropout的角度:

dropout in convolutional layers simply acts to increase robustness to noisy inputs, rather than having the same model averaging effect that is observed in fully-connected layers

某个输入被移去,所有后面相关的的feature map都被移去:

In this sense, cutout is much closer to data augmentation than dropout, as it is not creating noise, but instead generating images that appear novel to the network

其实只是将输入随机drop掉一块。