每周碎片知识12

1️⃣[Transformer]

对Transformer新理解:

  • 可以将Transformer理解成一张全连接图,其中每个节点与其他节点的关系通过attention权重表现。图关系是序列关系或者树关系的一般化。
  • 为什么要有multi-head?不仅仅是论文的解释,或许还可以理解成,对一个向量的不同部分(如第1维到20维,第21维到40维等)施以不同的attention权重,如果不使用multi-head,那么对于一个query,就只会有一个权重,而不同的维度有不同的重要性。

2️⃣[attention&capsule]

attention是收信息,query从value按权重获取信息,其中所有value的权重和是1。
capsule是发信息,对于$l-1$层的一个capsule来说,在传入到$l$层的k个capsule的信息,其权重和为1。