0%

attention

和yuzhe讨论了下一个我看来奇怪的attention公式

$e_{ij}= a^T * [h_i||h_j]$

这里的$e_{ij}$ 代表the importance between meta-path based node pairs (即两点ij的重要性), $||$是concat符号。$h_i$代表点i的feature,$a$即为 attention vector (trainable)

但是这样的e能代表的重要性关系其实为:

  • $a_0 * h_i$ 越大,代表点i“重要性”越大,即不分相对关系,不管你是j1,j2还是j3,对于i1,i2,只要$a_0 * h_{i1}>a_0 * h_{i2}$,,则 $e_{i1j} > e_{i2j}$。不论j是哪个点。但这真的能代表某些网络间的attention关系吗?

后面又看了google的那篇 what you need is attention,明显可解释性就强多了。

UPDATE:

DAmn, 这个bug被比我聪明的人发paper了

HOW ATTENTIVE ARE GRAPH ATTENTION NETWORKS?

https://arxiv.org/pdf/2105.14491.pdf