和yuzhe讨论了下一个我看来奇怪的attention公式
$e_{ij}= a^T * [h_i||h_j]$
这里的$e_{ij}$ 代表the importance between meta-path based node pairs (即两点i对j的重要性), $||$是concat符号。$h_i$代表点i的feature,$a$即为 attention vector (trainable)
但是这样的e能代表的重要性关系其实为:
- $a_0 * h_i$ 越大,代表点i“重要性”越大,即不分相对关系,不管你是j1,j2还是j3,对于i1,i2,只要$a_0 * h_{i1}>a_0 * h_{i2}$,,则 $e_{i1j} > e_{i2j}$。不论j是哪个点。但这真的能代表某些网络间的attention关系吗?
后面又看了google的那篇 what you need is attention,明显可解释性就强多了。
UPDATE:
DAmn, 这个bug被比我聪明的人发paper了
HOW ATTENTIVE ARE GRAPH ATTENTION NETWORKS?