系列文章
《Graph Representation Learning》笔记 Chapter2

An Encoder-Decoder Perspective

编码 The Encoder

编码是将节点 $\mathcal{V}$ 映射至向量 embeddings $z_v ∈ \mathbb{R}^d$ 的函数， $d$ 为 embedding 的维数，表示为
$\mathcal{V} \to \mathbb{R}^d \\ ENC(v) = Z[v]$
其中 $\mathbb{R}^{|\mathcal{V}| × d}$ ， $Z [v]$ 代表 $Z$ 的第 $v$ 行。

解码 The Decoder

解码是根据 embeddings 重建图结构。比如，根据 $Z [u]$ 预测相邻节点 $\mathcal{N}(u)$ （邻接矩阵 $A [u]$ ）。标准方法是定义 pairwise decoders，表示为
$\mathbb{R}^d × \mathbb{R}^d \to \mathbb{R}^+$
它可以解释为预测节点对之间的相似性，目标是使重构损失最小
$DEC(ENC(u), ENC(v)) = DEC(z_u, z_v) ≈ S[u, v]$
其中， $S$ 是相似性矩阵（见Chapter2笔记），我们的目的是预测两节点是否相邻，所以 $\triangleq A$ ，即 $S$ 等价于 $A$ 。

Optimizing an Encoder-Decoder Model

为了实现我们的重构目标（损失最小），标准做法是最小化训练节点对集合 $\mathcal{D}$ 的重构损失
$\mathcal{L} = \sum_{(u, v) ∈ \mathcal{D}}{l(DEC(z_u, z_v), S[u, v])}$
其中， $\mathbb{R} × \mathbb{R} \to \mathbb{R}$ 是计算解码相似度与真实相似度之间偏差的损失函数。

Factorization-based approaches

Laplacian eigenmaps

定义解码为两节点 embeddings 之间的L2距离
$DEC(z_u, z_v) = \| z_u - z_v \|_2^2$
损失函数为解码后的值乘以权重，权重为相似性度量
$\mathcal{L} = \sum_{(u, v) ∈ \mathcal{D}}{DEC(z_u, z_v) · S[u, v]}$
直观来看，当相似节点的 embeddings 距离过大时，上式会惩罚模型。若构造 $S$ 使其满足邻接矩阵 $A$ 的属性
$\begin{aligned} \mathcal{L} &= \sum_{(u, v) ∈ \mathcal{D}}{\sum_d{(z_u[d] - z_v[d])^2S[u, v]}} \\ &= \sum_d{\sum_{(u, v) ∈ \mathcal{D}}{z_u[d]^2S[u, v] + z_v[d]^2S[u, v] - 2z_u[d]z_v[d]S[u, v]}} \\ &= \sum_d{2(\sum_{u ∈ \mathcal{D}}{z_u[d]^2D[u, u]} -\sum_{(u, v) ∈ \mathcal{D}}{z_u[d]S[u, v]z_v[d]})} \\ &= \sum_d{2(Z^TLZ)[d]} \end{aligned}$
其中 $\mathbb{R}^{|\mathcal{D}| × d}$ ，最小化 $L$ 与上一节讨论的谱聚类 spectral clustering 的解决方案相同，即选取最小的 $d$ 个 $L$ 的特征值所对应的特征向量郭建 embeddings 。

内积方法 Inner-product method

假定两节点之间的相似性与它们 embeddings 的点积成正比
$DEC(z_u, z_v) = z_u^Tz_v$
采用均方误差
$\begin{aligned} \mathcal{L} &= \sum_{(u, v) ∈ \mathcal{D}}{\|DEC(z_u, z_v) - S[u, v]\|_2^2} \\ &= \|Z^TZ - S\|_2^2 \end{aligned}$
GF 方法直接使用 $\triangleq A$ ，GraRep 方法使用 $A$ 的幂定义 $S$ ，HOPE 方法采用Chapter2中邻域重叠的方法定义 $S$ 。

Rabndom walk embeddings

DeepWalk and node2vec

我们的目标是学习 embeddings ，使其满足
$DEC(z_u, z_v) \triangleq \frac{e^{z_u^Tzv}}{\sum_{v_k ∈ \mathcal{V}}{e^{z_u^Tz_k}}} ≈ p_{\mathcal{G}, T}(v| u)$
其中 $p_{\mathcal{G}, T}(v| u)$ 是从节点 $u$ 以长度为 $T ∈ \{2, ..., 10\}$ 的路径到达 $v$ 的概率。
为了训练 embeddings ，需要最小化交叉熵损失
$\mathcal{L} = \sum_{(u, v) ∈ \mathcal{D}}{-log(DEC(z_u,z_v))}$
node2vec 引入了负样本
$\mathcal{L} = \sum_{(u, v) ∈ \mathcal{D}}{-log(σ(z_u^Tz_v)) - γ\mathbb{E}_{v_n \sim P_n(\mathcal{V})}[log(-σ(z_u^Tz_{v_n}))}]$
其中， $σ$ 代表 logistic 函数，可近似表示 $D E C$ ， $P_n(\mathcal{V})$ 表示负样本（两节点间没有边）集合的分布， $γ > 0$ 是超参数。

Large-scale information network embeddings(LINE)

LINE结合了两项 encoder-decoder ，第一项目的是编码一阶邻接信息，训练时的相似性度量 $S = A$ ，使用如下解码
$DEC(z_u, z_v) = \frac{1}{1+e^{-z_u^Tz_v}}$
第二项比较像 random walk 方法，解码形式与上式相同，但训练时的相似性度量 $S = A^2$