释放双眼，带上耳机，听听看~！

自动微分

Pytorch中所有神经网络的核心是autograd包，我们先简单的来了解下这个包，然后来训练第一个神经网络。

autograd包为tensor上所有操作提供了自动微分功能。Pytorch是一个先运行后定义（define-by-run）的网络框架，是一种动态网络图结构，因此代码如何运行决定了如何计算反向传播，并且每次迭代，反向传播都可能不同。

张量（Tensor）

torch.Tensor 是autograd包的核心，如果把.requires_grad设置为True，那么它就会跟踪tensor上的所有操作，计算完之后调用.backward()自动计算梯度，这个tensor的梯度将会累积到.grad属性中。

如果要停止tensor追踪操作历史，可以调用.detach()，这样在以后的计算中阻止计算操作被追踪。

停止追踪操作历史同样还可以将代码块放进with torch.no_grad():中，这种做法在模型评估时候非常有帮助，因为模型可能包含requires_grad=True的可训练参数，但是我们并不需要它们的梯度值。

自动微分实现中还有一个非常重要类—— Function。

Tensor和Function是互联的，它们组成一个非循环图，记录了完整的计算过程。每个tensor都有一个.grad_fn属性指向了创建这个Tensor的Function（用户自己创建的Tensor类型除外，它们的grad_fn为None）。

如果想要计算Tensor的导数，可以调用.backward()。如果tensor是标量（即它包含一个元素），那么不需要为backward()指定任何参数，如果有多个元素，那么就需要指定梯度参数。

现在我们创建一个tensor并设置requires_grad=True来追踪计算。


1
2
3
4
1x = torch.ones(2, 2, requires_grad=True)

2print(x)

3

4

结果：


1
2
3
4
1tensor([[1., 1.],

2        [1., 1.]], requires_grad=True)

3

4

再来做一个tensor操作把：


1
2
3
4
1y = x + 2

2print(y)

3

4

结果：


1
2
3
4
1tensor([[3., 3.],

2        [3., 3.]], grad_fn=&lt;AddBackward0&gt;)

3

4

y是由一个操作得出来的，因此它有grad_fn属性：


1
2
3
1print(y.grad_fn)

2

3

结果：


1
2
3
1&lt;AddBackward0 object at 0x00000240692EF470&gt;

2

3

在y上再做一些操作：


1
2
3
4
5
1z = y * y * 3

2out = z.mean()

3print(z, out)

4

5

结果：


1
2
3
4
1tensor([[27., 27.],

2        [27., 27.]], grad_fn=&lt;MulBackward0&gt;) tensor(27., grad_fn=&lt;MeanBackward1&gt;)

3

4

requires_grad属性默认为False。


1
2
3
4
5
6
7
8
9
1a = torch.randn(2, 2)

2a = ((a * 3) / (a - 1))

3print(a.requires_grad)

4a.requires_grad_(True)

5print(a.requires_grad)

6b = (a * a).sum()

7print(b.grad_fn)

8

9

结果：


1
2
3
4
5
1False

2True

3&lt;SumBackward0 object at 0x000001D3B315F438&gt;

4

5

梯度（Gradients）

现在我们进行反向传播计算梯度，因为out只包含一个标量，out.backward()与out.backward(torch.tensor(1.))等价。


1
2
3
1out.backward()

2

3

现在计算d(out)/d(x)


1
2
3
1print(x.grad)

2

3

结果：


1
2
3
4
1tensor([[4.5000, 4.5000],

2        [4.5000, 4.5000]])

3

4

那么4.5这个数值是如何得到的呢，下面是计算过程：

$$out=\frac{1}{4} \sum_{i} z_i$$
$$z_i=3y_i^2=3(x_i+2)^2$$
$$\frac{\partial out}{\partial x_i} = \frac{3}{2} (x_i+2)$$
$$\frac{\partial out}{\partial x_i} |_{x_i=1} = \frac{9}{2} = 4.5$$

从数学上说，对于函数$\vec y=f(\vec x)$, $\vec y$关于$\vec x$的梯度是一个雅可比矩阵（Jacobian matrix）：

$$J = \begin{pmatrix} \frac{\partial y_1}{\partial x_1} & ··· & \frac{\partial y_1}{\partial x_n}\ ⋮ & ⋱ & ⋮ \ \frac{\partial y_m}{\partial x_1} & ··· & \frac{\partial y_m}{\partial x_n} \end{pmatrix}$$

一般来说torch.autograd是一个计算向量-雅可比点积的计算引擎。给定任意一个向量$v = (v_1 \space v_2 \space ··· \space v_m)^T$，计算$v^T·J$。如果$v$恰好是一个标量函数$l=g(\vec y)$的梯度，即$v = (\frac{\partial l}{\partial y_1} \space ··· \space \frac{\partial l}{\partial y_m})^T$，那么根据链式法则，向量-雅可比的点积就是$l$关于$\vec x$的梯度：

$$J^T·v = \begin{pmatrix} \frac{\partial y_1}{\partial x_1} & ··· & \frac{\partial y_m}{\partial x_1}\ ⋮ & ⋱ & ⋮ \ \frac{\partial y_1}{\partial x_n} & ··· & \frac{\partial y_m}{\partial x_n} \end{pmatrix} \begin{pmatrix} \frac{\partial l}{\partial y_1} \ ⋮ \ \frac{\partial l}{\partial y_m} \end{pmatrix} = \begin{pmatrix} \frac{\partial l}{\partial x_1} \ ⋮ \ \frac{\partial l}{\partial x_n} \end{pmatrix}$$

注意：$v^T·J$得到的是一个行向量，我们可以通过计算$J^T·v$来得到它的列向量。

这种向量-雅可比点积的特性使得计算非标量输出的梯度非常方便。

下面来看一个例子：


1
2
3
4
5
6
7
8
9
1x = torch.randn(3, requires_grad=True)

2

3y = x * 2

4while y.data.norm() &lt; 1000:

5    y = y * 2

6

7print(y)

8

9

结果：


1
2
3
1tensor([-358.4211, -803.5598,  780.2765], grad_fn=&lt;MulBackward0&gt;)

2

3

可以看出y已经不是一个标量了，torch.autograd不能直接计算出雅可比矩阵，不过我们可以在反向传播的时候传入一个向量作为参数来计算向量-雅可比点积：


1
2
3
4
5
6
1v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)

2y.backward(v)

3

4print(x.grad)

5

6

结果：


1
2
3
1tensor([5.1200e+01, 5.1200e+02, 5.1200e-02])

2

3

{{userData.name}}已认证

PyTorch深度学习60分钟快速上手（二），自动微分。

自动微分

张量（Tensor）

梯度（Gradients）

MySQL和MongoDB数据相互迁移

Ubuntu上NFS的安装配置

{{userData.name}}已认证

自动微分

张量（Tensor）

梯度（Gradients）

Related posts:

MySQL和MongoDB数据相互迁移

Ubuntu上NFS的安装配置

Docker搭建Redis集群

亿级Web系统搭建——单机到分布式集群

Tomcat负载均衡和集群环境的搭建

清除MAC 可清除空间