Neural Networks

神经网络可以通过使用torch.nn包来创建
nn依赖于autograd来定义模型并求导。
一个nn.Module类包含各个层和一个forward(input)前向传播方法，该方法返回output

例如这个分类数字图像的网络：

classifies digit images network

这是个简单的前馈神经网络，它接受一个输入，然后一层接一层的传递，最后输出计算结果

一个神经网络的典型训练过程：

定义包含一些可学习的参数（或权重）的神经网络
在数据集上迭代
通过神经网络处理输入
计算损失函数（预测值与实际值的差值大小）
将梯度反向传播回网络的参数
更新网络参数，主要使用一个简单的更新法则：weight = weight - learning_rate * gradient

另参见：konosuba.xyz/blog/%E8%AE%AD%E7%BB%83%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E7%9A%84%E5%9F%BA%E6%9C%AC%E6%AD%A5%E9%AA%A4

定义网络

import torch
import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
    
    def __init__(self): # 构造方法
        super().__init__() # 复制并使用Net的父类的初始化方法，即先运行nn.Module的初始化函数
        
        # 卷积层
        self.conv1 = nn.Conv2d(1, 6, 5) 
        self.conv2 = nn.Conv2d(6, 16, 5) 
        
        # fc(full_connect)全连接函数，均为线性函数 y = Wx + b
        self.fc1 = nn.Linear(16 * 5 * 5, 120) 
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x): # 前向传播函数
        
        # 将 x 放入卷积层 conv
        # 经过激励函数 ReLu
        # 使用2x2窗口进行最大池化 Max_poolinhg
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        x = F.max_pool2d(F.relu(self.conv2(x)), 2) # (2, 2)也可直接换作 2

        # view 将 x 展开成一维的向量，总特征数并不改变，为接下来的全连接作准备。
        # view 的作用类似于Numpy中的reshape
        x = x.view(-1, self.num_flat_features(x))

        # 输入x经过 full_connect，再经过ReLU激活函数，然后更新x
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))

        # 输入x经过 full_connect 然后更新x
        x = self.fc3(x)
        return x

    def num_flat_features(self, x): # 计算x的总特征量(把每个数字都看作是一个特征)
                                    # 比如 x 是4*2*2的张量，那么它的特征总量就是16。

        # Pytorch 仅接受批输入（一次性输入多张图片）
        size = x.size()[1:]  # 考虑除了第一个维度以外的所有维度
        
        num_features = 1
        for s in size:
            num_features *= s
        return num_features


net = Net()
print(net)
'''
Output:
Net(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)
'''

super()函数使用参考：super() linear()函数使用参考：linear() relu

在模型中必须要定义 forward 函数，backward 函数（用来计算梯度）会被autograd自动创建。

可以在 forward 函数中使用任何针对 Tensor 的操作。

net.parameters()返回可被学习的参数（权重）列表和值:

params = list(net.parameters())
print(len(params)) 
print(params[0].size())  # conv1's .weight
# Output:
# 10
# torch.Size([6, 1, 5, 5])

测试网络

测试随机输入32×32。注：这个网络（LeNet）期望的输入大小是32×32，如果使用MNIST数据集来训练这个网络，请把图片大小重新调整到32×32

input = torch.randn(1, 1, 32, 32)
out = net(input)
print(out)
# Output:
# tensor([[-0.1102,  0.0936, -0.0787, -0.0155, -0.0480,  0.0496, -0.0683, -0.0112,
#         -0.0889,  0.0134]], grad_fn=<AddmmBackward>)

反向传播

将所有参数的梯度缓存清零，然后进行随机梯度的的反向传播：

net.zero_grad()
out.backward(torch.randn(1, 10))

Note

torch.nn 只支持小批量输入。整个 torch.nn 包都只支持小批量样本，而不支持单个样本。

例如，nn.Conv2d 接受一个4维的张量，

每一维分别是sSamples * nChannels * Height * Width（样本数*通道数*高*宽）。

如果你有单个样本，只需使用 input.unsqueeze(0) 来添加其它的维数

损失函数

损失函数接受一对 (output, target) 作为输入来计算一个值以估计网络的输出和目标值相差多少。

output为网络的输出，target为实际值

nn包中有很多不同的损失函数。

nn.MSELoss是一个比较简单的损失函数，它计算输出和目标间的均方误差:

output = net(input)
target = torch.randn(10)  # 随机值作为样例
target = target.view(1, -1)  # 使target和output的shape相同
criterion = nn.MSELoss()

loss = criterion(output, target)
print(loss)
# Output:
# tensor(1.1103, grad_fn=<MseLossBackward>)

现在，如果在反向过程中跟随loss ，使用它的 .grad_fn 属性，将看到如下所示的计算图。

input -> conv2d -> relu -> maxpool2d -> conv2d -> relu -> maxpool2d
          -> view -> linear -> relu -> linear -> relu -> linear
          -> MSELoss
          -> loss

所以，当我们调用 loss.backward()时,整张计算图都会根据loss进行微分，而且图中所有设置为requires_grad=True的张量将会拥有一个随着梯度累积的.grad张量。

为了说明，让我们向后退几步:

print(loss.grad_fn)  # MSELoss
print(loss.grad_fn.next_functions[0][0])  # Linear
print(loss.grad_fn.next_functions[0][0].next_functions[0][0])  # ReLU
# Output:
# <MseLossBackward object at 0x0000021C605F3B08>
# <AddmmBackward object at 0x0000021C605F3208>
# <AccumulateGrad object at 0x0000021C605F3B08>

反向传播

调用loss.backward()获得反向传播的误差。

但是在调用前需要清除已存在的梯度，否则梯度将被累加到已存在的梯度。

现在，我们将调用loss.backward()，并查看conv1层的偏差（bias）项在反向传播前后的梯度。

net.zero_grad()     # 清除梯度

print('conv1.bias.grad before backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)
''' 
Output: 
conv1.bias.grad before backward
tensor([0., 0., 0., 0., 0., 0.])
conv1.bias.grad after backward
tensor([ 0.0242,  0.0145, -0.0015,  0.0144,  0.0084,  0.0309])
'''

更新权重

在实践中最简单的权重更新规则是随机梯度下降（SGD）：

 ``weight = weight - learning_rate * gradient``

我们可以使用简单的Python代码实现这个规则：


learning_rate = 0.01
for f in net.parameters():
    f.data.sub_(f.grad.data * learning_rate)

但是当使用神经网络是想要使用各种不同的更新规则时，比如SGD、Nesterov-SGD、Adam、RMSPROP等，PyTorch中构建了一个包torch.optim实现了所有的这些规则：

import torch.optim as optim

# 创建优化器
optimizer = optim.SGD(net.parameters(), lr=0.01) # learning rate设为0.01

# 在训练循环中
optimizer.zero_grad()   # zero the gradient buffers
output = net(input)
loss = criterion(output, target)
loss.backward()
optimizer.step()    # Does the update