关于数据
一般来说,对于图像、文本、音频或视频数据,可以使用标准的Python包来将这些数据加载为numpy array
,之后可以将这些array
转换为torch.*Tensor
- 对于图像,
Pillow
、OpenCV
包 - 音频,
scipy
、librosa
包 - 文本,可以使用原始
Python
和Cython
加载,或NLKT
和SpaCy
特别的,对于视觉任务,有一个包torchvision
,其中包含了处理类似Imagnet, CIFAR10, MNIST等常见数据集的方法,以及图像转换器,如torchvision.datasets
和torch.utils.data.DataLoader
torchvision
包不仅提供了巨大的便利,也避免了代码的重复。
在这里使用CIFAR10数据集,它有如下10个类别 :‘airplane’, ‘automobile’, ‘bird’, ‘cat’, ‘deer’, ‘dog’, ‘frog’, ‘horse’, ‘ship’, ‘truck’。
CIFAR-10的图像都是 3x32x32 大小的,即,3颜色通道,32x32像素。
训练一个图像分类器
- 使用
torchvision
加载和归一化CIFAR10训练集和测试集 - 定义一个卷积神经网络
- 定义损失函数
- 用训练集训练网络
- 用测试集测试网络
1.读取和归一化 CIFAR10
使用torchvision
可以非常容易得加载CIFAR10
import torch
import torchvision
import torchvision.transforms as transforms
torchvision
的输出是 [0,1]的PILImage图像,把它转化为归一化范围为[-1, 1]的张量
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
# 下载数据并加载到loader中
trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2)
testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)
classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')
'''
Output:
Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to ./data/cifar-10-python.tar.gz
Extracting ./data/cifar-10-python.tar.gz to ./data
Files already downloaded and verified
'''
我们展示一些训练图像
import matplotlib.pyplot as plt
import numpy
def imshow(img):
img = img / 2 + 0.5 # 未归一化
npimg = img.numpy()
plt.imshow(np.transpose(npimg, (1, 2,0)))
# 将数据转换为迭代器
dataiter = iter(trainloader)
images, labels = dataiter.next()
# 展示图象
imshow(torchvision.utils.make_grid(images))
# 展示图像标签
print(''.join('%5s' % classes[labels[j]] for j in range(4)))
2.定义一个卷积神经网络
从之前的神经网络一节复制神经网络代码,并修改为输入3通道图像。
import torch.nn as nn
import torch.nn.functional as F
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(3, 6, 5)
self.pool = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(6, 16, 5)
self.fc1 = nn.Linear(16 * 5 * 5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self, x):
x = self.pool(F.relu(self.conv1(x)))
x = self.pool(F.relu(self.conv2(x)))
x = x.view(-1, 16 * 5 * 5)
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x)
return x
net = Net()
3.定义损失函数和优化器
使用交叉熵作为损失函数,使用带动量的随机梯度下降优化
import torch.optim as optim
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.01, momentum=0.9)
4.训练网络
我们只需要在数据迭代器上循环,将数据输入给网络,并优化
for epoch in range(2):
running_loss = 0.0
for i, data in enumerate(trainloader, 0):
inputs, labels = data
# 梯度置零
optimizer.zero_grad()
# 获得输出->计算损失->反向传播->优化
outputs = net(input)
loss = critertion(outputs, labels)
loss.backward()
optimizer.step()
running_loss += loss.item()
if i % 2000 == 1999:
print('[%d, %5d] loss: %.3f' % (epoch+1, i+1, running_loss / 2000))
running_loss = 0.0
print('Finished Training')
'''
Output:
[1, 2000] loss: 2.216
[1, 4000] loss: 1.863
[1, 6000] loss: 1.669
[1, 8000] loss: 1.565
[1, 10000] loss: 1.524
[1, 12000] loss: 1.440
[2, 2000] loss: 1.396
[2, 4000] loss: 1.350
[2, 6000] loss: 1.349
[2, 8000] loss: 1.293
[2, 10000] loss: 1.312
[2, 12000] loss: 1.270
Finished Training
'''
快速保存我们训练的模型:
PATH = './cifar_net.pth' torch.save(net.state_dict(), PATH)
5.用测试集测试网络
我们在整个训练集上进行了2次训练,但是我们需要检查网络是否从数据集中学习到有用的东西。 通过预测神经网络输出的类别标签与实际情况标签进行对比来进行检测。 如果预测正确,我们把该样本添加到正确预测列表。
第一步,显示测试集中的图片并熟悉图片内容。
dataiter = iter(testloader)
images, labels = dataiter.next()
# 显示图片
imshow(torchvision.utils.make_grid(images))
print('GroundTruth: ', ' '.join('%5s' % classes[labels[j]] for j in range(4)))
再来看看神经网络预测的结果
ouputs = net(images)
# 输出是10个标签的概率,选取概率最高的那个标签
_, predicted = torch.max(outputs, 1) # 返回每一行中最大值的元素 _ 及其索引 predicted
print('Predicted: ', ' '.join('%5s' % classes[predicted[j]] for j in range(4)))
'''
Output:
Predicted: cat car car ship
'''
再看看网络在测试集上的结果:
correct = 0
total = 0
with torch.no_grad():
for data in testloader:
images, labels = data
outputs = net(images)
_, predicted = torch.max(outputs.data, 1)
total += labels.size(0)
correct += (predicted == labels).sum().item()
print('Accuracy of the network on the 10000 test images: %d %%' % (
100 * correct / total))
'''
Output:
Accuracy of the network on the 10000 test images: 54 %
'''
再分别看看不同标签的学习情况:
class_correct = list(0. for i in range(10))
class_total = list(0. for i in range(10))
with torch.no_grad():
for data in testloader:
images, labels = data
outputs = net(images)
_, predicted = torch.max(outputs, 1)
c = (predicted == labels).squeeze()
for i in range(4):
label = labels[i]
class_correct[label] += c[i].item()
class_total[label] += 1
for i in range(10):
print('Accuracy of %5s : %2d %%' % (
classes[i], 100 * class_correct[i] / class_total[i]))
'''
Output:
Accuracy of plane : 56 %
Accuracy of car : 73 %
Accuracy of bird : 42 %
Accuracy of cat : 33 %
Accuracy of deer : 34 %
Accuracy of dog : 62 %
Accuracy of frog : 57 %
Accuracy of horse : 62 %
Accuracy of ship : 52 %
Accuracy of truck : 73 %
'''
在GPU上训练
把一个神经网络移动到GPU上训练就像把一个Tensor转换GPU上一样简单。并且这个操作会递归遍历有所模块,并将其参数和缓冲区转换为CUDA张量。
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
# 确认我们的电脑支持CUDA,然后显示CUDA信息:
print(device)
# Output:
# cuda:0
假定device
是CUDA设备。
然后这些方法将递归遍历所有模块并将模块的参数和缓冲区 转换成CUDA张量:
net.to(device)
记住:inputs
, targets
和 images
也要转换。
inputs, labels = inputs.to(device), labels.to(device)
为什么我们没注意到GPU的速度提升很多?那是因为网络非常的小。
实践: 尝试增加你的网络的宽度(第一个nn.Conv2d
的第2个参数,第二个nn.Conv2d
的第一个参数,它们需要是相同的数字),看看你得到了什么样的加速。