Pytorch 循环神经网络 RNN

发布时间：2024-03-18 18:01

Pytorch 循环神经网络 RNN

0. 环境介绍

环境使用 Kaggle 里免费建立的 Notebook

教程使用李沐老师的动手学深度学习网站和视频讲解

小技巧：当遇到函数看不懂的时候可以按 Shift+Tab 查看函数详解。

1. 循环神经网络

1.1 潜变量自回归模型

$\"Pytorch$
使用潜变量 $h t $ 总结过去信息。

1.2 RNN

$\"Pytorch$
更新隐藏状态：
$H t = ϕ ( X t W x h + H t − 1 W h h + b h ) \\mathbf{H}_t = \\phi(\\mathbf{X}_t \\mathbf{W}_{xh} + \\mathbf{H}_{t-1} \\mathbf{W}_{hh} + \\mathbf{b}_h) Ht=ϕ(XtWxh+Ht−1Whh+bh)$
去掉 $H t − 1 W h h \\mathbf{H}_{t-1} \\mathbf{W}_{hh} Ht−1Whh$ 就是普通的 MLP。
输出：
$O t = H t W h q + b q \\mathbf{O}_t = \\mathbf{H}_t \\mathbf{W}_{hq} + \\mathbf{b}_q Ot=HtWhq+bq$

1.3 基于 RNN 的语言模型

$\"Pytorch$

1.4 困惑度（Perplexity）

衡量一个语言模型的好坏可以使用平均交叉熵：
$1 n ∑ t = 1 n − log ⁡ P ( x t ∣ x t − 1 , … , x 1 ) \\frac{1}{n} \\sum_{t=1}^n -\\log P(x_t \\mid x_{t-1}, \\ldots, x_1) n1t=1∑n−logP(xt∣xt−1,…,x1)$
其中， $P$ 是语言模型的预测概率， $x t $ 是真实词。

由于历史原因，自然语言处理的科学家更喜欢使用一个叫做困惑度（perplexity）的量：
$exp ⁡ ( − 1 n ∑ t = 1 n log ⁡ P ( x t ∣ x t − 1 , … , x 1 ) ) \\exp\\left(-\\frac{1}{n} \\sum_{t=1}^n \\log P(x_t \\mid x_{t-1}, \\ldots, x_1)\\right) exp(−n1t=1∑nlogP(xt∣xt−1,…,x1))$
代表平均每次可能的选项：

在最好的情况下，模型总是完美地估计标签词元的概率为 $1$ 。在这种情况下，模型的困惑度为 $1$ 。
在最坏的情况下，模型总是预测标签词元的概率为 $0$ 。在这种情况下，困惑度是正无穷大。

假如困惑度为 $k$ ，表示预测的 $k$ 个词中的任意一个都有可能。

1.5 梯度裁剪

迭代中计算这 $T$ 个时间步上的梯度，在反向传播过程中产生长度为 $O (T)$ 的矩阵乘法链，导致数值不稳定。

梯度裁剪能有效预防梯度爆炸：

如果梯度长度超过 $θ \\theta θ$ ，那么拖影回长度 $θ \\theta θ$
$g ← min ⁡ ( 1 , θ ∥ g ∥ ) g \\mathbf{g} \\leftarrow \\min \\left(1, \\frac{\\boldsymbol{\\theta}}{\\|\\mathbf{g}\\|}\\right) \\mathbf{g} g←min(1,∥g∥θ)g$

2. 应用 RNN

基础版本
$\"Pytorch$
文本生成
$\"Pytorch$
文本分类
$\"Pytorch$
问答、机器翻译
$\"Pytorch$
tag 生成
$\"Pytorch$

3. RNN 从零开始实现

3.1 导入数据集

!pip install -U d2l
%matplotlib inline
import math
import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l

batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

设置 batch_size 为 32，num_steps 表示每个小批量具有多长的序列。

3.2 One-hot 编码

将每个词元的索引映射为相互不同的单位向量。直接调用 torch 内的函数：

F.one_hot(torch.tensor([0, 2]), len(vocab)), len(vocab)

这里的词表 vocab 长度为 $28$ ，这是因为是按照字符分的， $28 = 26$ 个字母 $+ 1$ 个空格字符 $+ 1$ 个位

小批量输入形状为（批量大小，时间步数）：

X = torch.arange(10).reshape((2, 5))
F.one_hot(X.T, 28).shape

以上例子是假设批量大小为 2，时间步数为 5，可以理解为 2 个句子，每个句子 5 个单词（或者字符）。
为什么 One-hot 编码需要对 X 进行转置？
方便按照时间顺序访问数据，一步一步地更新小批量数据的隐状态。

3.3 初始化模型参数

隐藏单元数 num_hiddens 是一个可调的超参数。device 可以设置使用 GPU 训练。当训练语言模型时，输入和输出来自相同的词表。因此，它们具有相同的维度，即词表的大小：

def get_params(vocab_size, num_hiddens, device):
    num_inputs = num_outputs = vocab_size
	
	# 正态分布初始化
    def normal(shape):
        return torch.randn(size=shape, device=device) * 0.01

    # 隐藏层参数
    W_xh = normal((num_inputs, num_hiddens))
    W_hh = normal((num_hiddens, num_hiddens))
    b_h = torch.zeros(num_hiddens, device=device)
    # 输出层参数
    W_hq = normal((num_hiddens, num_outputs))
    b_q = torch.zeros(num_outputs, device=device)
    # 附加梯度
    params = [W_xh, W_hh, b_h, W_hq, b_q]
    for param in params:
        param.requires_grad_(True)
    return params

3.4 初始化隐藏状态

为了定义循环神经网络模型，我们首先需要一个 init_rnn_state 函数在初始化时返回隐状态。这个函数的返回是一个张量，张量全用 $0$ 填充，形状为（批量大小，隐藏单元数）：

def init_rnn_state(batch_size, num_hiddens, device):
    return (torch.zeros((batch_size, num_hiddens), device=device), )

大概意思是 $0$ 时刻的时候没有上一层的隐藏状态，所以需要一个初始的隐藏状态。

3.5 RNN 模型

rnn 函数定义了如何在一个时间步内计算隐状态和输出：

def rnn(inputs, state, params):
    # inputs的形状：(时间步数量，批量大小，词表大小)
    W_xh, W_hh, b_h, W_hq, b_q = params
    H, = state
    outputs = []
    # X的形状：(批量大小，词表大小)
    for X in inputs:
    	# (batch_size, vacab_size) * (vacab_size, vacab_size)
        H = torch.tanh(torch.mm(X, W_xh) + torch.mm(H, W_hh) + b_h)
        Y = torch.mm(H, W_hq) + b_q
        outputs.append(Y)
    return torch.cat(outputs, dim=0), (H,)

最后返回值形状：（batch_size*num_steps，vocab_size）

创建一个类包装函数：

class RNNModelScratch: #@save
    \"\"\"从零开始实现的循环神经网络模型\"\"\"
    def __init__(self, vocab_size, num_hiddens, device,
                 get_params, init_state, forward_fn):
        self.vocab_size, self.num_hiddens = vocab_size, num_hiddens
        self.params = get_params(vocab_size, num_hiddens, device)
        self.init_state, self.forward_fn = init_state, forward_fn

    def __call__(self, X, state):
        X = F.one_hot(X.T, self.vocab_size).type(torch.float32)
        return self.forward_fn(X, state, self.params)

    def begin_state(self, batch_size, device):
        return self.init_state(batch_size, self.num_hiddens, device)

实现 __call__() 方法，使的实例对象变为了可调用对象。详见：http://c.biancheng.net/view/2380.html

检查输出是否具有正确的形状：

num_hiddens = 512
net = RNNModelScratch(len(vocab), num_hiddens, d2l.try_gpu(), get_params,
                      init_rnn_state, rnn)
state = net.begin_state(X.shape[0], d2l.try_gpu())
Y, new_state = net(X.to(d2l.try_gpu()), state)
Y.shape, len(new_state), new_state[0].shape

$\"在这里插入图片描述\"$
我们可以看到输出形状是（时间步数 $× \\times ×$ 批量大小，词表大小），而隐状态形状保持不变，即（批量大小，隐藏单元数）。

3.6 预测函数

生成 prefix 之后的新字符，在循环遍历 prefix 中的开始字符时，我们不断地将隐状态传递到下一个时间步，但是不生成任何输出。这被称为预热（warm-up）期，因为在此期间模型会自我更新（例如，更新隐状态），但不会进行预测。预热期结束后，隐状态的值通常比刚开始的初始值更适合预测，从而预测字符并输出它们。

# num_preds 为预测数量
def predict_ch8(prefix, num_preds, net, vocab, device):  #@save
    \"\"\"在prefix后面生成新字符\"\"\"
    # 生成初始的隐藏状态，因为是对一个字符串进行预测，所以 batch_size=1
    state = net.begin_state(batch_size=1, device=device)
    # 拿到第一个字符的下标
    outputs = [vocab[prefix[0]]]
    # 将上一个预测后的输出变成下一个的输入
    get_input = lambda: torch.tensor([outputs[-1]], device=device).reshape((1, 1))
    for y in prefix[1:]:  # 预热期
        _, state = net(get_input(), state)
        outputs.append(vocab[y])
    for _ in range(num_preds):  # 预测num_preds步
        y, state = net(get_input(), state)
        outputs.append(int(y.argmax(dim=1).reshape(1)))
    return \'\'.join([vocab.idx_to_token[i] for i in outputs])

predict_ch8(\'time traveller \', 10, net, vocab, d2l.try_gpu())

$\"在这里插入图片描述\"$
将前缀指定为 time traveller，并基于这个前缀生成 $10$ 个后续字符。鉴于我们还没有训练网络，它会生成荒谬的预测结果。

3.7 梯度裁剪

当时间 $T$ 过于大的时候也会产生过长的乘法链，可能导致梯度爆炸或者梯度消失，使用梯度裁剪可以支持稳定训练，梯度范数永远不会超过 $θ \\theta θ$ ：
$g ← min ⁡ ( 1 , θ ∥ g ∥ ) g \\mathbf{g} \\leftarrow \\min\\left(1, \\frac{\\theta}{\\|\\mathbf{g}\\|}\\right) \\mathbf{g} g←min(1,∥g∥θ)g$

def grad_clipping(net, theta):  #@save
    \"\"\"裁剪梯度\"\"\"
    if isinstance(net, nn.Module):
        params = [p for p in net.parameters() if p.requires_grad]
    else:
        params = net.params
    norm = torch.sqrt(sum(torch.sum((p.grad ** 2)) for p in params))
    if norm > theta:
        for param in params:
            param.grad[:] *= theta / norm

3.8 训练

定义在一个 epoch 内训练模型：

def train_epoch_ch8(net, train_iter, loss, updater, device, use_random_iter):
    \"\"\"训练网络一个迭代周期（定义见第8章）\"\"\"
    state, timer = None, d2l.Timer()
    metric = d2l.Accumulator(2)  # 训练损失之和,词元数量
    for X, Y in train_iter:
        if state is None or use_random_iter:
            # 在第一次迭代或使用随机抽样时初始化state
            state = net.begin_state(batch_size=X.shape[0], device=device)
        else:
            if isinstance(net, nn.Module) and not isinstance(state, tuple):
                # state对于nn.GRU是个张量
                state.detach_()
            else:
                # state对于nn.LSTM或对于我们从零开始实现的模型是个张量
                for s in state:
                    s.detach_()
        y = Y.T.reshape(-1)
        X, y = X.to(device), y.to(device)
        y_hat, state = net(X, state)
        l = loss(y_hat, y.long()).mean()
        if isinstance(updater, torch.optim.Optimizer):
            updater.zero_grad()
            l.backward()
            grad_clipping(net, 1)
            updater.step()
        else:
            l.backward()
            grad_clipping(net, 1)
            # 因为已经调用了mean函数
            updater(batch_size=1)
        metric.add(l * y.numel(), y.numel())
    return math.exp(metric[0] / metric[1]), metric[1] / timer.stop()

def train_ch8(net, train_iter, vocab, lr, num_epochs, device,
              use_random_iter=False):
    \"\"\"训练模型（定义见第8章）\"\"\"
    loss = nn.CrossEntropyLoss()
    animator = d2l.Animator(xlabel=\'epoch\', ylabel=\'perplexity\',
                            legend=[\'train\'], xlim=[10, num_epochs])
    # 初始化
    if isinstance(net, nn.Module):
        updater = torch.optim.SGD(net.parameters(), lr)
    else:
        updater = lambda batch_size: d2l.sgd(net.params, lr, batch_size)
    predict = lambda prefix: predict_ch8(prefix, 50, net, vocab, device)
    # 训练和预测
    for epoch in range(num_epochs):
        ppl, speed = train_epoch_ch8(
            net, train_iter, loss, updater, device, use_random_iter)
        if (epoch + 1) % 10 == 0:
            print(predict(\'time traveller\'))
            animator.add(epoch + 1, [ppl])
    print(f\'困惑度 {ppl:.1f}, {speed:.1f} 词元/秒 {str(device)}\')
    print(predict(\'time traveller\'))
    print(predict(\'traveller\'))

使用顺序读取训练：

num_epochs, lr = 500, 1
train_ch8(net, train_iter, vocab, lr, num_epochs, d2l.try_gpu())

$\"Pytorch$
使用随机采样训练：

net = RNNModelScratch(len(vocab), num_hiddens, d2l.try_gpu(), get_params,
                      init_rnn_state, rnn)
train_ch8(net, train_iter, vocab, lr, num_epochs, d2l.try_gpu(),
          use_random_iter=True)

$\"Pytorch$

3.9 去掉梯度剪裁后训练的结果

代码中注释掉梯度剪裁的代码再进行训练，可以看到去掉梯度裁剪后，训练过程中 loss 直接变成了 NaN：
$\"Pytorch$
我运行了六次，有四次都是这种结果。

4. RNN 简洁实现

4.1 导入数据集

!pip install -U d2l
import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l

batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

4.2 定义模型

num_hiddens = 256
rnn_layer = nn.RNN(len(vocab), num_hiddens)

4.3 初始化隐藏状态

初始化隐状态，它的形状是（隐藏层数，批量大小，隐藏单元数）：

state = torch.zeros((1, batch_size, num_hiddens))
state.shape

$\"在这里插入图片描述\"$

通过一个隐状态（1，32，256）和一个输入（35，32，len(vocab)），我们就可以用更新后的隐状态计算输出：

X = torch.rand(size=(num_steps, batch_size, len(vocab)))
Y, state_new = rnn_layer(X, state)
Y.shape, state_new.shape

$\"在这里插入图片描述\"$

4.4 封装

#@save
class RNNModel(nn.Module):
    \"\"\"循环神经网络模型\"\"\"
    def __init__(self, rnn_layer, vocab_size, **kwargs):
        super(RNNModel, self).__init__(**kwargs)
        self.rnn = rnn_layer
        self.vocab_size = vocab_size
        self.num_hiddens = self.rnn.hidden_size
        # 如果RNN是双向的（之后将介绍），num_directions应该是2，否则应该是1
        if not self.rnn.bidirectional:
            self.num_directions = 1
            self.linear = nn.Linear(self.num_hiddens, self.vocab_size)
        else:
            self.num_directions = 2
            self.linear = nn.Linear(self.num_hiddens * 2, self.vocab_size)

    def forward(self, inputs, state):
        X = F.one_hot(inputs.T.long(), self.vocab_size)
        X = X.to(torch.float32)
        Y, state = self.rnn(X, state)
        # 全连接层首先将Y的形状改为(时间步数*批量大小,隐藏单元数)
        # 它的输出形状是(时间步数*批量大小,词表大小)。
        output = self.linear(Y.reshape((-1, Y.shape[-1])))
        return output, state

    def begin_state(self, device, batch_size=1):
        if not isinstance(self.rnn, nn.LSTM):
            # nn.GRU以张量作为隐状态
            return  torch.zeros((self.num_directions * self.rnn.num_layers,
                                 batch_size, self.num_hiddens),
                                device=device)
        else:
            # nn.LSTM以元组作为隐状态
            return (torch.zeros((
                self.num_directions * self.rnn.num_layers,
                batch_size, self.num_hiddens), device=device),
                    torch.zeros((
                        self.num_directions * self.rnn.num_layers,
                        batch_size, self.num_hiddens), device=device))

4.5 预测

基于一个具有随机权重（未训练）的模型进行预测：

device = d2l.try_gpu()
net = RNNModel(rnn_layer, vocab_size=len(vocab))
net = net.to(device)
d2l.predict_ch8(\'time traveller\', 10, net, vocab, device)

$\"在这里插入图片描述\"$
因为没训练，所以可以看到结果啥也不是。

4.6 训练

num_epochs, lr = 500, 1
d2l.train_ch8(net, train_iter, vocab, lr, num_epochs, device)

$\"Pytorch$
RNN API 训练速度更快。

5. Q&A

Q：如何用 RNN 做视频处理？
A：用 CNN 代替 Onehot，用 CNN 得出特征图转换为向量。

Q：对高频字符需要处理吗？或者怎么处理？
A：对高频字符采样，根据频率采样，假如某些词频率特别高，就可以将一些高频词去掉等。

Pytorch 循环神经网络 RNN

Pytorch 循环神经网络 RNN

0. 环境介绍

1. 循环神经网络

1.1 潜变量自回归模型

1.2 RNN

1.3 基于 RNN 的语言模型

1.4 困惑度（Perplexity）

1.5 梯度裁剪

2. 应用 RNN

3. RNN 从零开始实现

3.1 导入数据集

3.2 One-hot 编码

3.3 初始化模型参数

3.4 初始化隐藏状态

3.5 RNN 模型

3.6 预测函数

3.7 梯度裁剪

3.8 训练

3.9 去掉梯度剪裁后训练的结果

4. RNN 简洁实现

4.1 导入数据集

4.2 定义模型

4.3 初始化隐藏状态

4.4 封装

4.5 预测

4.6 训练

5. Q&A

相关推荐