Transformer

classtorch.nn.Transformer(d_model=512, nhead=8, num_encoder_layers=6, num_decoder_layers=6, dim_feedforward=2048, dropout=0.1, activation=<function relu>, custom_encoder=None, custom_decoder=None, layer_norm_eps=1e-05, batch_first=False, norm_first=False, bias=True, device=None, dtype=None)[源代码]

一个变换器模型。

用户可以根据需要修改属性。该架构基于论文“Attention Is All You Need”，作者包括 Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser 和 Illia Polosukhin，发表于2017年 Advances in Neural Information Processing Systems 会议，第6000-6010页。

参数

d_model (int) – 编码器和解码器输入中预期的特征数量，默认值为512。
nhead (int) – 多头注意力模型中头的数量，默认为8。
num_encoder_layers (int) – 编码器中子编码层的数量，默认为6。
num_decoder_layers (int) – 解码器中子解码层的数量，默认为6。
dim_feedforward (int) – 前向网络模型的维度，默认值为2048。
dropout (浮点数) - Dropout值，默认为0.1。
activation (Union[str, Callable[ [Tensor] , Tensor ] ]) – 编码器/解码器中间层的激活函数，可以是字符串（如“relu” 或 “gelu”），或单参数可调用对象。默认值：relu
custom_encoder (Optional[Any]) – 自定义编码器（默认为 None）。
custom_decoder (Optional[Any]) – 自定义解码器（默认为 None）。
layer_norm_eps (float) – 层归一化组件中的 eps 值，默认为 1e-5。
batch_first (bool) – 如果为 True，则输入和输出张量的形状为 (批次, 序列, 特征)。默认值：False（序列, 批次, 特征）。
norm_first (bool) – 如果为 True，编码器和解码器层将在其他注意力和前向操作之前执行 LayerNorms；否则在之后。默认值：False（在之后）。
bias (bool) – 如果设置为False，则Linear 和 LayerNorm 层不会学习加性偏置。默认值：True。

示例:

>>> transformer_model = nn.Transformer(nhead=16, num_encoder_layers=12)
>>> src = torch.rand((10, 32, 512))
>>> tgt = torch.rand((20, 32, 512))
>>> out = transformer_model(src, tgt)

注意：一个完整的示例，展示如何使用 nn.Transformer 模块构建词语言模型，可在 https://github.com/pytorch/examples/tree/master/word_language_model 找到。

forward(src, tgt, src_mask=None, tgt_mask=None, memory_mask=None, src_key_padding_mask=None, tgt_key_padding_mask=None, memory_key_padding_mask=None, src_is_causal=None, tgt_is_causal=None, memory_is_causal=False)[源代码]

接收并处理带有掩码的源和目标序列。

注意

如果为[src/tgt/memory]_mask 参数中的任何一个提供了布尔张量，则值为 True 的位置不允许参与注意力计算，这与torch.nn.functional.scaled_dot_product_attention() 中attn_mask的定义相反。

参数

src (Tensor) – 输入给编码器的序列（必需）。
tgt (Tensor) – 输入解码器的序列（必填）。
src_mask (Optional[Tensor]) – 源序列的加性掩码（可选）。
tgt_mask (Optional[Tensor]) – tgt序列的加性掩码（可选）。
memory_mask (Optional[Tensor]) – 编码器输出的加性掩码（可选）。
src_key_padding_mask (Optional[Tensor]) – 每批的 src 键掩码（可选）。
tgt_key_padding_mask (Optional[Tensor]) – 每批的tgt键张量掩码（可选）。
memory_key_padding_mask (Optional[Tensor]) – 每批的内存键张量掩码（可选）。
src_is_causal (Optional[bool]) – 如果指定，将使用 src_mask 应用因果掩码。默认值为 None；尝试自动检测因果掩码。警告：如果设置 src_is_causal 但提供的 src_mask 不是因果掩码，可能会导致执行错误，并影响前向和后向兼容性。
tgt_is_causal (Optional[bool]) – 如果指定，将 tgt_mask 视为因果掩码。默认值：如果未指定，则尝试自动检测是否使用因果掩码。警告：提供不正确的提示可能导致执行错误，并影响前向和后向兼容性。
memory_is_causal (bool) – 如果指定，则将 memory_mask 作为因果掩码应用。默认值为False。警告：如果提供不正确的提示，可能会导致执行错误，包括前向和后向兼容性问题。

返回类型

Tensor

形状：

src: $$(S, E)$$ 对于未批量处理的输入；如果是 batch_first=False，则为 $$(S, N, E)$$ ；如果 batch_first=True，则为 $(N, S, E)$ 。
tgt: $$(T, E)$$ 对于未批量处理的输入， $$(T, N, E)$$ 如果 batch_first=False，或者 (N, T, E) 如果 batch_first=True.
src_mask: $$(S, S)$$ 或 $(N \cdot \text{num\_heads}, S, S)$ .
tgt_mask: $$(T, T)$$ 或 $(N \cdot \text{num\_heads}, T, T)$ .
memory_mask: $$(T, S)$$
src_key_padding_mask: 对于未批量处理的输入为 $$(S)$$ ，否则为 $$(N, S)$$ 。
tgt_key_padding_mask: 对于未批处理的输入为 $$(T)$$ ，对于批处理的输入为 $$(N, T)$$ 。
memory_key_padding_mask: 对于未批量处理的输入为 $$(S)$$ ，否则为 $$(N, S)$$ 。

注意：[src/tgt/memory]_mask 确保位置 $$i$$ 只能关注未被屏蔽的位置。如果提供的是 BoolTensor，值为True 的位置将被忽略，而值为False 的位置保持不变。如果提供的是 FloatTensor，则会将其加到注意力权重上。[src/tgt/memory]_key_padding_mask 用于指定在计算注意力时需要忽略的键的位置。如果提供的是 BoolTensor，值为True 的位置将被忽略，而值为False 的位置保持不变。

输出：对于未批量处理的输入，结果格式为 $$(T, E)$$ 。如果batch_first=False，则结果格式为 $$(T, N, E)$$ ；如果batch_first=True，则结果格式为(N, T, E)。

注意：由于变压器模型中采用了多头注意力架构，因此变压器的输出序列长度与其解码器输入序列（即目标序列）的长度相同。

其中 $$S$$ 表示源序列的长度， $$T$$ 表示目标序列的长度， $$N$$ 表示批量大小， $$E$$ 表示特征数量。

示例

>>> output = transformer_model(src, tgt, src_mask=src_mask, tgt_mask=tgt_mask)

静态generate_square_subsequent_mask(sz, device=None, dtype=None)[源代码]

为序列生成一个方形因果掩码。

掩码位置用 float('-inf') 填充，未掩码的位置用 float(0.0) 填充。

返回类型: Tensor