交叉熵损失函数

classtorch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean', label_smoothing=0.0)[源代码]

此准则计算输入 logits 和目标之间的交叉熵损失。

在训练包含 C 个类别的分类问题时非常有用。如果提供了可选参数 weight，它应该是一个一维的 Tensor，为每个类别分配权重。这在处理不平衡数据集时特别有用。

input 预期包含每个类别的未归一化的对数几率（这些值通常不需要是正数或总和为1）。input 必须是一个张量，其大小对于无批量输入为 $$(C)$$ ；或者对于批量输入为 $$(minibatch, C)$$ 或 $$(minibatch, C, d_1, d_2, ..., d_K)$$ ，其中 $K \geq 1$ 。最后一种形式对于更高维度的输入特别有用，例如计算二维图像中每个像素的交叉熵损失。

此标准期望的目标应包含以下任意一项:

类索引范围是 $$[0, C)$$ ，其中 $$C$$ 表示类别数量；如果指定了ignore_index参数，此损失函数也会接受该类索引（即使该索引不在正常的类范围之内）。在这种情况下未减少的（即reduction设置为'none'）损失可以描述为：
$\ell(x, y) = L = \{l_1,\dots,l_N\}^\top, \quad l_n = - w_{y_n} \log \frac{\exp(x_{n,y_n})}{\sum_{c=1}^C \exp(x_{n,c})} \cdot \mathbb{1}\{y_n \not= \text{ignore\_index}\}$
其中 $$x$$ 是输入， $$y$$ 是目标， $$w$$ 是权重， $$C$$ 表示类别数量。此外， $$N$$ 跨越小批量维度以及K-维情况下的 $$d_1, ..., d_k$$ 。如果reduction参数不是'none'（默认为'mean'），则
$\ell(x, y) = \begin{cases} \sum_{n=1}^N \frac{1}{\sum_{n=1}^N w_{y_n} \cdot \mathbb{1}\{y_n \not= \text{ignore\_index}\}} l_n, & \text{if reduction} = \text{`mean';}\\ \sum_{n=1}^N l_n, & \text{if reduction} = \text{`sum'.} \end{cases}$
注意，这种情况等同于先在输入上应用LogSoftmax，然后再应用NLLLoss。
每个类别的概率；在需要超出每小批量单个类别标签的情况下非常有用，例如混合标签、标签平滑等。在这种情况下未减少（即reduction 设置为 'none'）的损失可以描述为：
$\ell(x, y) = L = \{l_1,\dots,l_N\}^\top, \quad l_n = - \sum_{c=1}^C w_c \log \frac{\exp(x_{n,c})}{\sum_{i=1}^C \exp(x_{n,i})} y_{n,c}$
其中 $$x$$ 是输入， $$y$$ 是目标， $$w$$ 是权重， $$C$$ 表示类别数量。此外， $$N$$ 跨越小批量维度以及K-维情况下的 $$d_1, ..., d_k$$ 。如果reduction参数不是'none'（默认为'mean'），则
$\ell(x, y) = \begin{cases} \frac{\sum_{n=1}^N l_n}{N}, & \text{if reduction} = \text{`mean';}\\ \sum_{n=1}^N l_n, & \text{if reduction} = \text{`sum'.} \end{cases}$

注意

当target包含类索引时，此准则的性能通常会更好，因为可以进行优化计算。仅在每小批量项只有一个类标签过于限制的情况下，才考虑将target作为类概率提供。

参数

weight (Tensor, 可选) – 每个类别的手动重缩放权重。如果提供，必须是一个大小为 C 的浮点类型张量。
size_average (bool, optional) – 已弃用（请参见reduction）。默认情况下，损失值会在批次中的每个损失元素上进行平均计算。需要注意的是，对于某些损失函数，每个样本包含多个损失元素。如果将字段 size_average 设置为 False，则损失值会针对每个小批量求和。当reduce 为 False时，此设置会被忽略。默认值： True
ignore_index (int, 可选) – 指定一个被忽略的目标值，该值不会对输入梯度产生影响。当 size_average 为 True 时，损失会根据非忽略的目标进行平均计算。需要注意的是，ignore_index 只在目标包含类别索引的情况下适用。
reduce (bool, optional) – 已弃用（请参见reduction）。默认情况下，损失值会根据size_average参数在每个小批量中进行平均或求和。当reduce为False时，返回每批元素的单独损失值，并忽略size_average设置。默认值：True
reduction (str, 可选) – 指定要应用于输出的缩减方式：'none' | 'mean' | 'sum'。
'none': 不进行任何缩减，
'mean': 计算加权平均值，
'sum': 对输出求和。注意：size_average 和 reduce 正在被弃用，在此期间，指定这两个参数中的任何一个将覆盖 reduction 参数。默认值： 'mean'
label_smoothing (float, optional) – [0.0, 1.0] 区间内的浮点数。指定在计算损失时平滑的程度，其中 0.0 表示不进行平滑处理。如重新思考计算机视觉中的 Inception 架构所述，目标会成为原始真实标签和均匀分布的混合体。默认值： $$0.0$$ 。

形状:

输入: 形状为 $$(C)$$ 、 $$(N, C)$$ 或 $$(N, C, d_1, d_2, ..., d_K)$$ （其中 $K \geq 1$ ）的 K-维损失。
目标：如果包含类索引，其形状可以是 $$()$$ 、 $$(N)$$ 或 $$(N, d_1, d_2, ..., d_K)$$ （在K维损失的情况下，其中 $K \geq 1$ ），每个值应在>$[0, C)$ 范围内。如果包含类概率，则其形状与输入相同，并且每个值应在 $$[0, 1]$$ 范围内。
输出：如果 reduction 是 ‘none’，则形状可能为空、 $$(N)$$ 或 $$(N, d_1, d_2, ..., d_K)$$ （其中 $K \geq 1$ ），具体取决于 K 维损失的输入形状。否则，输出为标量。

其中：

\begin{aligned} C ={} & \text{number of classes} \\ N ={} & \text{batch size} \\ \end{aligned}

示例:

>>> # Example of target with class indices
>>> loss = nn.CrossEntropyLoss()
>>> input = torch.randn(3, 5, requires_grad=True)
>>> target = torch.empty(3, dtype=torch.long).random_(5)
>>> output = loss(input, target)
>>> output.backward()
>>>
>>> # Example of target with class probabilities
>>> input = torch.randn(3, 5, requires_grad=True)
>>> target = torch.randn(3, 5).softmax(dim=1)
>>> output = loss(input, target)
>>> output.backward()