交叉熵损失函数
- classtorch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean', label_smoothing=0.0)[源代码]
-
此准则计算输入 logits 和目标之间的交叉熵损失。
在训练包含 C 个类别的分类问题时非常有用。如果提供了可选参数
weight
,它应该是一个一维的 Tensor,为每个类别分配权重。这在处理不平衡数据集时特别有用。input 预期包含每个类别的未归一化的对数几率(这些值通常不需要是正数或总和为1)。input 必须是一个张量,其大小对于无批量输入为 $(C)$;或者对于批量输入为 $(minibatch, C)$ 或 $(minibatch, C, d_1, d_2, ..., d_K)$,其中 $K \geq 1$。最后一种形式对于更高维度的输入特别有用,例如计算二维图像中每个像素的交叉熵损失。
此标准期望的目标应包含以下任意一项:
-
类索引范围是$[0, C)$,其中$C$表示类别数量;如果指定了ignore_index参数,此损失函数也会接受该类索引(即使该索引不在正常的类范围之内)。在这种情况下未减少的(即
reduction
设置为'none'
)损失可以描述为:$\ell(x, y) = L = \{l_1,\dots,l_N\}^\top, \quad l_n = - w_{y_n} \log \frac{\exp(x_{n,y_n})}{\sum_{c=1}^C \exp(x_{n,c})} \cdot \mathbb{1}\{y_n \not= \text{ignore\_index}\}$其中$x$是输入,$y$是目标,$w$是权重,$C$表示类别数量。此外,$N$跨越小批量维度以及K-维情况下的$d_1, ..., d_k$。如果
reduction
参数不是'none'
(默认为'mean'
),则$\ell(x, y) = \begin{cases} \sum_{n=1}^N \frac{1}{\sum_{n=1}^N w_{y_n} \cdot \mathbb{1}\{y_n \not= \text{ignore\_index}\}} l_n, & \text{if reduction} = \text{`mean';}\\ \sum_{n=1}^N l_n, & \text{if reduction} = \text{`sum'.} \end{cases}$注意,这种情况等同于先在输入上应用
LogSoftmax
,然后再应用NLLLoss
。 -
每个类别的概率;在需要超出每小批量单个类别标签的情况下非常有用,例如混合标签、标签平滑等。在这种情况下未减少(即
reduction
设置为'none'
)的损失可以描述为:$\ell(x, y) = L = \{l_1,\dots,l_N\}^\top, \quad l_n = - \sum_{c=1}^C w_c \log \frac{\exp(x_{n,c})}{\sum_{i=1}^C \exp(x_{n,i})} y_{n,c}$其中$x$是输入,$y$是目标,$w$是权重,$C$表示类别数量。此外,$N$跨越小批量维度以及K-维情况下的$d_1, ..., d_k$。如果
reduction
参数不是'none'
(默认为'mean'
),则$\ell(x, y) = \begin{cases} \frac{\sum_{n=1}^N l_n}{N}, & \text{if reduction} = \text{`mean';}\\ \sum_{n=1}^N l_n, & \text{if reduction} = \text{`sum'.} \end{cases}$
注意
当target包含类索引时,此准则的性能通常会更好,因为可以进行优化计算。仅在每小批量项只有一个类标签过于限制的情况下,才考虑将target作为类概率提供。
- 参数
-
-
weight (Tensor, 可选) – 每个类别的手动重缩放权重。如果提供,必须是一个大小为 C 的浮点类型张量。
-
size_average (bool, optional) – 已弃用(请参见
reduction
)。默认情况下,损失值会在批次中的每个损失元素上进行平均计算。需要注意的是,对于某些损失函数,每个样本包含多个损失元素。如果将字段size_average
设置为False
,则损失值会针对每个小批量求和。当reduce
为False
时,此设置会被忽略。默认值:True
-
ignore_index (int, 可选) – 指定一个被忽略的目标值,该值不会对输入梯度产生影响。当
size_average
为True
时,损失会根据非忽略的目标进行平均计算。需要注意的是,ignore_index
只在目标包含类别索引的情况下适用。 -
reduce (bool, optional) – 已弃用(请参见
reduction
)。默认情况下,损失值会根据size_average
参数在每个小批量中进行平均或求和。当reduce
为False
时,返回每批元素的单独损失值,并忽略size_average
设置。默认值:True
-
reduction (str, 可选) – 指定要应用于输出的缩减方式:
'none'
|'mean'
|'sum'
。'none'
: 不进行任何缩减,'mean'
: 计算加权平均值,'sum'
: 对输出求和。注意:size_average
和reduce
正在被弃用,在此期间,指定这两个参数中的任何一个将覆盖reduction
参数。默认值:'mean'
-
label_smoothing (float, optional) – [0.0, 1.0] 区间内的浮点数。指定在计算损失时平滑的程度,其中 0.0 表示不进行平滑处理。如重新思考计算机视觉中的 Inception 架构所述,目标会成为原始真实标签和均匀分布的混合体。默认值:$0.0$。
-
- 形状:
-
-
输入: 形状为 $(C)$、$(N, C)$ 或 $(N, C, d_1, d_2, ..., d_K)$(其中 $K \geq 1$)的 K-维损失。
-
目标:如果包含类索引,其形状可以是$()$、$(N)$ 或 $(N, d_1, d_2, ..., d_K)$(在K维损失的情况下,其中$K \geq 1$),每个值应在>$[0, C)$ 范围内。如果包含类概率,则其形状与输入相同,并且每个值应在$[0, 1]$ 范围内。
-
输出:如果 reduction 是 ‘none’,则形状可能为空、$(N)$ 或 $(N, d_1, d_2, ..., d_K)$(其中$K \geq 1$),具体取决于 K 维损失的输入形状。否则,输出为标量。
其中:
$\begin{aligned} C ={} & \text{number of classes} \\ N ={} & \text{batch size} \\ \end{aligned}$ -
示例:
>>> # Example of target with class indices >>> loss = nn.CrossEntropyLoss() >>> input = torch.randn(3, 5, requires_grad=True) >>> target = torch.empty(3, dtype=torch.long).random_(5) >>> output = loss(input, target) >>> output.backward() >>> >>> # Example of target with class probabilities >>> input = torch.randn(3, 5, requires_grad=True) >>> target = torch.randn(3, 5).softmax(dim=1) >>> output = loss(input, target) >>> output.backward()
-