torch.nn.functional.cross_entropy

torch.nn.functional.cross_entropy(input, target, weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean', label_smoothing=0.0)[源代码]

计算输入(logits)和目标之间的交叉熵损失。

详情请参阅CrossEntropyLoss。

参数

输入 (Tensor) – 预测的未规范化对数概率 _logits_；有关支持的形状，请参阅下方的形状部分。
target (Tensor) – 真实类别的索引或概率；详见下文中的形状部分，了解支持的形状。
weight (Tensor, optional) – 每个类别的手动重缩放权重。如果提供，必须是一个大小为 C 的 Tensor。
size_average (bool, optional) – 已弃用（请参见reduction）。默认情况下，损失值会在批次中的每个损失元素上进行平均计算。需要注意的是，对于某些损失函数，每个样本包含多个损失元素。如果将字段 size_average 设置为 False，则损失值会针对每个小批量进行求和。当参数 reduce 为 False 时，此设置会被忽略。默认值： True
ignore_index (int, optional) – 指定一个被忽略的目标值，该值不会对输入梯度产生影响。当 size_average 为 True 时，损失会根据非忽略的目标进行平均计算。注意，ignore_index 只在目标包含类别索引的情况下适用。默认值：-100
reduce (bool, optional) – 已弃用（请参见reduction）。默认情况下，损失值会根据size_average参数在每个小批量中进行平均或求和。当reduce为False时，返回每批元素的单独损失值，并忽略size_average设置。默认值：True
reduction (str, 可选) – 指定要应用于输出的缩减方式：'none' | 'mean' | 'sum'。
'none': 不进行任何缩减，'mean': 输出总和除以元素数量，'sum': 对输出求和。注意：size_average 和 reduce 正在被弃用，在此期间，指定这两个参数中的任何一个将覆盖 reduction 参数。默认值： 'mean'
label_smoothing (float, optional) – [0.0, 1.0] 区间内的浮点数。指定在计算损失时平滑的程度，其中 0.0 表示不进行平滑处理。如重新思考计算机视觉中的 Inception 架构所述，目标会成为原始真实标签和均匀分布的混合体。默认值： $$0.0$$ 。

返回类型

Tensor

形状:

输入: 形状为 $$(C)$$ 、 $$(N, C)$$ 或 $$(N, C, d_1, d_2, ..., d_K)$$ （其中 $K \geq 1$ ）的 K-维损失。
目标：如果包含类索引，其形状可以是 $$()$$ 、 $$(N)$$ 或 $$(N, d_1, d_2, ..., d_K)$$ （在K维损失的情况下，其中 $K \geq 1$ ），每个值应在>$[0, C)$ 范围内。如果包含类概率，则其形状与输入相同，并且每个值应在 $$[0, 1]$$ 范围内。

其中：

\begin{aligned} C ={} & \text{number of classes} \\ N ={} & \text{batch size} \\ \end{aligned}

示例:

>>> # Example of target with class indices
>>> input = torch.randn(3, 5, requires_grad=True)
>>> target = torch.randint(5, (3,), dtype=torch.int64)
>>> loss = F.cross_entropy(input, target)
>>> loss.backward()
>>>
>>> # Example of target with class probabilities
>>> input = torch.randn(3, 5, requires_grad=True)
>>> target = torch.randn(3, 5).softmax(dim=1)
>>> loss = F.cross_entropy(input, target)
>>> loss.backward()