torch.nn.functional.cross_entropy

torch.nn.functional.cross_entropy(input, target, weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean', label_smoothing=0.0)[源代码]

计算输入(logits)和目标之间的交叉熵损失。

详情请参阅CrossEntropyLoss

参数
  • 输入 (Tensor) – 预测的未规范化对数概率 _logits_;有关支持的形状,请参阅下方的形状部分。

  • target (Tensor) – 真实类别的索引或概率;详见下文中的形状部分,了解支持的形状。

  • weight (Tensor, optional) – 每个类别的手动重缩放权重。如果提供,必须是一个大小为 C 的 Tensor。

  • size_average (bool, optional) – 已弃用(请参见reduction)。默认情况下,损失值会在批次中的每个损失元素上进行平均计算。需要注意的是,对于某些损失函数,每个样本包含多个损失元素。如果将字段 size_average 设置为 False,则损失值会针对每个小批量进行求和。当参数 reduce 为 False 时,此设置会被忽略。默认值: True

  • ignore_index (int, optional) – 指定一个被忽略的目标值,该值不会对输入梯度产生影响。当 size_averageTrue 时,损失会根据非忽略的目标进行平均计算。注意,ignore_index 只在目标包含类别索引的情况下适用。默认值:-100

  • reduce (bool, optional) – 已弃用(请参见reduction)。默认情况下,损失值会根据size_average参数在每个小批量中进行平均或求和。当reduceFalse时,返回每批元素的单独损失值,并忽略size_average设置。默认值:True

  • reduction (str, 可选) – 指定要应用于输出的缩减方式:'none' | 'mean' | 'sum'
    'none': 不进行任何缩减,'mean': 输出总和除以元素数量,'sum': 对输出求和。注意:size_averagereduce 正在被弃用,在此期间,指定这两个参数中的任何一个将覆盖 reduction 参数。默认值: 'mean'

  • label_smoothing (float, optional) – [0.0, 1.0] 区间内的浮点数。指定在计算损失时平滑的程度,其中 0.0 表示不进行平滑处理。如重新思考计算机视觉中的 Inception 架构所述,目标会成为原始真实标签和均匀分布的混合体。默认值:$0.0$

返回类型

Tensor

形状:
  • 输入: 形状为 $(C)$$(N, C)$$(N, C, d_1, d_2, ..., d_K)$(其中 $K \geq 1$)的 K-维损失。

  • 目标:如果包含类索引,其形状可以是$()$$(N)$$(N, d_1, d_2, ..., d_K)$(在K维损失的情况下,其中$K \geq 1$),每个值应在>$[0, C)$ 范围内。如果包含类概率,则其形状与输入相同,并且每个值应在$[0, 1]$ 范围内。

其中:

$\begin{aligned} C ={} & \text{number of classes} \\ N ={} & \text{batch size} \\ \end{aligned}$

示例:

>>> # Example of target with class indices
>>> input = torch.randn(3, 5, requires_grad=True)
>>> target = torch.randint(5, (3,), dtype=torch.int64)
>>> loss = F.cross_entropy(input, target)
>>> loss.backward()
>>>
>>> # Example of target with class probabilities
>>> input = torch.randn(3, 5, requires_grad=True)
>>> target = torch.randn(3, 5).softmax(dim=1)
>>> loss = F.cross_entropy(input, target)
>>> loss.backward()
本页目录