Torch 导出中间表示规范
导出中间表示(IR)是编译器中的一种形式,与MLIR和TorchScript类似。它专门用于表达PyTorch程序的语义。导出IR主要通过简洁的操作列表来表示计算,并且对动态特性如控制流的支持有限。
要创建一个导出中间表示(IR)图,可以使用前端通过跟踪专业化机制安全地捕获 PyTorch 程序。生成的导出 IR 可以由后端进行优化和执行。这可以通过torch.export.export()
今天实现。
本文将介绍的关键概念包括:
-
ExportedProgram:包含导出IR程序的数据结构
-
图:包含一个节点列表。
-
节点:表示存储在此节点上的操作、控制流程和元数据。
-
值由节点产生和消耗。
-
类型与值和节点关联。
-
值的大小和内存布局也已定义。
什么是Export IR
导出IR是PyTorch程序的一种基于图的中间表示(IR)。它建立在torch.fx.Graph
之上。换句话说,所有的导出IR图都是有效的FX图,并且如果使用标准的FX语义进行解释,则导出IR可以被正确地解释。这意味着,通过标准的FX代码生成,导出的图可以转换为有效的Python程序。
本文档主要侧重于突出Export IR在严格性方面与FX的不同之处,而忽略两者相似的部分。
导出程序
顶级的导出中间表示(IR)构造是一个 torch.export.ExportedProgram
类。它将一个 PyTorch 模型的计算图(通常是 torch.nn.Module
)与其使用的参数或权重捆绑在一起。
torch.export.ExportedProgram
类的一些重要属性包括:
-
graph_module
(torch.fx.GraphModule
):包含PyTorch模型展开计算图的数据结构。可以通过ExportedProgram.graph直接访问该图。 -
graph_signature
(torch.export.ExportGraphSignature
):图签名,它指定了在图中使用和修改的参数及缓冲区名称。参数和缓冲区不是作为图的属性存储,而是被提升为图的输入。graph_signature 用于跟踪这些参数和缓冲区的相关信息。 -
state_dict
(Dict[str, Union[torch.Tensor, torch.nn.Parameter]]
):一个包含模型参数和缓冲区的数据结构。 -
range_constraints
(Dict[sympy.Symbol, RangeConstraint]
):对于导出时具有数据依赖行为的程序,每个节点的元数据包含类似s0
和i0
的符号形状。此属性将这些符号形状映射到它们的下限和上限范围。
图形
导出的IR图是以有向无环图(DAG)形式表示的一个PyTorch程序。图中的每个节点代表一个特定的计算或操作,而图的边则是通过节点之间的引用来组成的。
我们可以查看具有该模式的图形:
class Graph: nodes: List[Node]
实际上,Export IR 的图是通过 torch.fx.Graph
Python 类实现的。
一个导出的IR图包含以下节点(各节点的具体内容将在下一节中详细介绍):
-
0 个或多个类型为
占位符
的节点 -
0 个或多个类型为
call_function
的节点 -
正好有一个类型为
output
的节点
推论: 最小的有效图包含一个节点。也就是说,节点集合永远不会为空。
定义:图(Graph)中的占位符
节点集合代表图模块(GraphModule)的输入。图(Graph)的输出节点表示图模块(GraphModule)的输出。
示例:
from torch import nn class MyModule(nn.Module): def forward(self, x, y): return x + y mod = torch.export.export(MyModule()) print(mod.graph)
上述内容是以文本形式表示的一个图,每行代表一个节点。
节点
A Node 表示特定的计算或操作,并使用 torch.fx.Node
类在 Python 中进行表示。节点之间的边通过 Node 类中的 args
属性直接引用其他节点来表示。利用相同的 FX 机制,我们可以表示计算图通常需要的操作,例如操作符调用、占位符(即输入)、条件语句和循环。
class Node: name: str # name of node op_name: str # type of operation # interpretation of the fields below depends on op_name target: [str|Callable] args: List[object] kwargs: Dict[str, object] meta: Dict[str, object]
FX文本格式
如上面的示例所示,注意每行都采用了以下格式:
%<name>:[...] = <op_name>[target=<target>](args = (%arg1, %arg2, arg3, arg4, …)), kwargs = {"keyword": arg5})
此格式以紧凑的方式包含了 Node 类中的所有内容,除了 meta
属性。
具体而言:
-
<name> 是节点在
node.name
中显示的名称。 -
<op_name> 是
node.op
字段的值,该字段必须是以下之一:<call_function>、<placeholder>、<get_attr> 或 <output>。 -
<target> 表示节点的目标,具体为
node.target
的值。该字段的具体意义由op_name
决定。 -
args1, … args 4… 是
node.args
元组中的内容。如果元组中的某个值是torch.fx.Node
对象,则会在其前面特别加上一个%.。
例如,调用加法运算符将表现为:
%add1 = call_function[target = torch.op.aten.add.Tensor](args = (%x, %y), kwargs = {})
其中 %x
和 %y
是两个名为 x 和 y 的节点。值得注意的是,字符串 torch.op.aten.add.Tensor
表示实际存储在目标字段中的可调用对象本身,而不仅仅是它的名称。
此文本格式的最后一行是:
return [add]
这是一个具有op_name = output
属性的节点,表示我们将返回这个单一元素。
调用函数
call_function
节点表示对操作符的调用。
定义
-
功能性:如果一个可调用对象满足以下所有要求,则称其为“功能性”的:
-
非修改操作:该操作不更改其输入的值(对于张量,这包括元数据和实际数据)。
-
无副作用:操作符不会改变外部可见的状态,例如不修改模块参数的值。
-
-
运算符:是一个具有预定义模式的函数式调用。这类运算符的例子包括功能性的ATen运算符。
外汇表示
%name = call_function[target = operator](args = (%x, %y, …), kwargs = {})
与标准 FX call_function 的区别
-
在FX图中,call_function可以引用任何可调用对象。但在导出IR时,我们只允许它使用ATen操作符、自定义操作符和控制流操作符的特定子集。
-
在导出IR时,常量参数将会被嵌入到图形中。
-
在FX图中,get_attr节点可以表示读取图模块中存储的任意属性。但在导出IR时,只能读取子模块中的属性,因为所有的参数和缓冲区都会被作为输入传递到图模块中。
元数据
Node.meta
是附加到每个 FX 节点的一个字典。然而,FX 规范并没有规定可以或将会存在什么样的元数据。Export IR 提供了一个更强的约定:所有 call_function
节点都将保证具有且仅具有以下元数据字段。
-
node.meta["stack_trace"]
是一个包含引用原始 Python 源代码的 Python 堆栈跟踪的字符串。下面是一个堆栈跟踪的例子:File "my_module.py", line 19, in forward return x + dummy_helper(y) File "helper_utility.py", line 89, in dummy_helper return y + 1
-
node.meta["val"]
描述了操作运行的输出。它可以是类型 <symint>、<FakeTensor>,也可以是一个包含List[Union[FakeTensor, SymInt]]
的列表,或者为None
。 -
node.meta["nn_module_stack"]
描述了节点来源的torch.nn.Module
的“调用栈”。如果该节点来自一个torch.nn.Module
调用,例如,从一个位于torch.nn.Sequential
模块内的torch.nn.Linear
模块中调用的包含addmm
操作的节点,那么nn_module_stack
会看起来像这样:{'self_linear': ('self.linear', <class 'torch.nn.Linear'>), 'self_sequential': ('self.sequential', <class 'torch.nn.Sequential'>)}
-
node.meta["source_fn_stack"]
包含了此节点在分解之前调用的 torch 函数或叶torch.nn.Module
类。例如,一个包含来自torch.nn.Linear
模块调用的addmm
操作的节点,在其source_fn
中会包含torch.nn.Linear
;而一个包含来自torch.nn.functional.Linear
模块调用的addmm
操作的节点,在其source_fn
中会包含torch.nn.functional.Linear
。
占位符
占位符代表图的输入,其语义与FX中的完全一致。占位符节点必须是图的节点列表中的前N个节点,其中N可以为零。
外汇表示
%name = placeholder[target = name](args = ())
目标字段是一个字符串,表示输入的名称。
如果 args
不为空,则其大小应为 1,并表示该输入的默认值。
元数据
占位符节点也有像 call_function
节点一样的 meta[‘val’]
。在这种情况下,val
字段表示图期望接收的此输入参数的形状和数据类型。
输出
输出调用代表函数中的返回语句,因此会终止当前的图。图中只有一个输出节点,并且它总是位于图的最后。
外汇表示
output[](args = (%something, …))
这与torch.fx
中的语义完全一致。其中,args
表示需要返回的节点。
元数据
输出节点和call_function
节点具有相同的元数据。
获取属性
get_attr
节点表示从封装的 torch.fx.GraphModule
中读取子模块。与来自 torch.fx.symbolic_trace()
的普通 FX 图不同,后者使用 get_attr
节点从顶级 torch.fx.GraphModule
读取属性(如参数和缓冲区),在导出的程序中,这些参数和缓冲区作为图模块的输入传递,并存储在顶级 torch.export.ExportedProgram
中。
外汇表示
%name = get_attr[target = name](args = ())
示例
考虑以下模型:
from functorch.experimental.control_flow import cond def true_fn(x): return x.sin() def false_fn(x): return x.cos() def f(x, y): return cond(y, true_fn, false_fn, [x])
图表:
graph(): %x_1 : [num_users=1] = placeholder[target=x_1] %y_1 : [num_users=1] = placeholder[target=y_1] %true_graph_0 : [num_users=1] = get_attr[target=true_graph_0] %false_graph_0 : [num_users=1] = get_attr[target=false_graph_0] %conditional : [num_users=1] = call_function[target=torch.ops.higher_order.cond](args = (%y_1, %true_graph_0, %false_graph_0, [%x_1]), kwargs = {}) return conditional
该行代码 %true_graph_0 : [num_users=1] = get_attr[target=true_graph_0]
读取子模块 true_graph_0
,其中包含 sin
操作符。
参考资料
SymInt
A SymInt 是一个对象,它可以是一个具体的整数值或代表整数的符号(在 Python 中由 sympy.Symbol
类表示)。当 SymInt 作为符号时,它描述了一个类型为整数但在编译阶段图中未知的变量,也就是说,它的具体值仅在运行时才能确定。
FakeTensor
FakeTensor 是一个包含张量元数据的对象,可以视为具有以下属性:
class FakeTensor: size: List[SymInt] dtype: torch.dtype device: torch.device dim_order: List[int] # This doesn't exist yet
FakeTensor 的 size 字段是一个由整数或 SymInt 组成的列表。如果存在 SymInt,说明张量具有动态形状;若只有整数,则表示张量具有固定的静态形状。TensorMeta 的秩始终是固定的。dtype 字段表示该节点输出的数据类型。Edge IR 中没有隐式的类型提升机制。FakeTensor 不包含 strides。
换句话说:
-
如果节点的目标操作返回一个张量,那么
node.meta['val']
就是描述这个张量的一个 FakeTensor。 -
如果节点中的操作符返回一个包含 n 个张量的元组,那么
node.meta['val']
就会是一个包含每个张量的 FakeTensor 元组。 -
如果节点中的操作符返回一个编译时已知的整数、浮点数或标量值,则
node.meta['val']
为 None。 -
如果节点中的操作符返回一个在编译时未知的整数、浮点数或标量值,则
node.meta['val']
的类型为 SymInt。
例如:
-
aten::add
返回一个张量,因此它的规格将是一个假张量,具有此操作返回的张量的数据类型和大小。 -
aten::sym_size
返回一个整数,因此它的值会是一个 SymInt,因为在运行时才能确定其具体值。 -
max_pool2d_with_indexes
返回一个包含两个张量的元组 (Tensor, Tensor);因此,规格将是一个包含两个 FakeTensor 对象的 2 元组,其中第一个 TensorMeta 描述返回值的第一个元素等。
Python代码:
def add_one(x): return torch.ops.aten(x, 1)
图表:
graph(): %ph_0 : [#users=1] = placeholder[target=ph_0] %add_tensor : [#users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%ph_0, 1), kwargs = {}) return [add_tensor]
FakeTensor:
FakeTensor(dtype=torch.int, size=[2,], device=CPU)
可以转换为Pytree的类型
我们将一种类型定义为“可构成Pytree的类型”,如果它要么是叶子类型,要么是包含其他可构成Pytree类型的容器类型。
注意:
pytree 的概念与 JAX 文档中的定义相同:
以下类型被定义为叶类型:
类型 |
定义 |
---|---|
张量 |
|
标量 |
包括整数类型、浮点类型和零维张量在内的任何 Python 数值类型。 |
整型 |
Python 中的 int(在 C++ 中绑定为 int64_t) |
浮点数 |
Python中的float类型(在C++中对应为double类型) |
布尔值 |
Python 布尔类型 |
str |
Python字符串 |
标量类型 |
|
布局 |
|
内存格式 |
|
设备 |
以下类型被定义为容器类型:
类型 |
定义 |
---|---|
元组 |
Python 元组 |
列表 |
Python列表 |
字典 |
具有标量键的 Python 字典 |
命名元组(NamedTuple) |
Python 命名元组 |
数据类 |
必须通过register_dataclass 进行注册 |
自定义类 |
通过_register_pytree_node 定义的任何自定义类 |