首页/指令库/VFWMACCBF16-VF

VFWMACCBF16.VF

RISC-V VFWMACCBF16.VF 指令详解

指令手册R-type

BF16 向量-标量拓宽融合乘加，累加到 FP32 vd。

指令语法

vfwmaccbf16.vf vd, rs1, vs2, vm

操作数说明

vd：目标向量寄存器组。

vs2/vs1 或标量源：按指令后缀 .vv/.vx/.vi/.vf 决定来源。

vm：若语法包含 vm，vm=0 使用 v0 作为执行掩码，vm=1 为未掩码。

Zvfbfwma向量运算

指令行为说明

VFWMACCBF16.VF 在 SEW=16 下读取 f[rs1] 中的标量 BF16、vs2 的 BF16 元素以及 vd 中的 FP32 累加值，将 BF16 源相乘，未舍入乘积加到对应 FP32 累加值，再按 frm 舍入写回 FP32 vd；属于 Zvfbfwma。

VFWMACCBF16.VF 指令解析与执行动画

从 OP-V 编码解码到 BF16 拓宽融合乘加：每个活动元素把 f[rs1] 与 vs2[i] 的 BF16 源相乘并累加到 FP32 vd[i]。

步骤 1 / 15

读取 OP-V 编码字段

V 扩展浮点指令使用 OP-V 主操作码，字段包含 funct6、源寄存器、vm、funct3、vd 和 opcode。

输入的指令

vfwmaccbf16.vf

vd使用 v0-v31rs1浮点寄存器 f0-f31/ABIvs2使用 v0-v31vm执行掩码控制

执行环境

VLSEW

frm

RNE

示例动态舍入模式

acc EEW

vd 累加器为 FP32

vta/vma

ta, ma

尾部/非活动元素策略

opcode

1010111

OP-V 主操作码

vd accumulator逗号分隔有限数值，数量必须等于 VL，且可表示为有限 binary32vs2 elements逗号分隔有限数值，数量必须等于 VL；也可用 4 位 0x 十六进制位模式f[rs1]有限浮点示例值；也可用 4 位 0x 十六进制位模式v0 mask bits0/1 串，长度必须等于 VL

编码字段

0xec855257

31..26

24..20

19..15

14..12

11..7

6..0

111011

funct6

01000

vs2

01010

rs1

101

funct3

00100

1010111

OP-V

逐元素结果

长向量在模块内部横向滚动，不造成页面溢出。

i=0活动

0.5 + 1.5 * 1.5

2.75 / 0x40300000

i=1活动

-1 + -2.25 * 1.5

-4.375 / 0xc08c0000

i=2跳过

v0.t=0，不执行

i=3活动

-2.5 + -6 * 1.5

-11.5 / 0xc1380000

i=4活动

4 + 8 * 1.5

16 / 0x41800000

i=5活动

-4.5 + -10 * 1.5

-19.5 / 0xc19c0000

i=6跳过

v0.t=0，不执行

i=7活动

-8.5 + -20 * 1.5

-38.5 / 0xc21a0000

SEW=16，BF16 源来自 vs2 和 vs1/rs1，vd 是 FP32 累加输入和 FP32 结果。动画先精确加宽 BF16 源，再演示等价的 FP32 fused multiply-accumulate 路径；异常标志以官方 BF16 规则为准。

快速理解与检索要点

这是 BF16 向量-标量 widening FMA：语法为 vd、rs1、vs2、vm；rs1 是浮点寄存器中的 BF16 标量，vd 是 FP32 累加器和结果。

OP-V 编码：funct6=111011，funct3=101(OPFVF)，opcode=1010111；rs1 字段选择浮点寄存器中的 BF16 标量源。

官方保留编码：SEW 为任何非 16 值时保留。

rs1/vs2 源 EEW=16 BF16，vd 输入和输出 EEW=32 FP32。

官方等价序列为先把 BF16 标量和向量源加宽到 FP32，再执行 vfmacc.vf。

只对 vl 范围内的活动元素执行；vm=0 时 v0.t 控制活动元素。

RISC-V 非特权 ISA 手册：BF16 扩展 RISC-V 非特权 ISA 手册：V 标准向量扩展

向量执行上下文

阅读 VFWMACCBF16.VF 时，不要只看助记符。官方 V 扩展语义还依赖当前 vl、vtype 和掩码状态。.vf：一个向量源和一个浮点标量源参与运算。

先看 vl

当前 vl 决定 body 元素数量。典型代码会先执行 vsetvli、vsetivli 或 vsetvl，再执行本页指令。

再看 vtype

当前 vtype 提供 SEW、LMUL、tail policy 和 mask policy；这些规则影响元素宽度、寄存器组大小以及非活动/尾部目标元素。

最后看 vm/v0

带 vm 的普通向量指令在 vm=0 时用 v0 作为执行掩码，vm=1 表示未掩码。VMERGE 等少数形式会把 v0 当作数据选择输入。

官方来源：RISC-V V Standard Extension for Vector Operations

常见使用场景

向量运算

结合 «vfwmaccbf16.vf v4, f0, v8 # v4[fp32] += bf16(f0) * bf16(v8[i])» 等实际代码理解该场景。

机器学习

结合 «vfwmaccbf16.vf v4, f0, v8 # v4[fp32] += bf16(f0) * bf16(v8[i])» 等实际代码理解该场景。

使用前检查清单

语法检查

确认当前指令格式为 R-type。
确认操作数排列顺序与示例一致。

语义检查

确认目标寄存器用途和调用约定兼容。
确认该指令不是伪指令展开后的底层形式。

容易混淆 / 常见误区

SEW 必须为 16；其他 SEW 编码为保留编码。

rs1 是浮点寄存器中的标量 BF16 源，不是整数寄存器源。

vs2 是 BF16 向量源，vd 同时是 FP32 累加输入和 FP32 输出。

Zvfbfwma 依赖 Zvfbfmin 和 Zfbfmin。

不要把该指令理解成单独 BF16 乘法再 BF16 加法；官方语义是拓宽融合乘加。

常见问题

这些向量 BF16 指令是否支持任意 SEW？

不支持。官方 BF16 向量指令在 SEW 不是 16 时为保留编码；本页动画固定 SEW=16。

BF16 是否等同于 IEEE binary16？

不是。BF16 是 1 位符号、8 位指数、7 位 fraction；它与半精度 binary16 的指数和 fraction 位宽不同。

VFWMACCBF16 是否等同于普通 vfmacc？

不完全相同。官方说明可用先把 BF16 源加宽到 FP32 再执行 vfmacc 的序列理解，但源格式、SEW=16 限制和 Zvfbfwma 扩展要求不同。