首页/指令库/VFWMACCBF16-VV

VFWMACCBF16.VV

RISC-V VFWMACCBF16.VV 指令详解

指令手册R-type

BF16 向量-向量拓宽融合乘加，累加到 FP32 vd。

指令语法

vfwmaccbf16.vv vd, vs1, vs2, vm

操作数说明

vd：目标向量寄存器组。

vs2/vs1 或标量源：按指令后缀 .vv/.vx/.vi/.vf 决定来源。

vm：若语法包含 vm，vm=0 使用 v0 作为执行掩码，vm=1 为未掩码。

Zvfbfwma向量运算

指令行为说明

VFWMACCBF16.VV 在 SEW=16 下读取 vs1 和 vs2 的 BF16 元素以及 vd 中的 FP32 累加值，将 BF16 源相乘，未舍入乘积加到对应 FP32 累加值，再按 frm 舍入写回 FP32 vd；属于 Zvfbfwma。

VFWMACCBF16.VV 指令解析与执行动画

从 OP-V 编码解码到 BF16 拓宽融合乘加：每个活动元素把 vs1[i] 与 vs2[i] 的 BF16 源相乘并累加到 FP32 vd[i]。

步骤 1 / 15

读取 OP-V 编码字段

V 扩展浮点指令使用 OP-V 主操作码，字段包含 funct6、源寄存器、vm、funct3、vd 和 opcode。

输入的指令

vfwmaccbf16.vv

vd使用 v0-v31vs1使用 v0-v31vs2使用 v0-v31vm执行掩码控制

执行环境

VLSEW

frm

RNE

示例动态舍入模式

acc EEW

vd 累加器为 FP32

vta/vma

ta, ma

尾部/非活动元素策略

opcode

1010111

OP-V 主操作码

vd accumulator逗号分隔有限数值，数量必须等于 VL，且可表示为有限 binary32vs2 elements逗号分隔有限数值，数量必须等于 VL；也可用 4 位 0x 十六进制位模式vs1 elements逗号分隔有限数值，数量必须等于 VL；也可用 4 位 0x 十六进制位模式v0 mask bits0/1 串，长度必须等于 VL

编码字段

0xec861257

31..26

24..20

19..15

14..12

11..7

6..0

111011

funct6

01000

vs2

01100

vs1

001

funct3

00100

1010111

OP-V

逐元素结果

长向量在模块内部横向滚动，不造成页面溢出。

i=0活动

0.5 + 1.5 * 0.5

1.25 / 0x3fa00000

i=1活动

-1 + -2.25 * 1

-3.25 / 0xc0500000

i=2跳过

v0.t=0，不执行

i=3活动

-2.5 + -6 * 2

-14.5 / 0xc1680000

i=4活动

4 + 8 * 2.5

24 / 0x41c00000

i=5活动

-4.5 + -10 * 3

-34.5 / 0xc20a0000

i=6跳过

v0.t=0，不执行

i=7活动

-8.5 + -20 * 4

-88.5 / 0xc2b10000

SEW=16，BF16 源来自 vs2 和 vs1/rs1，vd 是 FP32 累加输入和 FP32 结果。动画先精确加宽 BF16 源，再演示等价的 FP32 fused multiply-accumulate 路径；异常标志以官方 BF16 规则为准。

快速理解与检索要点

这是 BF16 向量-向量 widening FMA：语法为 vd、vs1、vs2、vm；vd 先作为 FP32 累加器读取，再写回 FP32 结果。

OP-V 编码：funct6=111011，funct3=001(OPFVV)，opcode=1010111；vs1 字段是真正的 BF16 向量源。

官方保留编码：SEW 为任何非 16 值时保留。

vs1/vs2 源 EEW=16 BF16，vd 输入和输出 EEW=32 FP32。

官方等价序列为先把 BF16 源加宽到 FP32，再执行 vfmacc.vv；融合语义和 frm 舍入不能拆成 BF16 普通算术。

只对 vl 范围内的活动元素执行；vm=0 时 v0.t 控制活动元素。

RISC-V 非特权 ISA 手册：BF16 扩展 RISC-V 非特权 ISA 手册：V 标准向量扩展

向量执行上下文

阅读 VFWMACCBF16.VV 时，不要只看助记符。官方 V 扩展语义还依赖当前 vl、vtype 和掩码状态。.vv：两个向量源逐元素参与运算。

先看 vl

当前 vl 决定 body 元素数量。典型代码会先执行 vsetvli、vsetivli 或 vsetvl，再执行本页指令。

再看 vtype

当前 vtype 提供 SEW、LMUL、tail policy 和 mask policy；这些规则影响元素宽度、寄存器组大小以及非活动/尾部目标元素。

最后看 vm/v0

带 vm 的普通向量指令在 vm=0 时用 v0 作为执行掩码，vm=1 表示未掩码。VMERGE 等少数形式会把 v0 当作数据选择输入。

官方来源：RISC-V V Standard Extension for Vector Operations

常见使用场景

向量运算

结合 «vfwmaccbf16.vv v4, v8, v12 # v4[fp32] += bf16(v8) * bf16(v12)» 等实际代码理解该场景。

机器学习

结合 «vfwmaccbf16.vv v4, v8, v12 # v4[fp32] += bf16(v8) * bf16(v12)» 等实际代码理解该场景。

使用前检查清单

语法检查

确认当前指令格式为 R-type。
确认操作数排列顺序与示例一致。

语义检查

确认目标寄存器用途和调用约定兼容。
确认该指令不是伪指令展开后的底层形式。

容易混淆 / 常见误区

SEW 必须为 16；其他 SEW 编码为保留编码。

vs1 和 vs2 是 BF16 源，vd 同时是 FP32 累加输入和 FP32 输出。

这是融合乘加，不能用先 BF16 乘法再 BF16 加法来等价理解。

Zvfbfwma 依赖 Zvfbfmin 和 Zfbfmin。

异常包括 Overflow、Underflow、Inexact、Invalid；动画只演示有限可核验样例。

常见问题

这些向量 BF16 指令是否支持任意 SEW？

不支持。官方 BF16 向量指令在 SEW 不是 16 时为保留编码；本页动画固定 SEW=16。

BF16 是否等同于 IEEE binary16？

不是。BF16 是 1 位符号、8 位指数、7 位 fraction；它与半精度 binary16 的指数和 fraction 位宽不同。

VFWMACCBF16 是否等同于普通 vfmacc？

不完全相同。官方说明可用先把 BF16 源加宽到 FP32 再执行 vfmacc 的序列理解，但源格式、SEW=16 限制和 Zvfbfwma 扩展要求不同。