首页/指令库/VFNCVTBF16-F-F-W

VFNCVTBF16.F.F.W

RISC-V VFNCVTBF16.F.F.W 指令详解

指令手册R-type

将 FP32 向量源窄化为 BF16，按 frm 舍入。

指令语法

vfncvtbf16.f.f.w vd, vs2, vm

操作数说明

vd：目标向量寄存器组。

vs2/vs1 或标量源：按指令后缀 .vv/.vx/.vi/.vf 决定来源。

vm：若语法包含 vm，vm=0 使用 v0 作为执行掩码，vm=1 为未掩码。

Zvfbfmin向量运算

指令行为说明

VFNCVTBF16.F.F.W 在 SEW=16 下把 vs2 中 32 位 FP32 源元素窄化为 16 位 BF16 结果并写入 vd。转换按 frm 舍入，可能产生 Overflow、Underflow、Inexact 或 Invalid 异常标志；属于 Zvfbfmin。

VFNCVTBF16.F.F.W 指令解析与执行动画

从 OP-V 编码解码到向量 BF16 窄化转换：每个活动元素把 FP32 源值按 frm 舍入为 BF16。

步骤 1 / 15

读取 OP-V 编码字段

V 扩展浮点指令使用 OP-V 主操作码，字段包含 funct6、源寄存器、vm、funct3、vd 和 opcode。

输入的指令

vfncvtbf16.f.f.w

vd使用 v0-v31vs2使用 v0-v31vm执行掩码控制

执行环境

VLSEW

frm

RNE

示例动态舍入模式

source EEW

源元素宽度

vta/vma

ta, ma

尾部/非活动元素策略

opcode

1010111

OP-V 主操作码

vs2 elements逗号分隔有限数值，数量必须等于 VL；也可用 8 位 0x 十六进制位模式

vs1

11101

VFUNARY0 转换选择字段

v0 mask bits0/1 串，长度必须等于 VL

编码字段

0x488e9257

31..26

24..20

19..15

14..12

11..7

6..0

010010

funct6

01000

vs2

11101

vs1/sel

001

funct3

00100

1010111

OP-V

逐元素结果

长向量在模块内部横向滚动，不造成页面溢出。

i=0活动

bf16_rne(1.5)

0x3fc0 (1.5)

i=1活动

bf16_rne(-2.25)

0xc010 (-2.25)

i=2跳过

v0.t=0，不执行

i=3活动

bf16_rne(-4.5)

0xc090 (-4.5)

i=4活动

bf16_rne(7.75)

0x40f8 (7.75)

i=5活动

bf16_rne(-8.25)

0xc104 (-8.25)

i=6跳过

v0.t=0，不执行

i=7活动

bf16_rne(-31.25)

0xc1fa (-31.25)

SEW=16，source EEW=32 / FP32 -> destination EEW=16 / BF16。动画使用 RNE 示例实现 BF16 舍入；官方规则中该指令按 frm 舍入，并可能设置 Overflow、Underflow、Inexact、Invalid。

快速理解与检索要点

这是 RVV BF16 的 FP32 -> BF16 窄化转换：语法只有 vd、vs2、vm；SEW 固定为 16，vs1[19:15]=11101 是 VFUNARY0 selector，不是源寄存器。

OP-V 编码：funct6=010010，vs1/selector=11101，funct3=001(OPFVV)，opcode=1010111。

官方保留编码：SEW 为任何非 16 值时保留。

源元素 EEW=32 FP32，目标元素 EEW=16 BF16；活动元素受 vl 和 v0.t 掩码控制。

结果按 frm 舍入，异常包括 Overflow、Underflow、Inexact、Invalid。

页面动画使用有限 FP32 示例和 RNE 演示舍入；NaN/异常边界以官方手册为准。

RISC-V 非特权 ISA 手册：BF16 扩展 RISC-V 非特权 ISA 手册：V 标准向量扩展

向量执行上下文

阅读 VFNCVTBF16.F.F.W 时，不要只看助记符。官方 V 扩展语义还依赖当前 vl、vtype 和掩码状态。后缀和操作数形式决定源操作数来自向量、标量还是立即数。

先看 vl

当前 vl 决定 body 元素数量。典型代码会先执行 vsetvli、vsetivli 或 vsetvl，再执行本页指令。

再看 vtype

当前 vtype 提供 SEW、LMUL、tail policy 和 mask policy；这些规则影响元素宽度、寄存器组大小以及非活动/尾部目标元素。

最后看 vm/v0

带 vm 的普通向量指令在 vm=0 时用 v0 作为执行掩码，vm=1 表示未掩码。VMERGE 等少数形式会把 v0 当作数据选择输入。

官方来源：RISC-V V Standard Extension for Vector Operations

常见使用场景

向量运算

结合 «vfncvtbf16.f.f.w v4, v8 # v4[bf16] = bf16(v8[fp32])» 等实际代码理解该场景。

机器学习

结合 «vfncvtbf16.f.f.w v4, v8 # v4[bf16] = bf16(v8[fp32])» 等实际代码理解该场景。

使用前检查清单

语法检查

确认当前指令格式为 R-type。
确认操作数排列顺序与示例一致。

语义检查

确认目标寄存器用途和调用约定兼容。
确认该指令不是伪指令展开后的底层形式。

容易混淆 / 常见误区

SEW 必须为 16；其他 SEW 编码为保留编码。

源 vs2 元素 EEW 为 32 位 FP32，目标 vd 元素 EEW 为 16 位 BF16。

窄化到 BF16 按 frm 舍入，不是简单截取 FP32 高 16 位。

BF16 只有 7 位 fraction，结果精度明显低于 FP32。

NaN、无穷、溢出、下溢和异常标志按官方 BF16/浮点转换规则处理。

常见问题

这些向量 BF16 指令是否支持任意 SEW？

不支持。官方 BF16 向量指令在 SEW 不是 16 时为保留编码；本页动画固定 SEW=16。

BF16 是否等同于 IEEE binary16？

不是。BF16 是 1 位符号、8 位指数、7 位 fraction；它与半精度 binary16 的指数和 fraction 位宽不同。

VFNCVTBF16.F.F.W 是否只是截断 FP32？

不是。官方语义是 FP32 到 BF16 的窄化转换并按 frm 舍入；简单截断会误导舍入和异常边界。