github开源社区最新公布的amd rocm开发库显示,amd gpu将在未来加入对bfloat16(bf16)浮点指令的支持,相比现在的fp16浮点可带来巨大的飞跃。
目前,intel cascade lake至强、ice lake酷睿处理器已经支持bf16,arm下一代armv8 cpu架构也会加入。bf16虽然不属于ieee标准规范,但它的优势正得到越来越广泛的验证和认可。
bf16可以视为精简版的fp32单精度浮点指令,使用8个有效位、8个阶位,内存和带宽占用减半,执行效率大大提升,同时又在性能方面远胜fp16,可以大大提升ai人工智能、ml机器学习、dl深度学习等应用的性能、效率,不再受限于fp16的性能、fp32的效率。
根据模拟,bf16相比于fp16带来的性能提升在不同运算类型中,少则可达1.6倍,多则能够超过4倍。
现代3d游戏渲染不太可能从bf16中获益,但是随着gpu越来越多地参与ai、ml、dl运算,bf16的加入必将会给amd显卡带来强大的加成,未来值得期待。
编辑:齐少恒
相关热词搜索: