Mesa RADV哪都好,但新硬件上有两个问题:
1. 光追性能较差,看代码发现只用了image_bvh_intersect_ray没有ds_bvh_stack_rtn,也就是RDNA3/4都是RDNA2级别的纯软件traversal。
2. 没有支持RDNA4的cooperative matrix。
所以现在RDNA4在Linux下玩游戏或者跑LLM还是得用amdvlk……嗯现在ROCm也是废的。
1. 光追性能较差,看代码发现只用了image_bvh_intersect_ray没有ds_bvh_stack_rtn,也就是RDNA3/4都是RDNA2级别的纯软件traversal。
2. 没有支持RDNA4的cooperative matrix。
所以现在RDNA4在Linux下玩游戏或者跑LLM还是得用amdvlk……嗯现在ROCm也是废的。
David's random thoughts
Mesa RADV哪都好,但新硬件上有两个问题: 1. 光追性能较差,看代码发现只用了image_bvh_intersect_ray没有ds_bvh_stack_rtn,也就是RDNA3/4都是RDNA2级别的纯软件traversal。 2. 没有支持RDNA4的cooperative matrix。 所以现在RDNA4在Linux下玩游戏或者跑LLM还是得用amdvlk……嗯现在ROCm也是废的。
Phoronix
Mesa RADV vs. AMDVLK Vulkan Driver Performance For The AMD Radeon RX 9070 Series
.
David's random thoughts
2017年以来的每一年都是WoA元年,今后的每一年也将继续是🙃 https://x.com/tomshardware/status/1903489920632791148
在PC这种夕阳市场拿到份额有多不容易看隔壁AMD移动端有多难就知道
靠着i5价格实现i7甚至i9 CPU性能且无普遍兼容性问题,再免费送比竞品强的多能玩主流游戏的核显。同时满足这些才会实现份额增长,哪代做不到就停滞不前
为了节省成本,他们甚至移动SoC研发都在印度而非北美。相比之下高通大概还在梦里
靠着i5价格实现i7甚至i9 CPU性能且无普遍兼容性问题,再免费送比竞品强的多能玩主流游戏的核显。同时满足这些才会实现份额增长,哪代做不到就停滞不前
为了节省成本,他们甚至移动SoC研发都在印度而非北美。相比之下高通大概还在梦里
为什么前段时间说老美航天就算没马斯克也是断档领先。。图里这些火神芯级如果都拿去做VC4/6构型,那么每发都相当于长5运力。这个爆产能的能力恐怖如斯,国内见过这么多长5同框吗
不过这种事在媒体选择性报道下都排不上号,除了一些小圈子之外我接触的绝大多数人都觉得美国现在只有马斯克能搞航天了🤣
https://twitter.com/SUPERFRENCHBIGZ/status/1904260942441144636
不过这种事在媒体选择性报道下都排不上号,除了一些小圈子之外我接触的绝大多数人都觉得美国现在只有马斯克能搞航天了🤣
https://twitter.com/SUPERFRENCHBIGZ/status/1904260942441144636
X (formerly Twitter)
Zaki Qayoumi (aka Zack) iamzaki.eth (@SUPERFRENCHBIGZ) on X
For your visual enjoyment. The last set was in the Finished Goods Warehouse in Decatur. These are at the Cape. https://t.co/XFROBfCWnP via @torybruno @ulalaunch @LinkedIn #LinkedIn #ULA
David's random thoughts
世纪大难题:Intel Xe2需要6.12+内核,amdgpu-dkms需要6.11-内核,那么如何让两个设备同时工作呢🙃
之前纠结了好久的这个问题,最近才偶然发现70B模型tensor parallel=2直接把NCCL PCIe P2P关了也不影响性能,所以从最开始就完全没必要折腾amdgpu-dkms……
🙃🙃🙃
🙃🙃🙃
另外我也顺便明白了一件事情。最近的单机游戏很多玩不下去并不是因为我现在不喜欢玩游戏,而是因为游戏本身越来越不好玩了😡
https://x.com/hjc4869/status/1907109523023892647
https://x.com/hjc4869/status/1907109523023892647
X (formerly Twitter)
David Huang (@hjc4869) on X
@Yayoi_no_yume 刚换新显卡第一件事情就是拿这个版本重温剧情。。。画面确实强得多,老版本很多做的不够好的特效都有明显的提升
9070XT当前运行llama.cpp的性能/效率如图(开启FA并且使用q8_0的kvcache量化)
ROCm尚未正式支持RDNA4,需要dev分支rocWMMA/hipBLASLt并对llama.cpp进行修改
可以看到虽然整体效率比起RDNA3已经有明显改进,但依然有进步空间。考虑到目前单独测试hipBLASLt性能也不太理想,此处需要高情商:未来可期
ROCm尚未正式支持RDNA4,需要dev分支rocWMMA/hipBLASLt并对llama.cpp进行修改
可以看到虽然整体效率比起RDNA3已经有明显改进,但依然有进步空间。考虑到目前单独测试hipBLASLt性能也不太理想,此处需要高情商:未来可期
Llama 4这个17B active weight的架构是大容量DDR/LPDDR设备的福音,不过M4 Pro的64G内存刚好用不了……😅
David's random thoughts
Llama 4这个17B active weight的架构是大容量DDR/LPDDR设备的福音,不过M4 Pro的64G内存刚好用不了……😅
好吧,看了一圈llama4的风评,我已经开始心疼月初就用了将近1TB的流量下载这货把整个月的vps流量都快用完了……
HP这台是我多年来买过的首发笔记本新平台机器里对Linux支持最好的,没有之一。不过都已经拿去做Ubuntu认证了也不意外。。
LLM暂时简单测了一个Linux ROCm UMA的llama.cpp运行70B投机解码,理想情况下可以做到大约8.7 t/s左右。后面有空再做详细测试。
LLM暂时简单测了一个Linux ROCm UMA的llama.cpp运行70B投机解码,理想情况下可以做到大约8.7 t/s左右。后面有空再做详细测试。
Strix Halo的SMU地址跟Strix Point一模一样,pm table因为供电多了一个rail所以看起来有一点小变化。感觉是送分题(