Telegram Group Search
🙃o3 mini上个月还能答对的问题现在已经开始胡言乱语了
Mesa RADV哪都好,但新硬件上有两个问题:

1. 光追性能较差,看代码发现只用了image_bvh_intersect_ray没有ds_bvh_stack_rtn,也就是RDNA3/4都是RDNA2级别的纯软件traversal。
2. 没有支持RDNA4的cooperative matrix。

所以现在RDNA4在Linux下玩游戏或者跑LLM还是得用amdvlk……嗯现在ROCm也是废的。
手动编译develop branch的hipBLASLt之后9070XT的llama.cpp性能表现正常一些了。prefill性能反杀Navi31将近40%,decode性能差距也远小于显存带宽差距。

后面也许可以利用RDNA4的load-transpose之类的新指令进一步做一些优化。可惜游戏卡显存容量还是太小,干不了什么大事。
2017年以来的每一年都是WoA元年,今后的每一年也将继续是🙃

https://x.com/tomshardware/status/1903489920632791148
David's random thoughts
2017年以来的每一年都是WoA元年,今后的每一年也将继续是🙃 https://x.com/tomshardware/status/1903489920632791148
在PC这种夕阳市场拿到份额有多不容易看隔壁AMD移动端有多难就知道

靠着i5价格实现i7甚至i9 CPU性能且无普遍兼容性问题,再免费送比竞品强的多能玩主流游戏的核显。同时满足这些才会实现份额增长,哪代做不到就停滞不前

为了节省成本,他们甚至移动SoC研发都在印度而非北美。相比之下高通大概还在梦里
为什么前段时间说老美航天就算没马斯克也是断档领先。。图里这些火神芯级如果都拿去做VC4/6构型,那么每发都相当于长5运力。这个爆产能的能力恐怖如斯,国内见过这么多长5同框吗

不过这种事在媒体选择性报道下都排不上号,除了一些小圈子之外我接触的绝大多数人都觉得美国现在只有马斯克能搞航天了🤣

https://twitter.com/SUPERFRENCHBIGZ/status/1904260942441144636
David's random thoughts
世纪大难题:Intel Xe2需要6.12+内核,amdgpu-dkms需要6.11-内核,那么如何让两个设备同时工作呢🙃
之前纠结了好久的这个问题,最近才偶然发现70B模型tensor parallel=2直接把NCCL PCIe P2P关了也不影响性能,所以从最开始就完全没必要折腾amdgpu-dkms……

🙃🙃🙃
🙃 铺天盖地的营销最后不还是连个AEB都做不明白
9070XT当前运行llama.cpp的性能/效率如图(开启FA并且使用q8_0的kvcache量化)

ROCm尚未正式支持RDNA4,需要dev分支rocWMMA/hipBLASLt并对llama.cpp进行修改

可以看到虽然整体效率比起RDNA3已经有明显改进,但依然有进步空间。考虑到目前单独测试hipBLASLt性能也不太理想,此处需要高情商:未来可期
Llama 4这个17B active weight的架构是大容量DDR/LPDDR设备的福音,不过M4 Pro的64G内存刚好用不了……😅
David's random thoughts
Llama 4这个17B active weight的架构是大容量DDR/LPDDR设备的福音,不过M4 Pro的64G内存刚好用不了……😅
好吧,看了一圈llama4的风评,我已经开始心疼月初就用了将近1TB的流量下载这货把整个月的vps流量都快用完了……
HP这台是我多年来买过的首发笔记本新平台机器里对Linux支持最好的,没有之一。不过都已经拿去做Ubuntu认证了也不意外。。

LLM暂时简单测了一个Linux ROCm UMA的llama.cpp运行70B投机解码,理想情况下可以做到大约8.7 t/s左右。后面有空再做详细测试。
Strix Halo的SMU地址跟Strix Point一模一样,pm table因为供电多了一个rail所以看起来有一点小变化。感觉是送分题(
2025/05/29 21:11:31
Back to Top
HTML Embed Code: