David's random thoughts
HP这台是我多年来买过的首发笔记本新平台机器里对Linux支持最好的,没有之一。不过都已经拿去做Ubuntu认证了也不意外。。 LLM暂时简单测了一个Linux ROCm UMA的llama.cpp运行70B投机解码,理想情况下可以做到大约8.7 t/s左右。后面有空再做详细测试。
8-9 t/s并没有完全发挥8060S的潜力,llama.cpp的llama-server有一个小问题导致server配speculative decoding时性能欠佳(与具体硬件无关):https://github.com/ggml-org/llama.cpp/issues/12968
动手简单修一下这个问题之后Qwen 2.5 72B iq4_xs + 1.5B draft在acceptance rate理想时可达到10-12 t/s左右
https://github.com/hjc4869/llama.cpp/commit/0b32f64ffbe973e99e0dc7097be31d4d966d476e
动手简单修一下这个问题之后Qwen 2.5 72B iq4_xs + 1.5B draft在acceptance rate理想时可达到10-12 t/s左右
https://github.com/hjc4869/llama.cpp/commit/0b32f64ffbe973e99e0dc7097be31d4d966d476e
随手摸下B200 (148SM)。Vector性能相比H100的提升比较常规(+25%)。全局原子CAS延迟是H100的2x,达到200ns,这大概就是MCM的代价。
有意思的点在于wmma发生明显倒退,每SM性能回到了图形卡水平。本代大概只有tcgen05.mma可以跑出纸面tensor吞吐,这标志着计算卡重心逐渐转向类似NPU的TMEM?
有意思的点在于wmma发生明显倒退,每SM性能回到了图形卡水平。本代大概只有tcgen05.mma可以跑出纸面tensor吞吐,这标志着计算卡重心逐渐转向类似NPU的TMEM?
Strix Halo (395)本地运行LLM测试 https://blog.hjc.im/strix-halo-local-llm.html
不知道Intel推SYCL是雄心壮志取代CUDA成为下一代GPGPU标准还是纯看CUDA API风格不够现代C++不爽,但实际用起来它并不好实现单源码兼容CUDA生态。项目要全量给Intel GPU维护一份,而ROCm乃至MUSA只用写个简单header做API alias就可以专注优化算子。再考虑Intel硬件弱势,大概率SYCL不会比OpenCL结局更好
David's random thoughts
想着五一前后挑战llama4 400B发现并没什么挑战性,q4模型用7970X (150GB/s)纯CPU prefll 108 t/s decode 13.8 t/s,用8G显存offload dense层27 t/s,塞满双卡96G显存能30.8 t/s 不过llama.cpp的override tensors的prefill看起来是用纯GPU走PCIe访问内存里的模型,还有优化空间。至少不应该比纯CPU差
改一下llama.cpp把bs>=32时GPU通过PCIe读取主机内存里的模型的逻辑去掉,现在内存里的tensor全部由CPU处理,速度就正常多了。
无论是用8G显存还是96G显存的pp性能都各自提升到10倍,远超纯CPU运行的性能。prefill现在可以跑出300 token/s的速度,基本达到日常可用水准。
无论是用8G显存还是96G显存的pp性能都各自提升到10倍,远超纯CPU运行的性能。prefill现在可以跑出300 token/s的速度,基本达到日常可用水准。
拿来搭个24-48G显存的独显跑Qwen3 235B大概比较合适,回头等看如果有带标准PCIe插槽的靠谱机器了考虑试试(
https://twitter.com/Im_Sdog/status/1920024976180101297
https://twitter.com/Im_Sdog/status/1920024976180101297
X (formerly Twitter)
𝕊𝕕𝕠𝕘 (@Im_Sdog) on X
这个零刻迷你机挺牛逼的,AI Max+ 395、128G 内存、96G 可分配显存,就是这个价格这个形态...不知道谁有需求
试图用2050模拟NS有一个很大的问题就是它有2 gpc (32 rop),而从die shot里看ns2大概率只有1 gpc / 16 rop,所以极客湾的性能估算大概率依然过于乐观了。。
看起来我之前估算底座模式time spy比Steam Deck略高一些还挺准的,可惜我也过于乐观了,当时觉得ns2会给2 gpc / 32 rop(逃
https://twitter.com/9550pro/status/1920106682098819302
看起来我之前估算底座模式time spy比Steam Deck略高一些还挺准的,可惜我也过于乐观了,当时觉得ns2会给2 gpc / 32 rop(逃
https://twitter.com/9550pro/status/1920106682098819302
X (formerly Twitter)
HXL (@9550pro) on X
Simulate NS2 T239 performance
David's random thoughts
改一下llama.cpp把bs>=32时GPU通过PCIe读取主机内存里的模型的逻辑去掉,现在内存里的tensor全部由CPU处理,速度就正常多了。 无论是用8G显存还是96G显存的pp性能都各自提升到10倍,远超纯CPU运行的性能。prefill现在可以跑出300 token/s的速度,基本达到日常可用水准。
GitHub
Add `--no-op-offload` to improve `-ot` pp perf in MoE models like lla… · ggml-org/llama.cpp@7f323a5
…ma4 400B (#13386)
代价是服务器带宽贵到视频网站只给得起1Mbps的码率,家里千兆网下载根本用不上。上传带宽也基本没有,而且稍微多用点流量就要被ISP找上门查pcdn。明面上的吃了便宜最后都是要在各种隐形成本里还回来。
https://x.com/LaiskyCai/status/1926450695625953677
https://x.com/LaiskyCai/status/1926450695625953677
X (formerly Twitter)
Laisky (@LaiskyCai) on X
In Shanghai China, 60GB mobile + 500mbps home internet = 11 CAD/month.
In Ottawa Canada, 60GB mobile (with terrible signal) + 70mbps home internet = 75 CAD/month!
In Ottawa Canada, 60GB mobile (with terrible signal) + 70mbps home internet = 75 CAD/month!