简单测试Strix Halo (395)单线程SPECint2017的CPU核心与Package能效。
核心方面395比HX370强不少。同样5.1GHz频率下,370峰值电压高达1.45V,而395只有大约1.13V。
Package则没那么乐观,两倍位宽也带来了两倍低频功耗。当然这是插电测试,拔电单线程负载uncore会降频所以实际续航没有减半这么极端。
核心方面395比HX370强不少。同样5.1GHz频率下,370峰值电压高达1.45V,而395只有大约1.13V。
Package则没那么乐观,两倍位宽也带来了两倍低频功耗。当然这是插电测试,拔电单线程负载uncore会降频所以实际续航没有减半这么极端。
之前尝试拿B580在linux下亮机和玩一些小游戏,遭遇了无数次显卡从总线上直接消失以及proton游戏渲染错误,最后不得不又把卡换回去……这都发售小半年了还在调查
https://www.phoronix.com/news/Intel-Xe-Linux-6.16-Fan-Speeds
https://www.phoronix.com/news/Intel-Xe-Linux-6.16-Fan-Speeds
Phoronix
Intel Xe Driver Adds Fan Speed Reporting For Linux 6.16, BMG Instability Being Debugged
Back in the Linux 6.12 kernel cycle the Intel i915 kernel graphics driver added fan speed reporting support
David's random thoughts
HP这台是我多年来买过的首发笔记本新平台机器里对Linux支持最好的,没有之一。不过都已经拿去做Ubuntu认证了也不意外。。 LLM暂时简单测了一个Linux ROCm UMA的llama.cpp运行70B投机解码,理想情况下可以做到大约8.7 t/s左右。后面有空再做详细测试。
8-9 t/s并没有完全发挥8060S的潜力,llama.cpp的llama-server有一个小问题导致server配speculative decoding时性能欠佳(与具体硬件无关):https://github.com/ggml-org/llama.cpp/issues/12968
动手简单修一下这个问题之后Qwen 2.5 72B iq4_xs + 1.5B draft在acceptance rate理想时可达到10-12 t/s左右
https://github.com/hjc4869/llama.cpp/commit/0b32f64ffbe973e99e0dc7097be31d4d966d476e
动手简单修一下这个问题之后Qwen 2.5 72B iq4_xs + 1.5B draft在acceptance rate理想时可达到10-12 t/s左右
https://github.com/hjc4869/llama.cpp/commit/0b32f64ffbe973e99e0dc7097be31d4d966d476e
随手摸下B200 (148SM)。Vector性能相比H100的提升比较常规(+25%)。全局原子CAS延迟是H100的2x,达到200ns,这大概就是MCM的代价。
有意思的点在于wmma发生明显倒退,每SM性能回到了图形卡水平。本代大概只有tcgen05.mma可以跑出纸面tensor吞吐,这标志着计算卡重心逐渐转向类似NPU的TMEM?
有意思的点在于wmma发生明显倒退,每SM性能回到了图形卡水平。本代大概只有tcgen05.mma可以跑出纸面tensor吞吐,这标志着计算卡重心逐渐转向类似NPU的TMEM?
Strix Halo (395)本地运行LLM测试 https://blog.hjc.im/strix-halo-local-llm.html
不知道Intel推SYCL是雄心壮志取代CUDA成为下一代GPGPU标准还是纯看CUDA API风格不够现代C++不爽,但实际用起来它并不好实现单源码兼容CUDA生态。项目要全量给Intel GPU维护一份,而ROCm乃至MUSA只用写个简单header做API alias就可以专注优化算子。再考虑Intel硬件弱势,大概率SYCL不会比OpenCL结局更好
David's random thoughts
想着五一前后挑战llama4 400B发现并没什么挑战性,q4模型用7970X (150GB/s)纯CPU prefll 108 t/s decode 13.8 t/s,用8G显存offload dense层27 t/s,塞满双卡96G显存能30.8 t/s 不过llama.cpp的override tensors的prefill看起来是用纯GPU走PCIe访问内存里的模型,还有优化空间。至少不应该比纯CPU差
改一下llama.cpp把bs>=32时GPU通过PCIe读取主机内存里的模型的逻辑去掉,现在内存里的tensor全部由CPU处理,速度就正常多了。
无论是用8G显存还是96G显存的pp性能都各自提升到10倍,远超纯CPU运行的性能。prefill现在可以跑出300 token/s的速度,基本达到日常可用水准。
无论是用8G显存还是96G显存的pp性能都各自提升到10倍,远超纯CPU运行的性能。prefill现在可以跑出300 token/s的速度,基本达到日常可用水准。
拿来搭个24-48G显存的独显跑Qwen3 235B大概比较合适,回头等看如果有带标准PCIe插槽的靠谱机器了考虑试试(
https://twitter.com/Im_Sdog/status/1920024976180101297
https://twitter.com/Im_Sdog/status/1920024976180101297
X (formerly Twitter)
𝕊𝕕𝕠𝕘 (@Im_Sdog) on X
这个零刻迷你机挺牛逼的,AI Max+ 395、128G 内存、96G 可分配显存,就是这个价格这个形态...不知道谁有需求
试图用2050模拟NS有一个很大的问题就是它有2 gpc (32 rop),而从die shot里看ns2大概率只有1 gpc / 16 rop,所以极客湾的性能估算大概率依然过于乐观了。。
看起来我之前估算底座模式time spy比Steam Deck略高一些还挺准的,可惜我也过于乐观了,当时觉得ns2会给2 gpc / 32 rop(逃
https://twitter.com/9550pro/status/1920106682098819302
看起来我之前估算底座模式time spy比Steam Deck略高一些还挺准的,可惜我也过于乐观了,当时觉得ns2会给2 gpc / 32 rop(逃
https://twitter.com/9550pro/status/1920106682098819302
X (formerly Twitter)
HXL (@9550pro) on X
Simulate NS2 T239 performance
David's random thoughts
改一下llama.cpp把bs>=32时GPU通过PCIe读取主机内存里的模型的逻辑去掉,现在内存里的tensor全部由CPU处理,速度就正常多了。 无论是用8G显存还是96G显存的pp性能都各自提升到10倍,远超纯CPU运行的性能。prefill现在可以跑出300 token/s的速度,基本达到日常可用水准。
GitHub
Add `--no-op-offload` to improve `-ot` pp perf in MoE models like lla… · ggml-org/llama.cpp@7f323a5
…ma4 400B (#13386)
代价是服务器带宽贵到视频网站只给得起1Mbps的码率,家里千兆网下载根本用不上。上传带宽也基本没有,而且稍微多用点流量就要被ISP找上门查pcdn。明面上的吃了便宜最后都是要在各种隐形成本里还回来。
https://x.com/LaiskyCai/status/1926450695625953677
https://x.com/LaiskyCai/status/1926450695625953677
X (formerly Twitter)
Laisky (@LaiskyCai) on X
In Shanghai China, 60GB mobile + 500mbps home internet = 11 CAD/month.
In Ottawa Canada, 60GB mobile (with terrible signal) + 70mbps home internet = 75 CAD/month!
In Ottawa Canada, 60GB mobile (with terrible signal) + 70mbps home internet = 75 CAD/month!