Telegram Group Search
简单测试Strix Halo (395)单线程SPECint2017的CPU核心与Package能效。

核心方面395比HX370强不少。同样5.1GHz频率下,370峰值电压高达1.45V,而395只有大约1.13V。

Package则没那么乐观,两倍位宽也带来了两倍低频功耗。当然这是插电测试,拔电单线程负载uncore会降频所以实际续航没有减半这么极端。
一个标榜隐私为卖点的产品内置LLM功能时居然不提供自定义API endpoint选项,不知道pm脑子里在想什么。连被自由软件界一部分人骂的狗血淋头的MS vscode现在都支持本地ollama了。

还是说,这些产品出现在列表里,也像默认搜索引擎一样是个交易?在我看来不管是哪种情况他们都已经彻底背离了初衷。
之前尝试拿B580在linux下亮机和玩一些小游戏,遭遇了无数次显卡从总线上直接消失以及proton游戏渲染错误,最后不得不又把卡换回去……这都发售小半年了还在调查

https://www.phoronix.com/news/Intel-Xe-Linux-6.16-Fan-Speeds
难得见识一次现代Xeon的缓存/内存延迟数据(Xeon 6960P @ 3.8 GHz)

这60ns+的L3缓存延迟大概比很多PC DIY用户超频后的内存延迟都高了
随手摸下B200 (148SM)。Vector性能相比H100的提升比较常规(+25%)。全局原子CAS延迟是H100的2x,达到200ns,这大概就是MCM的代价。

有意思的点在于wmma发生明显倒退,每SM性能回到了图形卡水平。本代大概只有tcgen05.mma可以跑出纸面tensor吞吐,这标志着计算卡重心逐渐转向类似NPU的TMEM?
想了一下还是决定把知乎账号给注销了,去年开始走RSS关注发现好像也不是不能用😅
Strix Halo (395)本地运行LLM测试 https://blog.hjc.im/strix-halo-local-llm.html
三星OneUI 7把我最讨厌的iOS UX交互一字不漏原封不动的全抄过来了。。🙃
建议查一下开发团队有没有在滥用精神药品。。
不知道Intel推SYCL是雄心壮志取代CUDA成为下一代GPGPU标准还是纯看CUDA API风格不够现代C++不爽,但实际用起来它并不好实现单源码兼容CUDA生态。项目要全量给Intel GPU维护一份,而ROCm乃至MUSA只用写个简单header做API alias就可以专注优化算子。再考虑Intel硬件弱势,大概率SYCL不会比OpenCL结局更好
想着五一前后挑战llama4 400B发现并没什么挑战性,q4模型用7970X (150GB/s)纯CPU prefll 108 t/s decode 13.8 t/s,用8G显存offload dense层27 t/s,塞满双卡96G显存能30.8 t/s

不过llama.cpp的override tensors的prefill看起来是用纯GPU走PCIe访问内存里的模型,还有优化空间。至少不应该比纯CPU差
David's random thoughts
想着五一前后挑战llama4 400B发现并没什么挑战性,q4模型用7970X (150GB/s)纯CPU prefll 108 t/s decode 13.8 t/s,用8G显存offload dense层27 t/s,塞满双卡96G显存能30.8 t/s 不过llama.cpp的override tensors的prefill看起来是用纯GPU走PCIe访问内存里的模型,还有优化空间。至少不应该比纯CPU差
改一下llama.cpp把bs>=32时GPU通过PCIe读取主机内存里的模型的逻辑去掉,现在内存里的tensor全部由CPU处理,速度就正常多了。

无论是用8G显存还是96G显存的pp性能都各自提升到10倍,远超纯CPU运行的性能。prefill现在可以跑出300 token/s的速度,基本达到日常可用水准。
试图用2050模拟NS有一个很大的问题就是它有2 gpc (32 rop),而从die shot里看ns2大概率只有1 gpc / 16 rop,所以极客湾的性能估算大概率依然过于乐观了。。

看起来我之前估算底座模式time spy比Steam Deck略高一些还挺准的,可惜我也过于乐观了,当时觉得ns2会给2 gpc / 32 rop(逃

https://twitter.com/9550pro/status/1920106682098819302
Xring的X925虽然标定频率较高(平板3.7 GHz,手机3.9 GHz),但常温下稳定跑完SPEC这种长测试的频率依然比较有限,只有3.4 GHz。好在微架构足够强且缓存堆料足,哪怕3.4GHz性能也已经接近主流轻薄本第一梯队。

这个频率的X925相比3.2GHz的前代X4提升接近20%,与M2 Pro/HX370等4/5nm笔记本处理器相近。
代价是服务器带宽贵到视频网站只给得起1Mbps的码率,家里千兆网下载根本用不上。上传带宽也基本没有,而且稍微多用点流量就要被ISP找上门查pcdn。明面上的吃了便宜最后都是要在各种隐形成本里还回来。

https://x.com/LaiskyCai/status/1926450695625953677
2025/05/29 14:53:24
Back to Top
HTML Embed Code: