telegram Telegram Web

David's random thoughts

Strix Halo (395)本地运行LLM测试 https://blog.hjc.im/strix-halo-local-llm.html

1.9K views17:54

David's random thoughts

三星OneUI 7把我最讨厌的iOS UX交互一字不漏原封不动的全抄过来了。。🙃

1.5K views01:06

David's random thoughts

建议查一下开发团队有没有在滥用精神药品。。

1.9K views01:52

David's random thoughts

不知道Intel推SYCL是雄心壮志取代CUDA成为下一代GPGPU标准还是纯看CUDA API风格不够现代C++不爽，但实际用起来它并不好实现单源码兼容CUDA生态。项目要全量给Intel GPU维护一份，而ROCm乃至MUSA只用写个简单header做API alias就可以专注优化算子。再考虑Intel硬件弱势，大概率SYCL不会比OpenCL结局更好

1.7K views04:38

David's random thoughts

想着五一前后挑战llama4 400B发现并没什么挑战性，q4模型用7970X (150GB/s)纯CPU prefll 108 t/s decode 13.8 t/s，用8G显存offload dense层27 t/s，塞满双卡96G显存能30.8 t/s

不过llama.cpp的override tensors的prefill看起来是用纯GPU走PCIe访问内存里的模型，还有优化空间。至少不应该比纯CPU差

1.7K views06:25

David's random thoughts

想着五一前后挑战llama4 400B发现并没什么挑战性，q4模型用7970X (150GB/s)纯CPU prefll 108 t/s decode 13.8 t/s，用8G显存offload dense层27 t/s，塞满双卡96G显存能30.8 t/s 不过llama.cpp的override tensors的prefill看起来是用纯GPU走PCIe访问内存里的模型，还有优化空间。至少不应该比纯CPU差

改一下llama.cpp把bs>=32时GPU通过PCIe读取主机内存里的模型的逻辑去掉，现在内存里的tensor全部由CPU处理，速度就正常多了。

无论是用8G显存还是96G显存的pp性能都各自提升到10倍，远超纯CPU运行的性能。prefill现在可以跑出300 token/s的速度，基本达到日常可用水准。

1.7K views18:52

David's random thoughts

拿来搭个24-48G显存的独显跑Qwen3 235B大概比较合适，回头等看如果有带标准PCIe插槽的靠谱机器了考虑试试（

https://twitter.com/Im_Sdog/status/1920024976180101297

X (formerly Twitter)

𝕊𝕕𝕠𝕘 (@Im_Sdog) on X

这个零刻迷你机挺牛逼的，AI Max+ 395、128G 内存、96G 可分配显存，就是这个价格这个形态...不知道谁有需求

1.8K views08:22

David's random thoughts

试图用2050模拟NS有一个很大的问题就是它有2 gpc (32 rop)，而从die shot里看ns2大概率只有1 gpc / 16 rop，所以极客湾的性能估算大概率依然过于乐观了。。

看起来我之前估算底座模式time spy比Steam Deck略高一些还挺准的，可惜我也过于乐观了，当时觉得ns2会给2 gpc / 32 rop（逃

https://twitter.com/9550pro/status/1920106682098819302

X (formerly Twitter)

HXL (@9550pro) on X

Simulate NS2 T239 performance

2.2K views17:48

David's random thoughts

改一下llama.cpp把bs>=32时GPU通过PCIe读取主机内存里的模型的逻辑去掉，现在内存里的tensor全部由CPU处理，速度就正常多了。无论是用8G显存还是96G显存的pp性能都各自提升到10倍，远超纯CPU运行的性能。prefill现在可以跑出300 token/s的速度，基本达到日常可用水准。

把这个选项进到主线了

https://github.com/ggml-org/llama.cpp/commit/7f323a589f8684c0eb722e7309074cb5eac0c8b5

GitHub

Add `--no-op-offload` to improve `-ot` pp perf in MoE models like lla… · ggml-org/llama.cpp@7f323a5

…ma4 400B (#13386)

1.8K views10:09

David's random thoughts

Xring的X925虽然标定频率较高（平板3.7 GHz，手机3.9 GHz），但常温下稳定跑完SPEC这种长测试的频率依然比较有限，只有3.4 GHz。好在微架构足够强且缓存堆料足，哪怕3.4GHz性能也已经接近主流轻薄本第一梯队。

这个频率的X925相比3.2GHz的前代X4提升接近20%，与M2 Pro/HX370等4/5nm笔记本处理器相近。

2.0K views14:00

David's random thoughts

代价是服务器带宽贵到视频网站只给得起1Mbps的码率，家里千兆网下载根本用不上。上传带宽也基本没有，而且稍微多用点流量就要被ISP找上门查pcdn。明面上的吃了便宜最后都是要在各种隐形成本里还回来。

https://x.com/LaiskyCai/status/1926450695625953677

2.9K viewsedited 04:21

David's random thoughts

有一股苏系火箭的味道扑面而来

https://x.com/_mgde_/status/1928186057381605601

X (formerly Twitter)

Max Evans (@_mgde_) on X

V3 hot staging ring looks epic

1.3K views08:16

David's random thoughts

🙃我最多只要求精通C++模板编程（跑

https://x.com/silsrc/status/1928383663651069973

X (formerly Twitter)

scr.c (@silsrc) on X

突然想到，如果找女朋友，加一个硬性条件精通 CSS 吧，因为我是真学不会 CSS 😭…
比如以后如果创业写前端搞不定，交给女朋友就可以了（
怎么感觉在招牛马（

1.6K views11:58

David's random thoughts

时隔多年升级存储，感觉这速度都能拿来跑llama 4了（逃

1.8K views15:04

David's random thoughts

USB4 2.0还不是最抽象的，USB2也要出个2.0版本(eUSB2 v2)🤣

https://x.com/7id/status/1930888912391778649

X (formerly Twitter)

唐僧 (@7id) on X

太 tmd 行为艺术了，USB4 要出 2.0 版本

4.6K views08:19

David's random thoughts

梅开二度了属于是。。只能说难怪Open WebUI上次把license改了

https://x.com/YinsenHe/status/1931161375503794421

X (formerly Twitter)

Yinsen (@YinsenHe) on X

Cherry Studio 被偷家了！有位老哥来提交 pr，把Cherry Studio 的 logo，readme，license 都改掉了！
又是开源界的一段佳话，上次的佳话还是 @dify_ai 家遇见的！ https://t.co/uIaYNiG0pF

1.4K views03:21

David's random thoughts

Please open Telegram to view this post

VIEW IN TELEGRAM

07:26

David's random thoughts

别说果粉了，安卓用户都得祈祷厂商别一通乱抄

https://x.com/lcMenci/status/1932365526560641173

X (formerly Twitter)

Menci 💖 (@lcMenci) on X

果粉史上最黑暗的一天

1.2K views09:18

David's random thoughts

你怎么这么熟练啊，到底拆了多少竞品回去分析了.jpg

https://x.com/ArtsSuraimu/status/1932888257269838314

X (formerly Twitter)

Schleim Slime Suraimu Pro Max Ultra Plus スライム鼠莱姆 (@ArtsSuraimu) on X

今天展览会上
一个华为的代表团，带着照相机跑到我们的交换机站台前，一个人拆展品，一个人专业拍拍拍，五分钟内结束战斗然后消失在了会场上（

搞得我们是不知所措，也不知道该不该阻止他们拆...

772 views10:19

David's random thoughts

时隔多年升级存储，感觉这速度都能拿来跑llama 4了（逃

实际用下来这个速度的存储直接把C/C++标准IO API报废了。。各个层面大量buffering/拷贝导致内存带宽被干爆，10 GB/s读取在CPU端观察到70 GB/s带宽，4通道HEDT都扛不住。

换Linux API会好一些，但依然只有O_DIRECT能跑出比较接近理论值的性能，而它对offset对齐要求过于严格，日常实用价值也不大。。🙃

410 views01:08

2025/06/13 11:50:27
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tg-me.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>