试了下由于rocWMMA是个C++模板库,所以尽管它并不官方支持Windows,想在Windows上用它还是非常简单。
简单的patch就可以加速Windows上llama.cpp在ROCm/HIP下的flash attention推理性能(尤其是prefill和高batch size),需要的可以自行取用。
https://github.com/hjc4869/llama.cpp/releases/tag/b4786
https://github.com/hjc4869/llama.cpp/commit/1e0d34ec232b30913225a4f37cd4bdd173777d3d
简单的patch就可以加速Windows上llama.cpp在ROCm/HIP下的flash attention推理性能(尤其是prefill和高batch size),需要的可以自行取用。
https://github.com/hjc4869/llama.cpp/releases/tag/b4786
https://github.com/hjc4869/llama.cpp/commit/1e0d34ec232b30913225a4f37cd4bdd173777d3d
现在搞本地部署主要目标群体是企业而不是个人,个人因为门槛高+利用率上不去会血亏。理论上几个熟人凑一块搭一套出来用也可以搞。
性能方面,本地Windows/Mac部署流行的基于llama.cpp的方案确实是并发差了点。vLLM/SGLang虽然并发性能好很多,但是环境和硬件上的门槛又要更进一步,所以也就这样了吧。
https://x.com/wwwyesterday/status/1895820270901887358
性能方面,本地Windows/Mac部署流行的基于llama.cpp的方案确实是并发差了点。vLLM/SGLang虽然并发性能好很多,但是环境和硬件上的门槛又要更进一步,所以也就这样了吧。
https://x.com/wwwyesterday/status/1895820270901887358
X (formerly Twitter)
wwwyesterday (@wwwyesterday) on X
除了闲鱼和一些渠道上还在卖本地部署大模型教程外,绝大多数社媒上,我观察到,本地部署的热度终于下去一点了。
想来是很多人自己试过后,终于明白本地量化后的模型是残废是什么意思了。
跑工作流的人可能也发现了,自己那张卡跑一个并发还行,上了两个就明显变慢,几乎不可用。
想来是很多人自己试过后,终于明白本地量化后的模型是残废是什么意思了。
跑工作流的人可能也发现了,自己那张卡跑一个并发还行,上了两个就明显变慢,几乎不可用。
去年一直觉得Exynos 2400在上海用4G网络经常断流是Exynos的modem有问题,直到最近我把高通8 gen 2机器切换到4G模式用了一段时间,得到了几乎一样的体验……
你乎现在是真的一点正经内容都找不到了。这么多回答居然高赞没一个正经讲讲什么是商业定价合同,甚至连项目本身只花了一个亿$都没怎么讲。
b站虽然也粉红泛滥,但是好歹找找还是能找到认真做科普的,不至于像现在的知乎这样一点都没有啊。
https://www.zhihu.com/question/13843765292
b站虽然也粉红泛滥,但是好歹找找还是能找到认真做科普的,不至于像现在的知乎这样一点都没有啊。
https://www.zhihu.com/question/13843765292
虽然我一向不认同什么护城河,但是拿llama.cpp的CUDA/ROCm实现来当靶子也太容易了,什么时候拿Vulkan做个能打vLLM的再说(
https://x.com/karminski3/status/1896412929328902351
https://x.com/karminski3/status/1896412929328902351
X (formerly Twitter)
karminski-牙医 (@karminski3) on X
CUDA 的护城河还能持续多长时间?
图片是 Vulkan 和 CUDA 在 4070 显卡上的token生成速度性能对比。可以看到有些项目仅有10%左右的差距了。(当然目前只是推理,训练还不行)
顺便,Vulkan 是用于与 GPU 进行交互的图形API。是开源的哦
文章地址:https://t.co/Rx5qecQfP8
#大模型竞技场
图片是 Vulkan 和 CUDA 在 4070 显卡上的token生成速度性能对比。可以看到有些项目仅有10%左右的差距了。(当然目前只是推理,训练还不行)
顺便,Vulkan 是用于与 GPU 进行交互的图形API。是开源的哦
文章地址:https://t.co/Rx5qecQfP8
#大模型竞技场
llama.cpp的rocWMMA flash attention进入主线了,现在可以用RDNA3/3.5/CDNA1+的tensor core加速flash attention实现更好性能的prefill和batch decode。较小模型的单用户吐字速度也有些许提升,应该不会再落后于Vulkan。不过目前主线版本暂时还需要手动打开编译选项。
https://github.com/ggml-org/llama.cpp/commit/becade5de77674696539163dfbaf5c041a1a8e97
https://github.com/ggml-org/llama.cpp/commit/becade5de77674696539163dfbaf5c041a1a8e97
GitHub
HIP: implement FlashAttention via rocWMMA for CDNA and RDNA3+ (#12032) · ggml-org/llama.cpp@becade5
Adds GGML_HIP_ROCWMMA_FATTN and rocwmma header check
Adds rocWMMA support to fattn-wmma-f16
---
Signed-off-by: Carl Klemm <[email protected]>
Co-authored-by: Johannes Gäßler <joh...
Adds rocWMMA support to fattn-wmma-f16
---
Signed-off-by: Carl Klemm <[email protected]>
Co-authored-by: Johannes Gäßler <joh...
Qwen QwQ实际用起来效果比几个DS蒸馏模型要强得多,试了之前几个经典问题都比DS用更少的token做出来。
可惜因为vocab有一些细微差异导致没法用qwen 2.5小模型来做draft model,以及因为众所周知的原因大概率热度远不如DS😆
可惜因为vocab有一些细微差异导致没法用qwen 2.5小模型来做draft model,以及因为众所周知的原因大概率热度远不如DS😆
为什么又聊到Mac跑LLM是行为艺术,因为Apple最近又开始吹一些非常不实际的应用场景(官网声称支持>600B LLM),还有一群KOL真的出来测DS 671B跑出将近20t/s
但是实际情况呢?刚开始确实可以接近20 t/s,但reasoning非常吃上下文长度。而13k上下文之后只剩6.3t/s,基本不可用。
https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/comment/mhgksp9/
但是实际情况呢?刚开始确实可以接近20 t/s,但reasoning非常吃上下文长度。而13k上下文之后只剩6.3t/s,基本不可用。
https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/comment/mhgksp9/
.NET Core这种LTS只支持3年还喜欢日常搞breaking change的support policy,后果就是我们一大群屎山业务逻辑代码费了老大的劲移植到 .NET Core 之后还要隔三差五的去升级 .NET 版本修兼容性问题,而隔壁躺平在 .NET 4.7.2 的业务则可以一直享受Windows的无感security patch + 无敌向下兼容。
这怎么能叫bug呢,明明是无敌feature好吧
https://www.windowslatest.com/2025/03/16/microsoft-windows-11-march-2025-update-bug-deletes-copilot-app-unpins-from-the-taskbar/
https://www.windowslatest.com/2025/03/16/microsoft-windows-11-march-2025-update-bug-deletes-copilot-app-unpins-from-the-taskbar/
Windows Latest
Microsoft: Windows 11 March 2025 update bug deletes Copilot app, unpins from the taskbar
Microsoft confirms Windows 11 March 2025 update bug deletes Copilot app, unpins from the taskbar. Offers fix.
2077 1080p路径追踪RDNA 3 vs 4,后者用上新的traversal指令之后RT shader寄存器压力骤降(240 -> 96),occupation也直接满了(6/16 -> 16/16)。
2077的RT shader不算特别复杂,因此没有观察到使用动态寄存器(s_alloc_vgpr)。在黑神话悟空里则有观察到5-20%的wave时间被用于循环等待动态分配。
2077的RT shader不算特别复杂,因此没有观察到使用动态寄存器(s_alloc_vgpr)。在黑神话悟空里则有观察到5-20%的wave时间被用于循环等待动态分配。