» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

一次奇怪的装机 本地跑半血deepseek 671b和其他大模型 高性价比方案

posted by wap, platform: Android
上个月装了一台独特的机器,主要目的就是能本地运行半血版的deepseek 671b int4版本,顺带可以运行一些小参数量的比如qwen3 30b的。调试了半个月终于达到可用效果。目前deepseek大概10tokens每秒。qwen3 30b大概22tokens每秒。
整机成本大概12000左右。感谢各类洋垃圾的支持。配置单如下:
主板:华南金牌h12d-8d 带bmc模块 2300元
cpu:amd7532 32核 64线程 800元
内存: 8根镁光64g ddr4 3200 4000元
电源:先马平头哥 1000w 400元
硬盘:1t+2t 杂牌ssd 700元
显卡:2块 amd mi50 32g 1900元 后来跑deepseek 671b速度不满意 又加了
3080ti 20g 2700元
内存散热风扇 80元
开放式机架 20元

推理框架deepseek用的fastllm。
qwen3用的vllm,可以双卡张量并行。
几个总结:
1 玩本地大模型网络一定要好。一定要能科学。
2 mi50 单卡跑deepseek 671b int4最快6.7tokens。但是和3080ti 10tokens差距还是明显的。
3 deepseek本地int4效果比官网的好,估计官网量化更严重。
4 mi50 还是有意义 双卡64g,可以gpu运行30b的dense模型。甚至可以本地微调一些小参数的模型。不过这卡amd后续没支持了。
5 玩本地大模型一定要用Ubuntu系统。
6 一定要做好内存散热,671b的moe层都在内存上,用cpu跑内存发热就会降速。
附件: 您所在的用户组无法下载或查看附件


TOP

posted by wap, platform: Chrome
感谢lz的分享,我们是用现成的3090做并联,确实内存散热是个问题。



TOP

posted by wap, platform: Android
本地大模型为啥需要网络好???


TOP

posted by wap, platform: Android
引用:
原帖由 @shixn  于 2025-7-5 16:35 发表
本地大模型为啥需要网络好???
主要是下载模型,下载模型权重或者训练数据集动辄几百g,即使是用hf mirror也要网络好。另外就是要能连hugging face要能科学。

TOP

posted by wap, platform: Chrome
deepseek是放内存的吧

那为啥还要配显卡? 同时跑qwen阿

TOP

posted by wap, platform: Android
引用:
原帖由 @somesun  于 2025-7-5 16:59 发表
deepseek是放内存的吧

那为啥还要配显卡? 同时跑qwen阿
deepseek 共享专家层和注意力机制层是放显卡加速的。全放内存跑只有3tokens

TOP

posted by wap, platform: Firefox
本地跑比我用claude这些优势体现在?

TOP

引用:
原帖由 lvcha 于 2025-7-5 19:00 发表
posted by wap, platform: Firefox
本地跑比我用claude这些优势体现在?
最主要是隐私

TOP

posted by wap, platform: Android
引用:
原帖由 @lvcha  于 2025-7-5 19:00 发表
本地跑比我用claude这些优势体现在?
开发agent很自由了。另外还能lora微调。

TOP

马克下,算是性价比相当高的方案了

TOP

发新话题
     
官方公众号及微博