6000 美元本地运行 671B 完整版 Deepseek-R1
本方案由 DeepSeek R1 翻译并总结自 Matthew Carrigan
本地运行 Deepseek-R1 的完整硬件 + 软件设置。运行完整的 671B 模型(Q8量化)而非蒸馏模型。总成本约 6000 美元。
本配置不需要昂贵的 GPU。如果你想要拥有一个 > 700GB 显存的硬件配置,可能会花费 10 万美元以上
硬件配置
部件 | 推荐型号/信息 | 关键规格和其他注意事项 |
---|---|---|
主板 | 技嘉 MZ73-LM0 或 MZ73-LM1 | 需要 2 个 EPYC 插座,以支持 24 通道 DDR5 内存,最大化内存容量和带宽。 |
CPU | 2 颗 AMD EPYC 9004 或 9005 系列处理器 | LLM 生成受限于内存带宽,因此不需要顶级型号。 |
内存 | 768GB DDR5-RDIMM 模块(分布在 24 个内存通道上) | 每个通道使用 32GB DDR5-RDIMM 模块,总计 24 x 32GB = 768GB。 |
机箱 | 建议使用适合服务器主板的标准塔式机箱(如 Enthoo Pro 2 Server) | 确保机箱有适合全尺寸服务器主板的螺丝固定点,大多数消费级机箱不支持。 |
电源 | Corsair HX1000i 或其他足够提供多 CPU 供电的电源 | 功耗较低(<400W),但需确保有足够的 CPU 供电线缆以支持双 EPYC 处理器。 |
散热器与风扇 | 如果原装散热器风扇噪音较大,可考虑更换为高效且静音的风扇 | 每个散热器可搭配 1 或 2 个高效风扇以降低噪音并提升散热效率。 |
固态硬盘(SSD) | 1TB 或更大的 NVMe SSD | 建议使用 NVMe,因为启动模型时需要将约 700GB 的权重文件从 SSD 复制到 RAM。 |
注意事项
- 安装完成后,请确保将系统设置为 Linux 操作系统。
- 在 BIOS 中禁用 NUMA(设置为 0),以优化模型在所有内存通道之间的交错分布,从而提升性能。
安装软件
- 安装 llama.cpp
- 访问 Hugging Face 平台,获取 Q8_0 文件夹中的所有文件(约 700GB)。
快速开始
1 | llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf --temp 0.6 -no-cnv -c 16384 -p "<|用户|>草莓中有多少个 R?<|助手|>" |
推理速度
这个配置的推理速度为每秒 6 到 8 个 token,具体取决于您获得的 CPU 和 RAM 速度,或者如果您有较长的上下文,可能会稍微慢一些。