6000 美元本地运行 671B 完整版 Deepseek-R1
本方案由 DeepSeek R1 翻译并总结自 Matthew Carrigan
本地运行 Deepseek-R1 的完整硬件 + 软件设置。运行完整的 671B 模型(Q8量化)而非蒸馏模型。总成本约 6000 美元。
本配置不需要昂贵的 GPU。如果你想要拥有一个 > 700GB 显存的硬件配置,可能会花费 10 万美元以上
本方案由 DeepSeek R1 翻译并总结自 Matthew Carrigan
本地运行 Deepseek-R1 的完整硬件 + 软件设置。运行完整的 671B 模型(Q8量化)而非蒸馏模型。总成本约 6000 美元。
本配置不需要昂贵的 GPU。如果你想要拥有一个 > 700GB 显存的硬件配置,可能会花费 10 万美元以上
本文由 DeepSeek R1 翻译自 Primers • DeepSeek R1
DeepSeek-R1 是一个里程碑式的具备推理能力的大语言模型(LLMs)。它在 MIT 许可证下发布,与 OpenAI 的 o1 系列等闭源巨头相媲美,并开创了一种基于强化学习的框架,专为推理任务设计。
DeepSeek-R1 利用 DeepSeekMath 中引入的 Group Relative Policy Optimization (GRPO) 技术,取代了传统的 PPO 方法,使训练更加高效和可扩展。同时,它还利用 DeepSeek-V2 中引入的 Multihead Latent Attention (MLA),通过将 Key-Query-Value (KQV) 矩阵投影到低维潜在空间,显著降低了长上下文处理中的计算和内存开销。
DeepSeek-R1 展示了如何仅通过强化学习使推理能力自然出现,而无需依赖大规模的监督微调。通过 GRPO、FP8 量化和新兴的 CoT 推理等创新,该模型不仅与闭源模型相竞争,还推动了 AI 的透明度和可访问性。随着研究社区在这些创新基础上不断进步,DeepSeek-R1 标志着一种转变:即一种高效、基于推理的 AI 正在向所有人开放。
本简明介绍探索其架构、多阶段训练流水线、GRPO 机制以及推理能力的涌现行为,并探讨如何通过蒸馏将这些推理能力传递给更小的模型。
优化一个高QPS(每秒查询数)服务的SLA(服务水平协议),旨在确保该服务在高负载情况下依然能够提供稳定、快速且可靠的响应。为了达到这个目标,可以从多个方面进行优化,包括但不限于架构设计、资源管理、性能调优、容错机制以及监控和预警系统等。
以前基于 Hexo 与 Github Pages 搭建的博客已然长草多年了,最近心血来潮想重新拾掇一下,却发现以前使用 hexo deploy
的方式部署到 Github Pages 的博客只有静态文件,而原始的 Markdown 文件实在是找不到在哪了。这感觉就跟发现已经在线上跑了十年只有二进制包的程序有 bug 一样难受。
看来博客和程序一样,应该把源代码直接托管到 Github 上,才更方便持续维护。
于是花了一点时间把笔记本上一万年未更新的 Node.js 和 npm 升级了一下,安装了最新版本的 Hexo。最关键的一点是,把博客的部署方式改为使用 Github Actions 自动部署。具体配置方法可以参考 官方文档。
有了基本的框架之后,大部分的时候写博客都可以直接在 Github 上完成,即便是在公司也可以愉快地 摸鱼 学习和沉淀了。
踏平坎坷成大道,斗罢艰险又出发!