如何通过 3 个简单步骤在 Windows 上本地运行 DeepSeek

Ne0inhk

16 Mar 2026 — 4 min read

它是免费的——社区驱动的人工智能💪。

当 OpenAI 第一次推出定制 GPT 时，我就明白会有越来越多的人为人工智能做出贡献，并且迟早它会完全由社区驱动。

但从来没有想过它会如此接近😂让我们看看如何在 Windows 机器上完全免费使用第一个开源推理模型！

步骤 0：安装 Docker 桌面

我确信很多人已经安装了它，所以可以跳过，但如果没有 — — 这很简单，只需访问Docker 的官方网站，下载并运行安装 👍

如果您需要一些特定的设置，例如使用 WSL，那么有很多指导视频，请查看！我将继续下一步。

步骤 1：安装 CUDA 以获得 GPU 支持

如果您想使用 Nvidia 显卡运行 LLM，则必须安装 CUDA 驱动程序。（嗯……是的，它们需要大量的计算能力）

打开CUDA 下载页面，根据需要点击“Windows”和其他选项，然后选择“本地”作为安装程序类型：

下载并完成安装即可👍，此处需要重新启动。

第 2 步：安装 Ollama 并下载模型

前往Ollama 网站并点击下载按钮 😆

Ollama是一款开源 AI 工具，使用户能够在其设备上本地运行大型语言模型，为自然语言处理任务提供定制化、高效和离线功能。

安装后，打开“Windows PowerShell”

并通过运行来验证您的安装ollama -v：

再次打开ollama网站并选择您的型号：

有几种选择，我建议从 7b 开始，并检查它如何与您的机器配合使用。例如，我运行 i7-11 系列处理器和 NVIDIA GeForce RTX 2080 SUPER 以及 8GB GPU，我可以在正常（可以说是“可接受的”）速度下使用 14b 型号。

正如我所说，它需要大量的计算能力

选择后，点击复制按钮：

并在 PowerShell 中运行：

它将像上面一样下载并打开 shell，您可以在这里直接与它聊天，但是让我们/bye对它说，并继续设置一个实际的 UI，而不是从 PowerShell 提示 💪

步骤3：安装Open-WebUI

打开github 页面，找到“ Open WebUI with Nvidia GPU support”

复制该命令并再次在 PowerShell 中运行它。它将下载所有需要的 docker 镜像并运行容器，您可以通过http://localhost:3000/访问该容器

对于任何 LLM 用户来说，这都是一个熟悉的用户界面，左侧边栏用于聊天，左上角可用于选择已安装的模型等。

Open-WebUI 具有大量功能，例如 RAG、图像生成、网页浏览等。您可以在此处查看完整列表

社区驱动的人工智能← 获取有关人工智能的更多内容 👍

所有信息和观点均仅代表我个人的见解。

如果您喜欢此文章，请收藏、点赞、评论，谢谢，祝您快乐每一天。

国产大模型V4即将来袭！DeepSeek打破常规，瞄准国产硬件生态，能否改写AI格局？

DeepSeek计划下周发布全新多模态大语言模型V4版本，该版本将原生支持图片、视频与文本的联合理解与生成，上下文窗口扩展至100万Tokens，参数量可能突破1万亿。V4在编程任务上的表现已超越Claude和GPT系列竞品。DeepSeek罕见地向华为等国内硬件厂商开放模型测试权限，而非英伟达与AMD，此举或使国产芯片厂商获得数周优化时间，实现局部反超。DeepSeek还联合北大、清华发表了《DualPath》论文，通过利用解码引擎闲置的存储网卡带宽搬运数据，使模型推理效率大幅提升。DeepSeek V4的登场标志着顶尖算法开始向国产硬件全面靠拢，一个真正自主、闭环的AI生态正从蓝图走向现实。还在盯着GPT-5的消息吗？国产大模型的黑马已经悄悄准备好了新一轮的“王炸”。就在刚刚过去的这个周末，AI圈传来确切消息：DeepSeek计划于下周正式发布全新的多模态大语言模型V4版本。这不仅是今年1月推出R1推理模型后的首次重大版本迭代，更可能是一场改写国内AI生态格局的里程碑事件。这次的V4究竟有多强？我们先看一组硬核数据： * • 原生多模态能力：V4将彻底告别纯文本时代

AI大模型应用性能核心指标：TTFT 与 TPOT 详解

一、核心定义总览这两个指标专门衡量大模型流式响应性能，是评估用户体验的关键指标。二、TTFT（Time To First Token） - 首Token延迟 1. 1. 定义与重要性 TTFT = 从用户发送请求到接收到第一个输出Token的时间间隔用户: "请介绍一下量子计算" ↓ 请求发送 (t=0) 服务器: [接收→预处理→模型推理→生成第一个字] ↓ 首Token生成 (t=TTFT) 用户看到: "量..." 1. 2. TTFT的关键组成 # TTFT 分解示意图 TTFT = ( network_latency + # 网络传输延迟 queue_delay + # 服务排队时间 preprocessing_time

实测Gemini Pro：谷歌王牌AI，到底能帮我们解决多少实际问题？

🔥草莓熊Lotso：个人主页 ❄️个人专栏: 《C++知识分享》《Linux 入门到实践：零基础也能懂》 ✨生活是默默的坚持，毅力是永久的享受！ 🎬 博主简介：文章目录 * 前言： * 一、核心亮点实测：不止是“多模态”，更是“真全能” * 1. 多模态处理：能“看、听、读、写”，还能“联动协作” * 2. 推理能力：复杂问题“会拆解、会纠错”，堪比专业助手 * 3. 代码能力：开发者的“全能帮手”，新手也能轻松上手 * 二、真实应用场景：这些领域，已经在用它提效了 * 1. 科研领域：帮研究员“节省时间”，专注核心工作 * 2. 内容创作：