DeepSeek API 接入 SillyTavern:不用本地显卡的小酒馆方案

在没有高性能显卡的情况下,通过 DeepSeek 官方 API 和 SillyTavern 的 Chat Completion / OpenAI-compatible 配置,把小酒馆连接到云端 DeepSeek 模型。

把 DeepSeek 接入 SillyTavern 小酒馆,有两条常见路线。

第一条是本地部署:用 Ollama、KoboldCPP 或 LM Studio 在自己的电脑上跑模型,再让 SillyTavern 连接本机服务。这个方案适合有显卡、想离线使用、愿意折腾模型的人。

第二条是 API:SillyTavern 仍然跑在本机,但模型推理交给 DeepSeek 官方 API。这个方案不需要本地显卡,也不用下载几十 GB 的模型文件。只要能稳定访问 API,普通电脑也可以使用。

这篇记录第二种方案。需要本地 Ollama 方案的话,可以看 DeepSeek R1 接入 SillyTavern 小酒馆:Ollama 本地部署教程

适合什么人

API 方案更适合这些情况:

  • 电脑没有独立显卡,或者显存不足。
  • 不想下载和管理本地模型文件。
  • 希望模型效果更接近官方网页。
  • 可以接受按 token 计费。
  • 主要在联网环境下使用小酒馆。

它不适合追求完全离线的人。所有对话都会发送到模型服务商,角色卡、聊天内容和系统提示词都要按云端 API 的使用边界来理解。涉及隐私或敏感内容时,应先评估风险。

准备 DeepSeek API Key

先进入 DeepSeek 官方开放平台:

DeepSeek API Platform

注册、登录、完成必要的账户设置后,创建 API Key。Key 通常只在创建时完整显示一次,保存时要放在密码管理器或本机安全位置,不要提交到 Git 仓库,也不要发到聊天记录里。

模型和价格以官方文档为准:

DeepSeek Models & Pricing

截至 2026 年 5 月 5 日,DeepSeek 官方文档里新的模型名主要是:

  • deepseek-v4-flash
  • deepseek-v4-pro

官方价格页同时提示,deepseek-chatdeepseek-reasoner 这两个旧模型名计划在 2026 年 7 月 24 日退役。因此新配置建议优先使用 deepseek-v4-flashdeepseek-v4-pro

日常角色聊天可以先从 deepseek-v4-flash 开始。它通常更适合作为默认选择;如果对回复质量要求更高,再换成 deepseek-v4-pro 做对比。

安装并启动 SillyTavern

如果还没有安装 SillyTavern,Windows 上先安装:

然后在命令行执行:

git clone https://github.com/SillyTavern/SillyTavern -b release

进入 SillyTavern 文件夹,双击 Start.bat。浏览器打开后,SillyTavern 本体就运行起来了。

官方安装文档:SillyTavern Windows Installation

配置 DeepSeek API

进入 SillyTavern 后,点击顶部的插头图标,打开 API 连接设置。不同版本的 UI 名称可能会有细微变化,但核心思路是:选择 Chat Completion,然后把 DeepSeek 当作云端 API 或 OpenAI-compatible API 接入。

方式一:使用内置 DeepSeek 入口

如果当前 SillyTavern 版本的 Chat Completion Source 里已经有 DeepSeek,可以优先用这个入口:

  • API 类型:Chat Completion
  • Source / Provider:DeepSeek
  • API Key:填入 DeepSeek 控制台生成的 Key
  • Model:优先选择 deepseek-v4-flash,需要更强效果时选择 deepseek-v4-pro

保存后测试连接。能返回模型信息或测试回复,就说明配置成功。

如果模型列表里仍然只有 deepseek-chatdeepseek-reasoner 这类旧名称,说明 SillyTavern 的内置列表可能还没跟上 DeepSeek 文档变化。此时可以改用下面的 OpenAI-compatible 方式,手动填写模型名。

方式二:使用 OpenAI-compatible 配置

DeepSeek API 兼容 OpenAI API 格式,因此也可以走 SillyTavern 的 Custom / OpenAI-compatible 配置。

常用配置如下:

API 类型:Chat Completion
Source / Provider:Custom 或 OpenAI-compatible
API Key:sk-...
Base URL:https://api.deepseek.com
Model:deepseek-v4-flash

如果当前 SillyTavern 版本要求 OpenAI 风格的 /v1 地址,可以把 Base URL 改成:

https://api.deepseek.com/v1

不要把地址填成 https://api.deepseek.com/chat/completions。SillyTavern 会自己拼接具体接口路径,配置里通常只需要填基础地址。

推荐参数

角色聊天最重要的不是单个参数绝对正确,而是先让连接稳定,再慢慢调体验。可以从比较保守的配置开始:

  • Model:deepseek-v4-flash
  • Temperature:0.81.0
  • Top P:0.9
  • Max response length:先设中等长度,确认回复速度和费用后再加大
  • Streaming:开启,方便边生成边看

如果角色说话过于发散,降低 Temperature;如果回复太短,增加最大回复长度;如果上下文费用增长太快,减少保留消息数量或缩短角色卡描述。

常见问题

为什么 API 方案不需要显卡?

模型运行在 DeepSeek 的服务器上,本机只负责运行 SillyTavern 界面、发送请求和展示回复。因此普通笔记本也能使用,瓶颈主要变成网络、API 可用性和费用。

DeepSeek API 和本地 Ollama 版本有什么区别?

Ollama 运行的是本地模型,优点是可控、可以离线、没有按 token 计费;缺点是硬件要求高,模型越大越吃显存和内存。

DeepSeek API 使用云端模型,优点是不用本地显卡、效果通常更稳定;缺点是联网依赖、按量计费,并且对话会发送到服务商。

填了 API Key 还是连不上怎么办?

优先排查四件事:

  • API Key 是否复制完整,前后有没有多余空格。
  • Base URL 是否只填基础地址,而不是完整接口路径。
  • 模型名是否是 DeepSeek 当前官方文档里的可用模型。
  • 网络是否能访问 DeepSeek API。

如果内置 DeepSeek 入口失败,可以换 OpenAI-compatible 配置;如果 https://api.deepseek.com 不通,再尝试 https://api.deepseek.com/v1

费用怎么控制?

角色聊天很容易因为上下文不断变长而增加 token 消耗。可以从这几件事控制:

  • 先用 deepseek-v4-flash
  • 不要一次保留过长聊天历史。
  • 控制角色卡、世界书和系统提示词长度。
  • 先短时间测试,再长期使用。
  • 定期查看 DeepSeek 控制台里的用量。

还应该保留本地部署方案吗?

可以保留。本地方案更像技术玩具和隐私偏好的选择,API 方案更像稳定使用的选择。实际体验后,我更倾向于把 API 作为日常小酒馆方案,把 Ollama 本地模型作为测试、离线和模型对比方案。

小结

DeepSeek API 接入 SillyTavern 的核心只有三件事:拿到 API Key,选择 Chat Completion / OpenAI-compatible,把 Base URL 和模型名填对。

如果只是想在小酒馆里稳定使用 DeepSeek,不必先买显卡,也不必下载本地模型。API 方案的门槛更低,后续真正需要离线或本地可控时,再回到 Ollama、KoboldCPP 或 LM Studio 也不迟。

参考资料