DeepSeek API 接入 SillyTavern:不用本地显卡的小酒馆方案
在没有高性能显卡的情况下,通过 DeepSeek 官方 API 和 SillyTavern 的 Chat Completion / OpenAI-compatible 配置,把小酒馆连接到云端 DeepSeek 模型。
把 DeepSeek 接入 SillyTavern 小酒馆,有两条常见路线。
第一条是本地部署:用 Ollama、KoboldCPP 或 LM Studio 在自己的电脑上跑模型,再让 SillyTavern 连接本机服务。这个方案适合有显卡、想离线使用、愿意折腾模型的人。
第二条是 API:SillyTavern 仍然跑在本机,但模型推理交给 DeepSeek 官方 API。这个方案不需要本地显卡,也不用下载几十 GB 的模型文件。只要能稳定访问 API,普通电脑也可以使用。
这篇记录第二种方案。需要本地 Ollama 方案的话,可以看 DeepSeek R1 接入 SillyTavern 小酒馆:Ollama 本地部署教程。
适合什么人
API 方案更适合这些情况:
- 电脑没有独立显卡,或者显存不足。
- 不想下载和管理本地模型文件。
- 希望模型效果更接近官方网页。
- 可以接受按 token 计费。
- 主要在联网环境下使用小酒馆。
它不适合追求完全离线的人。所有对话都会发送到模型服务商,角色卡、聊天内容和系统提示词都要按云端 API 的使用边界来理解。涉及隐私或敏感内容时,应先评估风险。
准备 DeepSeek API Key
先进入 DeepSeek 官方开放平台:
注册、登录、完成必要的账户设置后,创建 API Key。Key 通常只在创建时完整显示一次,保存时要放在密码管理器或本机安全位置,不要提交到 Git 仓库,也不要发到聊天记录里。
模型和价格以官方文档为准:
截至 2026 年 5 月 5 日,DeepSeek 官方文档里新的模型名主要是:
deepseek-v4-flashdeepseek-v4-pro
官方价格页同时提示,deepseek-chat 和 deepseek-reasoner 这两个旧模型名计划在 2026 年 7 月 24 日退役。因此新配置建议优先使用 deepseek-v4-flash 或 deepseek-v4-pro。
日常角色聊天可以先从 deepseek-v4-flash 开始。它通常更适合作为默认选择;如果对回复质量要求更高,再换成 deepseek-v4-pro 做对比。
安装并启动 SillyTavern
如果还没有安装 SillyTavern,Windows 上先安装:
然后在命令行执行:
git clone https://github.com/SillyTavern/SillyTavern -b release
进入 SillyTavern 文件夹,双击 Start.bat。浏览器打开后,SillyTavern 本体就运行起来了。
官方安装文档:SillyTavern Windows Installation
配置 DeepSeek API
进入 SillyTavern 后,点击顶部的插头图标,打开 API 连接设置。不同版本的 UI 名称可能会有细微变化,但核心思路是:选择 Chat Completion,然后把 DeepSeek 当作云端 API 或 OpenAI-compatible API 接入。
方式一:使用内置 DeepSeek 入口
如果当前 SillyTavern 版本的 Chat Completion Source 里已经有 DeepSeek,可以优先用这个入口:
- API 类型:Chat Completion
- Source / Provider:DeepSeek
- API Key:填入 DeepSeek 控制台生成的 Key
- Model:优先选择
deepseek-v4-flash,需要更强效果时选择deepseek-v4-pro
保存后测试连接。能返回模型信息或测试回复,就说明配置成功。
如果模型列表里仍然只有 deepseek-chat、deepseek-reasoner 这类旧名称,说明 SillyTavern 的内置列表可能还没跟上 DeepSeek 文档变化。此时可以改用下面的 OpenAI-compatible 方式,手动填写模型名。
方式二:使用 OpenAI-compatible 配置
DeepSeek API 兼容 OpenAI API 格式,因此也可以走 SillyTavern 的 Custom / OpenAI-compatible 配置。
常用配置如下:
API 类型:Chat Completion
Source / Provider:Custom 或 OpenAI-compatible
API Key:sk-...
Base URL:https://api.deepseek.com
Model:deepseek-v4-flash
如果当前 SillyTavern 版本要求 OpenAI 风格的 /v1 地址,可以把 Base URL 改成:
https://api.deepseek.com/v1
不要把地址填成 https://api.deepseek.com/chat/completions。SillyTavern 会自己拼接具体接口路径,配置里通常只需要填基础地址。
推荐参数
角色聊天最重要的不是单个参数绝对正确,而是先让连接稳定,再慢慢调体验。可以从比较保守的配置开始:
- Model:
deepseek-v4-flash - Temperature:
0.8到1.0 - Top P:
0.9 - Max response length:先设中等长度,确认回复速度和费用后再加大
- Streaming:开启,方便边生成边看
如果角色说话过于发散,降低 Temperature;如果回复太短,增加最大回复长度;如果上下文费用增长太快,减少保留消息数量或缩短角色卡描述。
常见问题
为什么 API 方案不需要显卡?
模型运行在 DeepSeek 的服务器上,本机只负责运行 SillyTavern 界面、发送请求和展示回复。因此普通笔记本也能使用,瓶颈主要变成网络、API 可用性和费用。
DeepSeek API 和本地 Ollama 版本有什么区别?
Ollama 运行的是本地模型,优点是可控、可以离线、没有按 token 计费;缺点是硬件要求高,模型越大越吃显存和内存。
DeepSeek API 使用云端模型,优点是不用本地显卡、效果通常更稳定;缺点是联网依赖、按量计费,并且对话会发送到服务商。
填了 API Key 还是连不上怎么办?
优先排查四件事:
- API Key 是否复制完整,前后有没有多余空格。
- Base URL 是否只填基础地址,而不是完整接口路径。
- 模型名是否是 DeepSeek 当前官方文档里的可用模型。
- 网络是否能访问 DeepSeek API。
如果内置 DeepSeek 入口失败,可以换 OpenAI-compatible 配置;如果 https://api.deepseek.com 不通,再尝试 https://api.deepseek.com/v1。
费用怎么控制?
角色聊天很容易因为上下文不断变长而增加 token 消耗。可以从这几件事控制:
- 先用
deepseek-v4-flash。 - 不要一次保留过长聊天历史。
- 控制角色卡、世界书和系统提示词长度。
- 先短时间测试,再长期使用。
- 定期查看 DeepSeek 控制台里的用量。
还应该保留本地部署方案吗?
可以保留。本地方案更像技术玩具和隐私偏好的选择,API 方案更像稳定使用的选择。实际体验后,我更倾向于把 API 作为日常小酒馆方案,把 Ollama 本地模型作为测试、离线和模型对比方案。
小结
DeepSeek API 接入 SillyTavern 的核心只有三件事:拿到 API Key,选择 Chat Completion / OpenAI-compatible,把 Base URL 和模型名填对。
如果只是想在小酒馆里稳定使用 DeepSeek,不必先买显卡,也不必下载本地模型。API 方案的门槛更低,后续真正需要离线或本地可控时,再回到 Ollama、KoboldCPP 或 LM Studio 也不迟。