LLM Supervisor
2026-03-30
新闻来源:网淘吧
围观:15
电脑广告
手机广告
LLM 监督器 🔮
优雅地处理速率限制和模型回退。
行为
关于速率限制 / 过载错误
当我遇到来自云服务提供商(Anthropic, OpenAI)的速率限制或过载错误时:

- 立即告知用户—— 不要静默失败或无限重试
- 提供本地回退方案—— 询问他们是否想切换到 Ollama
- 等待确认—— 对于代码生成任务,绝不自动切换
需要确认
在将本地模型用于代码生成之前,请询问:
"云端服务已达速率限制。是否切换到本地 Ollama (
qwen2.5:7b)?回复 'yes' 确认。"
对于简单查询(聊天、摘要),如果用户先前已批准,则无需确认即可切换。
命令
/llm status
报告当前状态:
- 当前激活的提供者是云服务还是本地服务
- Ollama的可用性与模型
- 最近的速率限制事件
/llm 切换至本地
手动为当前会话切换至Ollama。
/llm 切换至云端
切换回云端服务提供者。
使用Ollama
# Check available models
ollama list
# Run a query
ollama run qwen2.5:7b "your prompt here"
# For longer prompts, use stdin
echo "your prompt" | ollama run qwen2.5:7b
已安装的模型
通过以下命令检查ollama list。配置的默认模型为:qwen2.5:7b
状态追踪
在会话期间于内存中追踪:
currentProvider: "cloud" | "local"(云端 | 本地)lastRateLimitAt: 时间戳或nulllocalConfirmedForCode: 布尔值
在会话开始时重置为云端服务。
文章底部电脑广告
手机广告位-内容正文底部
上一篇:OmniFocus Automation
下一篇:Nodetool


微信扫一扫,打赏作者吧~