Prompt Performance Tester - UnisAI
提示词性能测试器
跨9家提供商的模型无关提示词基准测试。
可输入任意模型ID——提供商自动检测。在Claude、GPT、Gemini、DeepSeek、Grok、MiniMax、Qwen、Llama和Mistral之间比较延迟、成本、质量和一致性。

🚀 为何需要此技能?
问题陈述
跨提供商比较LLM模型需要手动测试:
- 缺乏跨模型性能的系统性衡量方法
- 成本差异显著但不易比较
- 质量因使用场景和提供商而异
- 手动API测试耗时且易出错
解决方案
同时测试来自任何支持提供商的任意模型的提示词。根据延迟、成本和质量获取性能指标与推荐建议。
成本对比示例
以日均10,000次请求、平均28个输入词元+115个输出词元为例:
- Claude Opus 4.6:约30.15美元/天(903美元/月)
- Gemini 2.5 Flash-Lite:约0.05美元/天(1.50美元/月)
- DeepSeek Chat:约0.14美元/天(4.20美元/月)
- 每月成本差异(Opus对比Flash-Lite):901.50美元
✨ 您将获得
模型无关的多提供商测试
传递任意模型ID——提供商将根据模型名称前缀自动检测。 无需硬编码列表;新模型无需更改代码即可工作。
| 提供商 | 示例模型 | 前缀 | 所需密钥 |
|---|---|---|---|
| Anthropic | claude-opus-4-6, claude-sonnet-4-6, claude-haiku-4-5-20251001 | claude- | ANTHROPIC_API_KEY |
| OpenAI | gpt-5.2-pro, gpt-5.2, gpt-5.1 | gpt-,o1,o3 | OPENAI_API_KEY |
| gemini-2.5-pro, gemini-2.5-flash, gemini-2.5-flash-lite | gemini- | GOOGLE_API_KEY | |
| Mistral | mistral-large-latest, mistral-small-latest | mistral-,mixtral- | MISTRAL_API_KEY |
| DeepSeek | deepseek-chat, deepseek-reasoner | deepseek- | DEEPSEEK_API_KEY |
| xAI | grok-4-1-fast, grok-3-beta | grok- | XAI_API_KEY |
| MiniMax | MiniMax-M2.1 | MiniMax,minimax | MINIMAX_API_KEY |
| Qwen | qwen3.5-plus, qwen3-max-instruct | qwen | DASHSCOPE_API_KEY |
| Meta Llama | meta-llama/llama-4-maverick, meta-llama/llama-3.3-70b-instruct | meta-llama/,llama- | OPENROUTER_API_KEY |
已知定价(每百万令牌)
| 模型 | 输入 | 输出 |
|---|---|---|
| claude-opus-4-6 | $15.00 | $75.00 |
| claude-sonnet-4-6 | $3.00 | $15.00 |
| claude-haiku-4-5-20251001 | $1.00 | $5.00 |
| gpt-5.2-pro | $21.00 | $168.00 |
| gpt-5.2 | $1.75 | $14.00 |
| gpt-5.1 | $2.00 | $8.00 |
| gemini-2.5-pro | $1.25 | $10.00 |
| gemini-2.5-flash | $0.30 | $2.50 |
| gemini-2.5-flash-lite | $0.10 | $0.40 |
| mistral-large-latest | $2.00 | $6.00 |
| mistral-small-latest | $0.10 | $0.30 |
| deepseek-chat | $0.27 | $1.10 |
| deepseek-reasoner | $0.55 | $2.19 |
| grok-4-1-fast | $5.00 | $25.00 |
| grok-3-beta | $3.00 | $15.00 |
| MiniMax-M2.1 | $0.40 | $1.60 |
| qwen3.5-plus | $0.57 | $2.29 |
| qwen3-max-instruct | $1.60 | $6.40 |
| meta-llama/llama-4-maverick | $0.20 | $0.60 |
| meta-llama/llama-3.3-70b-instruct | $0.59 | $0.79 |
注意:未列出的模型仍可使用——成本计算会返回$0.00并附带警告。价格表仅供参考,并非验证门槛。
性能指标
每项测试均测量:
- ⚡延迟— 响应时间(毫秒)
- 💰成本— 每次请求的精确API成本(输入+输出令牌)
- 🎯质量— 响应质量评分(0–100)
- 📊令牌使用量— 输入和输出令牌计数
- 🔄一致性— 多次测试运行间的差异
- ❌错误追踪— API故障、超时、速率限制
智能推荐
即时获取以下问题的答案:
- 哪个模型处理您的提示速度最快?
- 哪个模型最具成本效益?
- 哪个模型能产生质量最佳的响应?
- 您能节省多少节省通过切换提供商?
📊 实际案例
PROMPT: "Write a professional customer service response about a delayed shipment"
┌─────────────────────────────────────────────────────────────────┐
│ GEMINI 2.5 FLASH-LITE (Google) 💰 MOST AFFORDABLE │
├─────────────────────────────────────────────────────────────────┤
│ Latency: 523ms │
│ Cost: $0.000025 │
│ Quality: 65/100 │
│ Tokens: 28 in / 87 out │
└─────────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────────┐
│ DEEPSEEK CHAT (DeepSeek) 💡 BUDGET PICK │
├─────────────────────────────────────────────────────────────────┤
│ Latency: 710ms │
│ Cost: $0.000048 │
│ Quality: 70/100 │
│ Tokens: 28 in / 92 out │
└─────────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────────┐
│ CLAUDE HAIKU 4.5 (Anthropic) 🚀 BALANCED PERFORMER │
├─────────────────────────────────────────────────────────────────┤
│ Latency: 891ms │
│ Cost: $0.000145 │
│ Quality: 78/100 │
│ Tokens: 28 in / 102 out │
└─────────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────────┐
│ GPT-5.2 (OpenAI) 💡 EXCELLENT QUALITY │
├─────────────────────────────────────────────────────────────────┤
│ Latency: 645ms │
│ Cost: $0.000402 │
│ Quality: 88/100 │
│ Tokens: 28 in / 98 out │
└─────────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────────┐
│ CLAUDE OPUS 4.6 (Anthropic) 🏆 HIGHEST QUALITY │
├─────────────────────────────────────────────────────────────────┤
│ Latency: 1,234ms │
│ Cost: $0.001875 │
│ Quality: 94/100 │
│ Tokens: 28 in / 125 out │
└─────────────────────────────────────────────────────────────────┘
🎯 RECOMMENDATIONS:
1. Most cost-effective: Gemini 2.5 Flash-Lite ($0.000025/request) — 99.98% cheaper than Opus
2. Budget pick: DeepSeek Chat ($0.000048/request) — strong quality at low cost
3. Best quality: Claude Opus 4.6 (94/100) — state-of-the-art reasoning & analysis
4. Smart pick: Claude Haiku 4.5 ($0.000145/request) — 81% cheaper, 83% quality match
5. Speed + Quality: GPT-5.2 ($0.000402/request) — excellent quality at mid-range cost
💡 Potential monthly savings (10,000 requests/day, 28 input + 115 output tokens avg):
- Using Gemini 2.5 Flash-Lite vs Opus: $903/month saved ($1.44 vs $904.50)
- Using DeepSeek Chat vs Opus: $899/month saved ($4.50 vs $904.50)
- Using Claude Haiku vs Opus: $731/month saved ($173.40 vs $904.50)
使用场景
生产部署
- 在生产选择前评估模型
- 比较成本与质量的权衡
- 跨提供商基准测试API延迟
提示词开发
- 跨模型测试提示词变体
- 一致地测量质量分数
- 比较性能指标
成本分析
- 按模型分析LLM API支出
- 比较提供商定价结构
- 识别具有成本效益的替代方案
性能测试
- 测量延迟和响应时间
- 测试多次运行的一致性
- 评估质量分数
🚀 快速开始
1. 订阅Skill
点击ClawhHub上的“订阅”以获取访问权限。
2. 设置API密钥
为您想要测试的提供商添加密钥:
# Anthropic (Claude models)
export ANTHROPIC_API_KEY="sk-ant-..."
# OpenAI (GPT models)
export OPENAI_API_KEY="sk-..."
# Google (Gemini models)
export GOOGLE_API_KEY="AI..."
# DeepSeek
export DEEPSEEK_API_KEY="..."
# xAI (Grok models)
export XAI_API_KEY="..."
# MiniMax
export MINIMAX_API_KEY="..."
# Alibaba (Qwen models)
export DASHSCOPE_API_KEY="..."
# OpenRouter (Meta Llama models)
export OPENROUTER_API_KEY="..."
# Mistral
export MISTRAL_API_KEY="..."
您只需要为您计划测试的提供商提供密钥。
3. 安装依赖项
# Install only what you need
pip install anthropic # Claude
pip install openai # GPT, DeepSeek, xAI, MiniMax, Qwen, Llama
pip install google-generativeai # Gemini
pip install mistralai # Mistral
# Or install everything
pip install anthropic openai google-generativeai mistralai
4. 运行您的第一个测试
选项A:Python
import os
from prompt_performance_tester import PromptPerformanceTester
tester = PromptPerformanceTester() # reads API keys from environment
results = tester.test_prompt(
prompt_text="Write a professional email apologizing for a delayed shipment",
models=[
"claude-haiku-4-5-20251001",
"gpt-5.2",
"gemini-2.5-flash",
"deepseek-chat",
],
num_runs=3,
max_tokens=500
)
print(tester.format_results(results))
print(f"🏆 Best quality: {results.best_model}")
print(f"💰 Cheapest: {results.cheapest_model}")
print(f"⚡ Fastest: {results.fastest_model}")
选项B:CLI
# Test across multiple models
prompt-tester test "Your prompt here" \
--models claude-haiku-4-5-20251001 gpt-5.2 gemini-2.5-flash deepseek-chat \
--runs 3
# Export results
prompt-tester test "Your prompt here" --export results.json
🔒 安全与隐私
API密钥安全
- 密钥仅存储在环境变量中——绝不硬编码或记录
- 绝不传输到UnisAI服务器
- 所有提供商API调用均使用HTTPS加密
数据隐私
- 您的提示仅发送给您选择用于测试的AI提供商
- 每个提供商都有自己的数据保留政策(请参阅其隐私页面)
- 无数据存储在UnisAI基础设施上
📚 技术细节
系统要求
- Python: 3.9+
- 依赖项:
anthropic、openai、google-generativeai、mistralai(仅安装所需项) - 平台:macOS、Linux、Windows
架构
- 延迟客户端初始化——SDK客户端仅针对实际测试的提供商加载
- 基于前缀的路由——
PROVIDER_MAP根据模型名称检测提供商;无硬编码白名单 - OpenAI兼容路径——DeepSeek、xAI、MiniMax、Qwen和OpenRouter均使用
openaiSDK并自定义base_url - 价格表— 仅用于成本计算;未知模型将
成本=0并显示警告
收集的指标
每次测试都会捕获:
- 延迟:总响应时间(毫秒)
- 成本:基于已知价格的输入+输出成本(美元)
- 质量:基于长度、完整性的启发式响应评分(0–100)
- 令牌数:每个供应商的确切输入/输出令牌计数
- 一致性:多次运行的标准差
- 错误:超时、速率限制、API故障
❓ 常见问题
问:我需要所有9个供应商的API密钥吗?答:不需要。您只需要您想测试的供应商的密钥。如果您只测试Claude模型,您只需要ANTHROPIC_API_KEY.
问:谁支付API费用?答:您自己支付。您提供自己的API密钥,并直接向各提供商付款。此技能不收取每次请求的费用。
问:成本计算的准确性如何?答:成本是根据已知的定价表使用实际的令牌数量计算的。不在定价表中的模型返回$0.00——模型仍会运行,只是不会显示成本。
问:我可以测试不在定价表中的模型吗?答:可以。任何名称以受支持前缀开头的模型都会运行。对于未列出的模型,成本将显示为$0.00。
问:我可以用非英语语言测试提示词吗?答:可以。所有支持的提供商都处理多种语言。
问:我可以在生产环境/CI/CD中使用这个吗?答:可以。直接从Python导入PromptPerformanceTester或通过CLI调用。
问:如果我的提示词非常长怎么办?答:设置max_tokens适当地。该技能将您的提示原样传递给每个提供商的API。
🗺️ 路线图
✅ 当前版本 (v1.1.8)
- 模型无关架构 —— 通过前缀检测,任何模型ID均可使用
- 9个提供商,20个已知模型及其定价
- DeepSeek、xAI Grok、MiniMax、Qwen、Meta Llama 作为一级提供商
- Claude 4.6 系列 (opus-4-6, sonnet-4-6)
- 延迟客户端初始化 —— 仅加载实际使用到的提供商的SDK
- 全面修复了UnisAI品牌标识
🚧 即将推出 (v1.3)
- 批量测试: 同时测试100多个提示
- 历史追踪: 追踪模型随时间变化的性能
- Webhook集成: Slack、Discord、电子邮件通知
🔮 未来规划 (v1.3+)
- A/B测试框架: 科学的提示词实验
- 微调洞察根据您的用例选择微调模型
- 自定义基准测试:创建您自己的评估标准
- 自动优化:AI驱动的提示改进建议
📞 支持
📄 许可与条款
本技能通过ClawhHub分发,遵循以下条款。
✅ 您**可以**:
- 用于您自己的业务和项目
- 为内部应用测试提示
- 为个人使用修改源代码
❌ 您**不可以**:
- 在ClawhHub注册表之外重新分发
- 转售或二次许可
- 未经许可使用 UnisAI 商标
完整条款:参见LICENSE.md
📝 更新日志
[1.1.8] - 2026-02-27
修复与优化
- 版本号提升至 1.1.8
- SKILL.md 文件完全重写 — 清理了格式,移除了过时内容
- 移除了文档中旧有的知识产权水印引用 (
PROPRIETARY_SKILL_VEDANT_2024) - 将水印统一更正为
PROPRIETARY_SKILL_UNISAI_2026_MULTI_PROVIDER修正了所有 UnisAI 品牌标识(v1.1.0 更新日志中曾为 UniAI) - 更新了价格表,包含所有 20 个已知模型
- 清理了 FAQ、快速入门和使用案例部分
- [1.1.6] - 2026-02-27
🏗️ 模型无关架构
🏗️ Model-Agnostic Architecture
- 根据模型名称前缀自动检测提供者——无需硬编码白名单
- 任何新模型都能自动运行,无需更改代码
- 新增DeepSeek、xAI Grok、MiniMax、Qwen、Meta Llama作为一级提供者(总计9家)
- 将Claude更新至4.6系列(claude-opus-4-6, claude-sonnet-4-6)
- 延迟客户端初始化——仅加载实际测试过的提供者SDK
- 为DeepSeek、xAI、MiniMax、Qwen、OpenRouter提供统一的OpenAI兼容路径
[1.1.5] - 2026-02-01
🚀 最新模型更新
- GPT-5.2系列——新增Instant、Thinking和Pro变体
- Gemini 2.5系列——更新至2.5 Pro、Flash和Flash-Lite
- Claude 4.5定价更新
- 覆盖3家提供者共计10个模型
[1.1.0] - 2026-01-15
✨ 主要特性
- 多提供者支持——Claude、GPT、Gemini
- 跨提供者成本对比
- 增强型推荐引擎
- 品牌重塑为UnisAI
[1.0.0] - 2024-02-02
首次发布
- Claude专属提示词测试(Haiku、Sonnet、Opus模型)
- 性能指标:延迟、成本、质量、一致性
- 基础推荐引擎
最后更新:2026年2月27日当前版本:1.1.8状态:活跃维护中
© 2026 UnisAI。保留所有权利。


微信扫一扫,打赏作者吧~