Prompt Performance Tester - UnisAI技能使用说明

2026-03-31 新闻来源：网淘吧围观:83

电脑广告

手机广告

提示词性能测试器

跨9家提供商的模型无关提示词基准测试。

可输入任意模型ID——提供商自动检测。在Claude、GPT、Gemini、DeepSeek、Grok、MiniMax、Qwen、Llama和Mistral之间比较延迟、成本、质量和一致性。

Prompt Performance Tester - UnisAI

🚀 为何需要此技能？

问题陈述

跨提供商比较LLM模型需要手动测试：

缺乏跨模型性能的系统性衡量方法
成本差异显著但不易比较
质量因使用场景和提供商而异
手动API测试耗时且易出错

解决方案

同时测试来自任何支持提供商的任意模型的提示词。根据延迟、成本和质量获取性能指标与推荐建议。

成本对比示例

以日均10,000次请求、平均28个输入词元+115个输出词元为例：

Claude Opus 4.6：约30.15美元/天（903美元/月）
Gemini 2.5 Flash-Lite：约0.05美元/天（1.50美元/月）
DeepSeek Chat：约0.14美元/天（4.20美元/月）
每月成本差异（Opus对比Flash-Lite）：901.50美元

✨ 您将获得

模型无关的多提供商测试

传递任意模型ID——提供商将根据模型名称前缀自动检测。无需硬编码列表；新模型无需更改代码即可工作。

提供商	示例模型	前缀	所需密钥
Anthropic	claude-opus-4-6, claude-sonnet-4-6, claude-haiku-4-5-20251001	`claude-`	ANTHROPIC_API_KEY
OpenAI	gpt-5.2-pro, gpt-5.2, gpt-5.1	`gpt-`,`o1`,`o3`	OPENAI_API_KEY
Google	gemini-2.5-pro, gemini-2.5-flash, gemini-2.5-flash-lite	`gemini-`	GOOGLE_API_KEY
Mistral	mistral-large-latest, mistral-small-latest	`mistral-`,`mixtral-`	MISTRAL_API_KEY
DeepSeek	deepseek-chat, deepseek-reasoner	`deepseek-`	DEEPSEEK_API_KEY
xAI	grok-4-1-fast, grok-3-beta	`grok-`	XAI_API_KEY
MiniMax	MiniMax-M2.1	`MiniMax`,`minimax`	MINIMAX_API_KEY
Qwen	qwen3.5-plus, qwen3-max-instruct	`qwen`	DASHSCOPE_API_KEY
Meta Llama	meta-llama/llama-4-maverick, meta-llama/llama-3.3-70b-instruct	`meta-llama/`,`llama-`	OPENROUTER_API_KEY

已知定价（每百万令牌）

模型	输入	输出
claude-opus-4-6	$15.00	$75.00
claude-sonnet-4-6	$3.00	$15.00
claude-haiku-4-5-20251001	$1.00	$5.00
gpt-5.2-pro	$21.00	$168.00
gpt-5.2	$1.75	$14.00
gpt-5.1	$2.00	$8.00
gemini-2.5-pro	$1.25	$10.00
gemini-2.5-flash	$0.30	$2.50
gemini-2.5-flash-lite	$0.10	$0.40
mistral-large-latest	$2.00	$6.00
mistral-small-latest	$0.10	$0.30
deepseek-chat	$0.27	$1.10
deepseek-reasoner	$0.55	$2.19
grok-4-1-fast	$5.00	$25.00
grok-3-beta	$3.00	$15.00
MiniMax-M2.1	$0.40	$1.60
qwen3.5-plus	$0.57	$2.29
qwen3-max-instruct	$1.60	$6.40
meta-llama/llama-4-maverick	$0.20	$0.60
meta-llama/llama-3.3-70b-instruct	$0.59	$0.79

注意：未列出的模型仍可使用——成本计算会返回$0.00并附带警告。价格表仅供参考，并非验证门槛。

性能指标

每项测试均测量：

⚡延迟— 响应时间（毫秒）
💰成本— 每次请求的精确API成本（输入+输出令牌）
🎯质量— 响应质量评分（0–100）
📊令牌使用量— 输入和输出令牌计数
🔄一致性— 多次测试运行间的差异
❌错误追踪— API故障、超时、速率限制

智能推荐

即时获取以下问题的答案：

哪个模型处理您的提示速度最快？
哪个模型最具成本效益？
哪个模型能产生质量最佳的响应？
您能节省多少节省通过切换提供商？

📊 实际案例

PROMPT: "Write a professional customer service response about a delayed shipment"

┌─────────────────────────────────────────────────────────────────┐
│ GEMINI 2.5 FLASH-LITE (Google) 💰 MOST AFFORDABLE              │
├─────────────────────────────────────────────────────────────────┤
│ Latency:  523ms                                                 │
│ Cost:     $0.000025                                             │
│ Quality:  65/100                                                │
│ Tokens:   28 in / 87 out                                        │
└─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐
│ DEEPSEEK CHAT (DeepSeek) 💡 BUDGET PICK                        │
├─────────────────────────────────────────────────────────────────┤
│ Latency:  710ms                                                 │
│ Cost:     $0.000048                                             │
│ Quality:  70/100                                                │
│ Tokens:   28 in / 92 out                                        │
└─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐
│ CLAUDE HAIKU 4.5 (Anthropic) 🚀 BALANCED PERFORMER             │
├─────────────────────────────────────────────────────────────────┤
│ Latency:  891ms                                                 │
│ Cost:     $0.000145                                             │
│ Quality:  78/100                                                │
│ Tokens:   28 in / 102 out                                       │
└─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐
│ GPT-5.2 (OpenAI) 💡 EXCELLENT QUALITY                          │
├─────────────────────────────────────────────────────────────────┤
│ Latency:  645ms                                                 │
│ Cost:     $0.000402                                             │
│ Quality:  88/100                                                │
│ Tokens:   28 in / 98 out                                        │
└─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐
│ CLAUDE OPUS 4.6 (Anthropic) 🏆 HIGHEST QUALITY                 │
├─────────────────────────────────────────────────────────────────┤
│ Latency:  1,234ms                                               │
│ Cost:     $0.001875                                             │
│ Quality:  94/100                                                │
│ Tokens:   28 in / 125 out                                       │
└─────────────────────────────────────────────────────────────────┘

🎯 RECOMMENDATIONS:
1. Most cost-effective: Gemini 2.5 Flash-Lite ($0.000025/request) — 99.98% cheaper than Opus
2. Budget pick: DeepSeek Chat ($0.000048/request) — strong quality at low cost
3. Best quality: Claude Opus 4.6 (94/100) — state-of-the-art reasoning & analysis
4. Smart pick: Claude Haiku 4.5 ($0.000145/request) — 81% cheaper, 83% quality match
5. Speed + Quality: GPT-5.2 ($0.000402/request) — excellent quality at mid-range cost

💡 Potential monthly savings (10,000 requests/day, 28 input + 115 output tokens avg):
   - Using Gemini 2.5 Flash-Lite vs Opus: $903/month saved ($1.44 vs $904.50)
   - Using DeepSeek Chat vs Opus: $899/month saved ($4.50 vs $904.50)
   - Using Claude Haiku vs Opus: $731/month saved ($173.40 vs $904.50)

使用场景

生产部署

在生产选择前评估模型
比较成本与质量的权衡
跨提供商基准测试API延迟

提示词开发

跨模型测试提示词变体
一致地测量质量分数
比较性能指标

成本分析

按模型分析LLM API支出
比较提供商定价结构
识别具有成本效益的替代方案

性能测试

测量延迟和响应时间
测试多次运行的一致性
评估质量分数

🚀 快速开始

1. 订阅Skill

点击ClawhHub上的“订阅”以获取访问权限。

2. 设置API密钥

为您想要测试的提供商添加密钥：

# Anthropic (Claude models)
export ANTHROPIC_API_KEY="sk-ant-..."

# OpenAI (GPT models)
export OPENAI_API_KEY="sk-..."

# Google (Gemini models)
export GOOGLE_API_KEY="AI..."

# DeepSeek
export DEEPSEEK_API_KEY="..."

# xAI (Grok models)
export XAI_API_KEY="..."

# MiniMax
export MINIMAX_API_KEY="..."

# Alibaba (Qwen models)
export DASHSCOPE_API_KEY="..."

# OpenRouter (Meta Llama models)
export OPENROUTER_API_KEY="..."

# Mistral
export MISTRAL_API_KEY="..."

您只需要为您计划测试的提供商提供密钥。

3. 安装依赖项

# Install only what you need
pip install anthropic          # Claude
pip install openai             # GPT, DeepSeek, xAI, MiniMax, Qwen, Llama
pip install google-generativeai  # Gemini
pip install mistralai          # Mistral

# Or install everything
pip install anthropic openai google-generativeai mistralai

4. 运行您的第一个测试

选项A：Python

import os
from prompt_performance_tester import PromptPerformanceTester

tester = PromptPerformanceTester()  # reads API keys from environment

results = tester.test_prompt(
    prompt_text="Write a professional email apologizing for a delayed shipment",
    models=[
        "claude-haiku-4-5-20251001",
        "gpt-5.2",
        "gemini-2.5-flash",
        "deepseek-chat",
    ],
    num_runs=3,
    max_tokens=500
)

print(tester.format_results(results))
print(f"🏆 Best quality:  {results.best_model}")
print(f"💰 Cheapest:      {results.cheapest_model}")
print(f"⚡ Fastest:       {results.fastest_model}")

选项B：CLI

# Test across multiple models
prompt-tester test "Your prompt here" \
  --models claude-haiku-4-5-20251001 gpt-5.2 gemini-2.5-flash deepseek-chat \
  --runs 3

# Export results
prompt-tester test "Your prompt here" --export results.json

🔒 安全与隐私

API密钥安全

密钥仅存储在环境变量中——绝不硬编码或记录
绝不传输到UnisAI服务器
所有提供商API调用均使用HTTPS加密

数据隐私

您的提示仅发送给您选择用于测试的AI提供商
每个提供商都有自己的数据保留政策（请参阅其隐私页面）
无数据存储在UnisAI基础设施上

📚 技术细节

系统要求

Python: 3.9+
依赖项：anthropic、openai、google-generativeai、mistralai（仅安装所需项）
平台：macOS、Linux、Windows

架构

延迟客户端初始化——SDK客户端仅针对实际测试的提供商加载
基于前缀的路由——PROVIDER_MAP根据模型名称检测提供商；无硬编码白名单
OpenAI兼容路径——DeepSeek、xAI、MiniMax、Qwen和OpenRouter均使用openaiSDK并自定义base_url
价格表— 仅用于成本计算；未知模型将成本=0并显示警告

收集的指标

每次测试都会捕获：

延迟：总响应时间（毫秒）
成本：基于已知价格的输入+输出成本（美元）
质量：基于长度、完整性的启发式响应评分（0–100）
令牌数：每个供应商的确切输入/输出令牌计数
一致性：多次运行的标准差
错误：超时、速率限制、API故障

❓ 常见问题

问：我需要所有9个供应商的API密钥吗？答：不需要。您只需要您想测试的供应商的密钥。如果您只测试Claude模型，您只需要ANTHROPIC_API_KEY.

问：谁支付API费用？答：您自己支付。您提供自己的API密钥，并直接向各提供商付款。此技能不收取每次请求的费用。

问：成本计算的准确性如何？答：成本是根据已知的定价表使用实际的令牌数量计算的。不在定价表中的模型返回$0.00——模型仍会运行，只是不会显示成本。

问：我可以测试不在定价表中的模型吗？答：可以。任何名称以受支持前缀开头的模型都会运行。对于未列出的模型，成本将显示为$0.00。

问：我可以用非英语语言测试提示词吗？答：可以。所有支持的提供商都处理多种语言。

问：我可以在生产环境/CI/CD中使用这个吗？答：可以。直接从Python导入PromptPerformanceTester或通过CLI调用。

问：如果我的提示词非常长怎么办？答：设置max_tokens适当地。该技能将您的提示原样传递给每个提供商的API。

🗺️ 路线图

✅ 当前版本 (v1.1.8)

模型无关架构 —— 通过前缀检测，任何模型ID均可使用
9个提供商，20个已知模型及其定价
DeepSeek、xAI Grok、MiniMax、Qwen、Meta Llama 作为一级提供商
Claude 4.6 系列 (opus-4-6, sonnet-4-6)
延迟客户端初始化 —— 仅加载实际使用到的提供商的SDK
全面修复了UnisAI品牌标识

🚧 即将推出 (v1.3)

批量测试: 同时测试100多个提示
历史追踪: 追踪模型随时间变化的性能
Webhook集成: Slack、Discord、电子邮件通知

🔮 未来规划 (v1.3+)

A/B测试框架: 科学的提示词实验
微调洞察根据您的用例选择微调模型
自定义基准测试：创建您自己的评估标准
自动优化：AI驱动的提示改进建议

📞 支持

电子邮件：support@unisai.vercel.app
网站：https://unisai.vercel.app
错误报告：support@unisai.vercel.app

📄 许可与条款

本技能通过ClawhHub分发，遵循以下条款。

✅ 您可以：

用于您自己的业务和项目
为内部应用测试提示
为个人使用修改源代码

❌ 您不可以：

在ClawhHub注册表之外重新分发
转售或二次许可
未经许可使用 UnisAI 商标

完整条款：参见LICENSE.md

📝 更新日志

[1.1.8] - 2026-02-27

修复与优化

版本号提升至 1.1.8
SKILL.md 文件完全重写 — 清理了格式，移除了过时内容
移除了文档中旧有的知识产权水印引用 (PROPRIETARY_SKILL_VEDANT_2024)
将水印统一更正为PROPRIETARY_SKILL_UNISAI_2026_MULTI_PROVIDER 修正了所有 UnisAI 品牌标识（v1.1.0 更新日志中曾为 UniAI）
更新了价格表，包含所有 20 个已知模型
清理了 FAQ、快速入门和使用案例部分
[1.1.6] - 2026-02-27

🏗️ 模型无关架构

🏗️ Model-Agnostic Architecture

根据模型名称前缀自动检测提供者——无需硬编码白名单
任何新模型都能自动运行，无需更改代码
新增DeepSeek、xAI Grok、MiniMax、Qwen、Meta Llama作为一级提供者（总计9家）
将Claude更新至4.6系列（claude-opus-4-6, claude-sonnet-4-6）
延迟客户端初始化——仅加载实际测试过的提供者SDK
为DeepSeek、xAI、MiniMax、Qwen、OpenRouter提供统一的OpenAI兼容路径

[1.1.5] - 2026-02-01

🚀 最新模型更新

GPT-5.2系列——新增Instant、Thinking和Pro变体
Gemini 2.5系列——更新至2.5 Pro、Flash和Flash-Lite
Claude 4.5定价更新
覆盖3家提供者共计10个模型

[1.1.0] - 2026-01-15

✨ 主要特性

多提供者支持——Claude、GPT、Gemini
跨提供者成本对比
增强型推荐引擎
品牌重塑为UnisAI

[1.0.0] - 2024-02-02

首次发布

Claude专属提示词测试（Haiku、Sonnet、Opus模型）
性能指标：延迟、成本、质量、一致性
基础推荐引擎

最后更新：2026年2月27日当前版本：1.1.8状态：活跃维护中

免责申明

部分文章来自各大搜索引擎，如有侵权，请与我联系删除。

打赏

文章底部电脑广告

手机广告位-内容正文底部

标签

上一篇：Backend技能使用说明下一篇：My goal is to support the community and continue creating more useful tools. If these automations prove to be very helpful to you, or if you see value in what I'm sharing, any donation, no matter how small, is welcome and will allow me to dedicate mo