Monitoring技能使用说明
2026-03-28
新闻来源:网淘吧
围观:15
电脑广告
手机广告
复杂度级别
| 级别 | 工具 | 设置时间 | 最佳适用场景 |
|---|---|---|---|
| 最低配置 | UptimeRobot, Healthchecks.io | 15分钟 | 个人项目,最小可行产品 |
| 标准配置 | Uptime Kuma, Sentry, 基础版Grafana | 1-2小时 | 小型团队,初创公司 |
| 专业配置 | Prometheus, Grafana, Loki, Alertmanager | 1-2天 | 生产系统 |
| 企业级配置 | Datadog, New Relic,或完整的开源技术栈 | 持续进行 | 大规模运营 |
三大支柱
| 支柱 | 解答的问题 | 工具 |
|---|---|---|
| 指标 | "系统运行状况如何?" | Prometheus、Grafana、Datadog |
| 日志 | "发生了什么?" | Loki、ELK、CloudWatch |
| 追踪 | "为什么这个请求很慢?" | Jaeger、Tempo、Sentry |
按使用场景快速入门
"我只想知道它是否宕机了"→ UptimeRobot(免费)或 Uptime Kuma(自托管)。参见simple.md。
"我需要调试生产环境错误"→ 使用您框架的 SDK 集成 Sentry。5 分钟设置完成。参见apm.md。
"我想要真正的可观测性"→ Prometheus + Grafana + Loki。参见prometheus.md。
"我需要集中管理日志"简单查询用Loki,复杂查询用ELK。参见logs.md。
监控内容
应用程序(RED方法)
- Rate — 每秒请求数
- Errors — 按端点的错误率
- Duration — 延迟(p50、p95、p99)
基础设施(USE方法)
- Utilization — CPU、内存、磁盘使用率
- Saturation — 队列深度、平均负载
- Errors — 硬件/系统错误
告警原则
| 应做 | 不应做 |
|---|---|
| 基于症状告警(用户影响) | 基于原因告警(CPU高) |
| 包含操作手册链接 | 需要调查才能理解 |
| 设置适当的严重等级 | 将所有事项设为P1级 |
| 需要采取行动 | 对“有趣的”指标发出警报 |
警报疲劳会扼杀监控。如果警报被忽略,就等于没有监控。
关于警报配置、严重等级和值班设置,请参见alerting.md。
成本对比
| 解决方案 | 月成本(小型) | 月成本(中型) |
|---|---|---|
| UptimeRobot | 免费 | 7美元 |
| Uptime Kuma | 5美元 (VPS) | 5美元 (VPS) |
| Sentry | 免费 / 26美元 | 80美元 |
| Grafana Cloud | 免费套餐 | 50美元以上 |
| Datadog | 15美元/主机 | 23美元/主机 + 功能 |
| 自托管技术栈 | 10-20美元 (VPS) | 50-100美元 (VPS) |
常见错误
- 当Uptime Kuma就足够时,却从Prometheus/Grafana开始
- 没有告警(仪表板无人查看)
- 告警过多(告警疲劳 → 被忽略)
- 缺少操作手册(告警触发,无人知道如何处理)
- 未从外部监控(仅进行内部检查)
- 永久存储日志(成本激增)
文章底部电脑广告
手机广告位-内容正文底部


微信扫一扫,打赏作者吧~