Kubernetes
2026-03-27
新闻来源:网淘吧
围观:23
电脑广告
手机广告
集群代理集群 — 完整的平台运维
运行时要求
此技能包提供 Kubernetes/OpenShift 集群管理功能。凭证采用模块化设计- 仅需根据您的具体用例进行配置。
始终必需
| 要求 | 描述 | 环境变量 |
|---|---|---|
| Kubeconfig | 具有集群访问权限的有效 kubeconfig | KUBECONFIG或~/.kube/config |
| kubectl | Kubernetes CLI | 必须在 PATH 环境变量中 |
有条件 - 仅按需启用
| 平台 | 在以下情况下启用... | 凭证 |
|---|---|---|
| AWS/EKS/ROSA | 管理 AWS 托管的 Kubernetes | AWS_ACCESS_KEY_ID,AWS_SECRET_ACCESS_KEY |
| Azure/ARO | 管理 Azure 托管的 Kubernetes | AZURE_CLIENT_ID,AZURE_CLIENT_SECRET,AZURE_TENANT_ID |
| GCP/GKE | 管理 GCP 托管的 Kubernetes | GOOGLE_APPLICATION_CREDENTIALS |
| ArgoCD | 使用 GitOps 代理 | ARGOCD_AUTH_TOKEN,ARGOCD_SERVER |
| Vault | 使用密钥管理 | VAULT_TOKEN |
| GitHub | 推送至 git 仓库 | GITHUB_TOKEN |
会话设置
在使用代理程序之前,必须设置会话上下文:
# Set up session context for your environment
bash skills/orchestrator/scripts/setup-session.sh <environment> [context-name]
# Environments: dev, qa, staging, prod
# Note: prod requires human approval for all modifications
安全注意事项
- 代理程序默认以最小权限运行
- 所有凭据访问均被记录
- 生产环境修改需经人工批准
- 密钥绝不记录或存储在代码中
安全评估 - 安装前必读
来源验证
- 此技能从第三方GitHub仓库
- 拉取代码安装前请验证来源URL:
https://github.com/kcns008/cluster-agent-swarm-skills - 锁定特定版本- 切勿在生产环境中使用
主分支:git clone https://github.com/kcns008/cluster-agent-swarm-skills.git cd cluster-agent-swarm-skills git fetch --tags git checkout v1.0.0 # Use verified release tag or commit hash
第三方脚本执行警告
- 这是一个脚本化技能- 它会将可执行的bash脚本写入磁盘
- 脚本执行集群操作,包括:部署、扩缩容、扫描、配置
- 部分脚本可能具有破坏性- 请在运行前审阅:
- 名称中包含
-delete、-cleanup的脚本可能会移除资源 - 名称中包含
-promote、-deploy的脚本会修改集群状态
- 名称中包含
- 请务必先在非生产环境测试
安装机制
- 通过
npx skills add安装会从GitHub下载并执行代码 - 本技能无法验证外部脚本的完整性
- 请在本地审计所有脚本投入生产运行前
- 建议维护经核验的受信脚本离线副本
持久化与影响范围
- 智能体通过以下方式维持跨会话的持久化状态:
WORKING.md- 会话进度追踪LOGS.md- 操作审计追踪MEMORY.md- 长期学习记录
- 智能体被配置为在常规操作中向这些文件提交变更
- 若遭误用,此持久化机制将扩大影响范围——如有顾虑请限制仓库写入权限
人工审批强制执行
- 技能文档声称生产环境变更需经人工审批
- 此为流程管控,而非技术强制措施
- 您的平台必须强制执行在允许生产操作前设置审批关卡
- 不要依赖代理的自我约束来保证生产安全
最小权限原则 - 必须遵守
- 切勿提供所有者/root级别的云凭据
- 为以下情况创建专用的、权限最小的服务账户:
- Kubernetes 命名空间级别访问(非集群管理员权限)
- 具有有限 EKS 权限的 AWS IAM 角色
- 具有有限订阅访问权限的 Azure 服务主体
- 具有有限项目权限的 GCP 服务账户
- 切勿提供生产环境凭据除非你已在非生产环境中审计过代码
生产前先进行沙盒测试
- 首先在隔离/非生产环境中运行此技能
- 手动逐步执行脚本以理解其行为
- 请特别注意:
*-cleanup.sh脚本 - 可能删除资源*-promote.sh脚本 - 可能提升制品*-delete.sh脚本 - 明确具有破坏性
- 验证没有意外的网络调用指向外部端点
供应链工具
- 脚本可能下载二进制文件(syft、cosign、trivy 等)
- 仅允许从可信的发布源下载(官方 GitHub 发布、包管理器)
- 如果您的环境需要,请考虑构建离线工具链
这是完整的集群智能体群技能包。添加此技能后,您将获得 访问全部 7 个专业智能体,它们作为一个协调的群体协同工作。
安装
安装所有技能(推荐)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills
这将所有 7 个智能体作为一个组合技能安装,可访问所有功能。
安装单个技能
每个智能体均可使用 GitHub 树路径单独安装:
# Orchestrator - Jarvis (task routing, coordination)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/orchestrator
# Cluster Ops - Atlas (cluster lifecycle, nodes, upgrades)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/cluster-ops
# GitOps - Flow (ArgoCD, Helm, Kustomize)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/gitops
# Security - Shield (RBAC, policies, CVEs)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/security
# Observability - Pulse (metrics, alerts, incidents)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/observability
# Artifacts - Cache (registries, SBOM, promotions)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/artifacts
# Developer Experience - Desk (namespaces, onboarding)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/developer-experience
注意:在生产环境中始终锁定到特定的标签/提交。请参阅安全评估部分。
集群 — 智能体名册
| 智能体 | 代号 | 会话密钥 | 领域 |
|---|---|---|---|
| 编排器 | 贾维斯 | 智能体:平台:编排器 | 任务路由、协调、站会 |
| 集群运维 | 阿特拉斯 | 智能体:平台:集群运维 | 集群生命周期、节点、升级 |
| GitOps | 弗洛 | 智能体:平台:GitOps | ArgoCD、Helm、Kustomize、部署 |
| 安全 | 护盾 | 智能体:平台:安全 | RBAC、策略、密钥、扫描 |
| 可观测性 | 脉搏 | 代理:平台:可观测性 | 指标、日志、警报、事件 |
| 制品 | 缓存 | 代理:平台:制品 | 注册表、SBOM、提升、CVE |
| 开发者体验 | 桌面 | 代理:平台:开发者体验 | 命名空间、入门、支持 |
代理能力概述
代理能做什么
- 读取集群状态(
kubectl get、kubectl describe、oc get) - 通过GitOps部署(
argocd app sync、Flux协调) - 创建文档和报告
- 调查和分类事件
- 提供标准资源(命名空间、配额、RBAC)
- 运行健康检查与审计
- 扫描镜像并生成SBOM
- 查询指标与日志
- 执行预批准的运维手册
代理无法执行的操作(需人工介入)
- 删除生产环境资源(
生产环境中执行kubectl delete - 命令)
- 修改集群级策略(网络策略、OPA、Kyverno集群策略)
- 未经轮换流程直接修改密钥
- 修改网络路由或服务网格配置
- 超出既定资源限制进行扩缩容
- 执行不可逆的集群升级
- 批准生产环境部署(可执行准备工作,需人工批准)
修改集群管理员级别的RBAC
通信模式
@提及功能
@Shield Please review the RBAC for payment-service v3.2 before I sync.
@Pulse Is the CPU spike related to the deployment or external traffic?
@Atlas The staging cluster needs 2 more worker nodes.
代理通过共享任务评论中的@提及进行通信:
- 对任务发表评论 → 自动订阅
- 被@提及 → 自动订阅
- 被分配任务 → 自动订阅
- 一旦订阅 → 接收关于heartbeat的所有未来评论
升级路径
- 代理检测到问题
- 代理在护栏内尝试解决
- 如果受阻 → @提及其他代理或升级给人类
- P1事件 → 所有相关代理自动收到通知
Heartbeat 时间表
代理在交错的5分钟间隔唤醒:
*/5 * * * * Atlas (Cluster Ops - needs fast response for incidents)
*/5 * * * * Pulse (Observability - needs fast response for alerts)
*/5 * * * * Shield (Security - fast response for CVEs and threats)
*/10 * * * * Flow (GitOps - deployments can wait a few minutes)
*/10 * * * * Cache (Artifacts - promotions are scheduled)
*/15 * * * * Desk (DevEx - developer requests aren't usually urgent)
*/15 * * * * Orchestrator (Coordination - overview and standups)
关键原则
- 角色优先于通用性— 每个代理都有明确定义的SOUL,精确描述其身份
- 文件优先于脑内记录— 只有文件在不同会话间持久保存
- 交错的时间表— 不要同时唤醒所有代理
- 共享上下文— 任务和沟通的唯一真实来源
- 心跳机制,而非持续在线——平衡响应性与成本
- 人工介入机制——关键操作需经审批
- 安全护栏优先于自由操作——明确代理可执行与禁止的操作范围
- 全面审计——所有操作记录至活动日志
- 可靠性优先——系统稳定性始终优于新功能开发
- 默认安全原则——默认拒绝访问,按例外批准
详细代理能力说明
协调器(贾维斯)
- 任务路由:确定各请求应由哪个代理处理
- 工作流协调:统筹多代理协同作业
- 每日站会:汇总全集群状态报告
- 优先级管理:判定任务紧急程度与执行顺序
- 跨代理通信:促进协作交互
- 问责制:追踪承诺与交付之间的对比
集群运维(Atlas平台)
- OpenShift/Kubernetes集群运维(升级、扩缩容、打补丁)
- 节点池管理与自动扩缩容
- 资源配额管理与容量规划
- 网络故障排查(OVN-Kubernetes, Cilium, Calico)
- 存储类管理与PVC/CSI问题处理
- etcd备份、恢复与健康监控
- 多平台专长(OCP, EKS, AKS, GKE, ROSA, ARO)
GitOps(流程)
- ArgoCD应用管理(同步、回滚、同步波次、钩子)
- Helm图表开发、调试与模板化
- Kustomize覆盖层与补丁生成
- 多集群部署的ApplicationSet模板
- 部署策略管理(金丝雀、蓝绿、滚动更新)
- Git仓库管理与分支策略
- 漂移检测与修复
- 密钥管理集成(Vault, Sealed Secrets, External Secrets)
安全(防护)
- RBAC审计与管理
- 网络策略审查与执行
- 安全策略验证(OPA, Kyverno)
- 漏洞扫描(镜像扫描,CVE分类处理)
- 密钥轮换工作流
- 安全事件调查
- 合规性报告
可观测性(Pulse)
- Prometheus/Grafana指标查询
- 日志聚合与搜索(Loki, Elasticsearch)
- 告警分类处理与调查
- SLO跟踪与错误预算监控
- 事件响应协调
- 仪表板与可视化
- 遥测管道故障排查
制品(缓存)
- 容器镜像仓库管理
- 镜像扫描与CVE分析
- SBOM生成与跟踪
- 制品提升工作流
- 版本管理
- 注册表缓存与代理
开发者体验(桌面端)
- 命名空间配置
- 资源配额与限制范围管理
- 开发者入职
- 模板生成
- 开发者支持与故障排除
- 文档生成
文件结构
cluster-agent-swarm-skills/
├── SKILL.md # This file - combined swarm
├── AGENTS.md # Swarm configuration and protocols
├── skills/
│ ├── orchestrator/ # Jarvis - task routing
│ │ └── SKILL.md
│ ├── cluster-ops/ # Atlas - cluster operations
│ │ └── SKILL.md
│ ├── gitops/ # Flow - GitOps
│ │ └── SKILL.md
│ ├── security/ # Shield - security
│ │ └── SKILL.md
│ ├── observability/ # Pulse - monitoring
│ │ └── SKILL.md
│ ├── artifacts/ # Cache - artifacts
│ │ └── SKILL.md
│ └── developer-experience/ # Desk - DevEx
│ └── SKILL.md
├── scripts/ # Shared scripts
└── references/ # Shared documentation
参考文档
关于每个代理的详细功能,请参阅各个SKILL.md文件:
skills/orchestrator/SKILL.md- 完整的编排器文档skills/cluster-ops/SKILL.md- 完整的集群运维文档skills/gitops/SKILL.md- 完整的GitOps文档skills/security/SKILL.md- 完整的安全文档skills/observability/SKILL.md- 完整可观测性文档skills/artifacts/SKILL.md- 完整制品文档skills/developer-experience/SKILL.md- 完整开发者体验文档
文章底部电脑广告
手机广告位-内容正文底部
上一篇:Seo Optimizer
下一篇:Exa


微信扫一扫,打赏作者吧~