网淘吧来吧,欢迎您!

返回首页 微信
微信
手机版
手机版

Kubernetes

2026-03-27 新闻来源:网淘吧 围观:23
电脑广告
手机广告

集群代理集群 — 完整的平台运维

运行时要求

此技能包提供 Kubernetes/OpenShift 集群管理功能。凭证采用模块化设计- 仅需根据您的具体用例进行配置。

始终必需

要求描述环境变量
Kubeconfig具有集群访问权限的有效 kubeconfigKUBECONFIG~/.kube/config
kubectlKubernetes CLI必须在 PATH 环境变量中

有条件 - 仅按需启用

平台在以下情况下启用...凭证
AWS/EKS/ROSA管理 AWS 托管的 KubernetesAWS_ACCESS_KEY_ID,AWS_SECRET_ACCESS_KEY
Azure/ARO管理 Azure 托管的 KubernetesAZURE_CLIENT_ID,AZURE_CLIENT_SECRET,AZURE_TENANT_ID
GCP/GKE管理 GCP 托管的 KubernetesGOOGLE_APPLICATION_CREDENTIALS
ArgoCD使用 GitOps 代理ARGOCD_AUTH_TOKEN,ARGOCD_SERVER
Vault使用密钥管理VAULT_TOKEN
GitHub推送至 git 仓库GITHUB_TOKEN

会话设置

在使用代理程序之前,必须设置会话上下文:

# Set up session context for your environment
bash skills/orchestrator/scripts/setup-session.sh <environment> [context-name]

# Environments: dev, qa, staging, prod
# Note: prod requires human approval for all modifications

安全注意事项

  • 代理程序默认以最小权限运行
  • 所有凭据访问均被记录
  • 生产环境修改需经人工批准
  • 密钥绝不记录或存储在代码中

安全评估 - 安装前必读

来源验证

  • 此技能从第三方GitHub仓库
  • 拉取代码安装前请验证来源URL:https://github.com/kcns008/cluster-agent-swarm-skills
  • 锁定特定版本- 切勿在生产环境中使用主分支
    git clone https://github.com/kcns008/cluster-agent-swarm-skills.git
    cd cluster-agent-swarm-skills
    git fetch --tags
    git checkout v1.0.0  # Use verified release tag or commit hash
    

第三方脚本执行警告

  • 这是一个脚本化技能- 它会将可执行的bash脚本写入磁盘
  • 脚本执行集群操作,包括:部署、扩缩容、扫描、配置
  • 部分脚本可能具有破坏性- 请在运行前审阅:
    • 名称中包含-delete-cleanup的脚本可能会移除资源
    • 名称中包含-promote-deploy的脚本会修改集群状态
  • 请务必先在非生产环境测试

安装机制

  • 通过npx skills add安装会从GitHub下载并执行代码
  • 本技能无法验证外部脚本的完整性
  • 请在本地审计所有脚本投入生产运行前
  • 建议维护经核验的受信脚本离线副本

持久化与影响范围

  • 智能体通过以下方式维持跨会话的持久化状态
    • WORKING.md- 会话进度追踪
    • LOGS.md- 操作审计追踪
    • MEMORY.md- 长期学习记录
  • 智能体被配置为在常规操作中向这些文件提交变更
  • 若遭误用,此持久化机制将扩大影响范围——如有顾虑请限制仓库写入权限

人工审批强制执行

  • 技能文档声称生产环境变更需经人工审批
  • 此为流程管控,而非技术强制措施
  • 您的平台必须强制执行在允许生产操作前设置审批关卡
  • 不要依赖代理的自我约束来保证生产安全

最小权限原则 - 必须遵守

  • 切勿提供所有者/root级别的云凭据
  • 为以下情况创建专用的、权限最小的服务账户:
    • Kubernetes 命名空间级别访问(非集群管理员权限)
    • 具有有限 EKS 权限的 AWS IAM 角色
    • 具有有限订阅访问权限的 Azure 服务主体
    • 具有有限项目权限的 GCP 服务账户
  • 切勿提供生产环境凭据除非你已在非生产环境中审计过代码

生产前先进行沙盒测试

  1. 首先在隔离/非生产环境中运行此技能
  2. 手动逐步执行脚本以理解其行为
  3. 请特别注意:
    • *-cleanup.sh脚本 - 可能删除资源
    • *-promote.sh脚本 - 可能提升制品
    • *-delete.sh脚本 - 明确具有破坏性
  4. 验证没有意外的网络调用指向外部端点

供应链工具

  • 脚本可能下载二进制文件(syft、cosign、trivy 等)
  • 仅允许从可信的发布源下载(官方 GitHub 发布、包管理器)
  • 如果您的环境需要,请考虑构建离线工具链

这是完整的集群智能体群技能包。添加此技能后,您将获得 访问全部 7 个专业智能体,它们作为一个协调的群体协同工作。

安装

安装所有技能(推荐)

npx skills add https://github.com/kcns008/cluster-agent-swarm-skills

这将所有 7 个智能体作为一个组合技能安装,可访问所有功能。

安装单个技能

每个智能体均可使用 GitHub 树路径单独安装:

# Orchestrator - Jarvis (task routing, coordination)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/orchestrator

# Cluster Ops - Atlas (cluster lifecycle, nodes, upgrades)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/cluster-ops

# GitOps - Flow (ArgoCD, Helm, Kustomize)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/gitops

# Security - Shield (RBAC, policies, CVEs)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/security

# Observability - Pulse (metrics, alerts, incidents)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/observability

# Artifacts - Cache (registries, SBOM, promotions)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/artifacts

# Developer Experience - Desk (namespaces, onboarding)
npx skills add https://github.com/kcns008/cluster-agent-swarm-skills/tree/main/skills/developer-experience

注意:在生产环境中始终锁定到特定的标签/提交。请参阅安全评估部分。


集群 — 智能体名册

智能体代号会话密钥领域
编排器贾维斯智能体:平台:编排器任务路由、协调、站会
集群运维阿特拉斯智能体:平台:集群运维集群生命周期、节点、升级
GitOps弗洛智能体:平台:GitOpsArgoCD、Helm、Kustomize、部署
安全护盾智能体:平台:安全RBAC、策略、密钥、扫描
可观测性脉搏代理:平台:可观测性指标、日志、警报、事件
制品缓存代理:平台:制品注册表、SBOM、提升、CVE
开发者体验桌面代理:平台:开发者体验命名空间、入门、支持

代理能力概述

代理能做什么

  • 读取集群状态(kubectl getkubectl describeoc get
  • 通过GitOps部署(argocd app sync、Flux协调)
  • 创建文档和报告
  • 调查和分类事件
  • 提供标准资源(命名空间、配额、RBAC)
  • 运行健康检查与审计
  • 扫描镜像并生成SBOM
  • 查询指标与日志
  • 执行预批准的运维手册

代理无法执行的操作(需人工介入)

  • 删除生产环境资源(生产环境中执行kubectl delete
  • 命令)
  • 修改集群级策略(网络策略、OPA、Kyverno集群策略)
  • 未经轮换流程直接修改密钥
  • 修改网络路由或服务网格配置
  • 超出既定资源限制进行扩缩容
  • 执行不可逆的集群升级
  • 批准生产环境部署(可执行准备工作,需人工批准)

修改集群管理员级别的RBAC

通信模式

@提及功能

@Shield Please review the RBAC for payment-service v3.2 before I sync.
@Pulse Is the CPU spike related to the deployment or external traffic?
@Atlas The staging cluster needs 2 more worker nodes.

代理通过共享任务评论中的@提及进行通信:

  • 对任务发表评论 → 自动订阅
  • 被@提及 → 自动订阅
  • 被分配任务 → 自动订阅
  • 一旦订阅 → 接收关于heartbeat的所有未来评论

升级路径

  1. 代理检测到问题
  2. 代理在护栏内尝试解决
  3. 如果受阻 → @提及其他代理或升级给人类
  4. P1事件 → 所有相关代理自动收到通知

Heartbeat 时间表

代理在交错的5分钟间隔唤醒:

*/5  * * * *  Atlas   (Cluster Ops - needs fast response for incidents)
*/5  * * * *  Pulse   (Observability - needs fast response for alerts)
*/5  * * * *  Shield  (Security - fast response for CVEs and threats)
*/10 * * * *  Flow    (GitOps - deployments can wait a few minutes)
*/10 * * * *  Cache   (Artifacts - promotions are scheduled)
*/15 * * * *  Desk    (DevEx - developer requests aren't usually urgent)
*/15 * * * *  Orchestrator (Coordination - overview and standups)

关键原则

  • 角色优先于通用性— 每个代理都有明确定义的SOUL,精确描述其身份
  • 文件优先于脑内记录— 只有文件在不同会话间持久保存
  • 交错的时间表— 不要同时唤醒所有代理
  • 共享上下文— 任务和沟通的唯一真实来源
  • 心跳机制,而非持续在线——平衡响应性与成本
  • 人工介入机制——关键操作需经审批
  • 安全护栏优先于自由操作——明确代理可执行与禁止的操作范围
  • 全面审计——所有操作记录至活动日志
  • 可靠性优先——系统稳定性始终优于新功能开发
  • 默认安全原则——默认拒绝访问,按例外批准

详细代理能力说明

协调器(贾维斯)

  • 任务路由:确定各请求应由哪个代理处理
  • 工作流协调:统筹多代理协同作业
  • 每日站会:汇总全集群状态报告
  • 优先级管理:判定任务紧急程度与执行顺序
  • 跨代理通信:促进协作交互
  • 问责制:追踪承诺与交付之间的对比

集群运维(Atlas平台)

  • OpenShift/Kubernetes集群运维(升级、扩缩容、打补丁)
  • 节点池管理与自动扩缩容
  • 资源配额管理与容量规划
  • 网络故障排查(OVN-Kubernetes, Cilium, Calico)
  • 存储类管理与PVC/CSI问题处理
  • etcd备份、恢复与健康监控
  • 多平台专长(OCP, EKS, AKS, GKE, ROSA, ARO)

GitOps(流程)

  • ArgoCD应用管理(同步、回滚、同步波次、钩子)
  • Helm图表开发、调试与模板化
  • Kustomize覆盖层与补丁生成
  • 多集群部署的ApplicationSet模板
  • 部署策略管理(金丝雀、蓝绿、滚动更新)
  • Git仓库管理与分支策略
  • 漂移检测与修复
  • 密钥管理集成(Vault, Sealed Secrets, External Secrets)

安全(防护)

  • RBAC审计与管理
  • 网络策略审查与执行
  • 安全策略验证(OPA, Kyverno)
  • 漏洞扫描(镜像扫描,CVE分类处理)
  • 密钥轮换工作流
  • 安全事件调查
  • 合规性报告

可观测性(Pulse)

  • Prometheus/Grafana指标查询
  • 日志聚合与搜索(Loki, Elasticsearch)
  • 告警分类处理与调查
  • SLO跟踪与错误预算监控
  • 事件响应协调
  • 仪表板与可视化
  • 遥测管道故障排查

制品(缓存)

  • 容器镜像仓库管理
  • 镜像扫描与CVE分析
  • SBOM生成与跟踪
  • 制品提升工作流
  • 版本管理
  • 注册表缓存与代理

开发者体验(桌面端)

  • 命名空间配置
  • 资源配额与限制范围管理
  • 开发者入职
  • 模板生成
  • 开发者支持与故障排除
  • 文档生成

文件结构

cluster-agent-swarm-skills/
├── SKILL.md                    # This file - combined swarm
├── AGENTS.md                   # Swarm configuration and protocols
├── skills/
│   ├── orchestrator/           # Jarvis - task routing
│   │   └── SKILL.md
│   ├── cluster-ops/            # Atlas - cluster operations
│   │   └── SKILL.md
│   ├── gitops/                 # Flow - GitOps
│   │   └── SKILL.md
│   ├── security/               # Shield - security
│   │   └── SKILL.md
│   ├── observability/          # Pulse - monitoring
│   │   └── SKILL.md
│   ├── artifacts/              # Cache - artifacts
│   │   └── SKILL.md
│   └── developer-experience/   # Desk - DevEx
│       └── SKILL.md

├── scripts/                    # Shared scripts
└── references/                 # Shared documentation

参考文档

关于每个代理的详细功能,请参阅各个SKILL.md文件:

  • skills/orchestrator/SKILL.md- 完整的编排器文档
  • skills/cluster-ops/SKILL.md- 完整的集群运维文档
  • skills/gitops/SKILL.md- 完整的GitOps文档
  • skills/security/SKILL.md- 完整的安全文档
  • skills/observability/SKILL.md- 完整可观测性文档
  • skills/artifacts/SKILL.md- 完整制品文档
  • skills/developer-experience/SKILL.md- 完整开发者体验文档
免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏
文章底部电脑广告
手机广告位-内容正文底部
上一篇:Seo Optimizer 下一篇:Exa

相关文章

您是本站第291673名访客 今日有273篇新文章/评论