接口稳定性与 SLA

Swarmix 的可用性目标、维护窗口、订阅状态通知。

SLA 目标

支持级别月可用性故障响应时间补偿
标准账户99.0%工作日 48h
高优先级支持99.5%工作日 24h故障时间 ×1 倍余额补偿
生产保障99.9%7×24h · 2h 响应故障时间 ×3 倍余额补偿
企业合约99.95% 合约级7×24h · 30min 响应,专属客服合同约定
不计入 SLA 的情况
以下场景造成的不可用,不计入 SLA 可用率统计:
  • 提前 7 天公告的维护窗口
  • 不可抗力(机房 / 运营商故障)
  • 上游厂商大规模故障(阿里云 / 腾讯云等超过 30min 的事故)
  • 客户自身导致(Key 泄露被封、恶意攻击流量等)

状态页

公开状态页:status.swarmixtoken.com

每分钟从独立监控节点探测:

  • Router /v1/chat/completions(用 mock 模型,不产生真实消耗)
  • 客户平台 API /v1/auth/me
  • 按厂商分组的上游可用率

维护窗口

  • 计划内维护:每周三 03:00 - 04:00(UTC+8),影响 < 30s
  • 大版本升级:提前 7 天邮件 + Webhook 通知;滚动发布对客户透明
  • 紧急修复:无法预告,事后发 postmortem 报告

故障订阅

推荐至少订阅一个:

  • 状态页 RSShttp://status.swarmixtoken.com/feed.rss
  • 邮件通知:在 Console → 设置 → 通知设置 勾选「故障告警」
  • Webhook:订阅 system.outage.* 事件

历史事故

所有 P0/P1 级事故 7 天内公布完整 postmortem(包括根因、时间线、改进措施)。 往期见 事故档案

报告问题

有序的 bug 报告能 10 倍加速排查
请在 工单系统 提交,并至少附上:
  • 请求 ID(x-request-id 响应头)
  • 发生时间(精确到秒)
  • 使用的模型 + Key 的前 8 位(便于定位)
  • 响应的完整 JSON(尤其是 detail 字段)
  • 你预期发生什么、实际发生什么