模型分组
按能力层级划分模型,方便筛选、对比和运营管理;实际 API 调用仍使用具体模型 ID。
为什么要分组
当平台上架多个厂商、多个能力层级的模型后,直接让客户逐个挑选会有三个问题:
- 选择困难 —— 不知道自己场景适合哪个模型
- 切换成本高 —— 想换便宜的替代品,不知道哪个替代性最接近
- 黏性风险 —— 代码里硬编码
aliyun/qwen-max,单家厂商出事就全挂
分组把能力相近的模型归到一起。当前实现里,分组主要是后台运营字段; 客户 Console 的模型市场暂时按厂商筛选,并展示已上架模型的价格、上下文窗口和免费额度。 生产 API 调用请继续传具体模型 ID,例如 aliyun/qwen-plus 或 aliyun/deepseek-r1。
预置分组
chat · 对话
最常用的通用对话能力。典型成员:
- aliyun/qwen-max / aliyun/qwen-plus / aliyun/qwen-turbo
- aliyun/deepseek-r1
- doubao-1.5-pro-32k / doubao-1.5-lite
- tencent/hunyuan-turbo / tencent/hunyuan-standard
- glm-4-plus / glm-4-air
- moonshot-v1-8k / 32k / 128k
reasoning · 推理
CoT 推理链 / 慢思考模型。擅长数学、代码、复杂规划。
- deepseek-reasoner (DeepSeek R1)
- qwen-reasoning(预览版)
- glm-zero-preview
code · 代码
针对代码生成、补全、调试优化的模型。
- qwen-coder-plus
- deepseek-coder (V2)
- codegeex-4
vision · 视觉
支持图片输入的多模态模型。
- qwen-vl-max
- glm-4v-plus
- hunyuan-vision
当前调用方式
POST /v1/chat/completions 当前以模型 ID 为路由入口。你可以先在模型市场查看自己可用的已上架模型, 再把具体模型 ID 传给 model。
python
resp = client.chat.completions.create(
model="aliyun/qwen-plus",
messages=[{"role": "user", "content": "hi"}],
)@chat、@vision 这类分组别名目前不是公开 API 的稳定调用参数。 文档和 SDK 示例均以具体模型 ID 为准。自定义分组
管理端可以维护模型的 group_name,用于运营筛选、授权管理和成本分析。 这不会改变当前 API 调用参数;客户侧仍然传具体模型 ID。
如果你的账户需要特定模型推荐或授权范围调整,请通过工单说明使用场景;平台侧会按当前已上架模型处理。
公开接口边界
GET /v1/models/pricing 当前返回价格、厂商、官方文档、上下文窗口和免费额度等信息;group_name 不是当前公开接口的稳定字段。
bash
curl http://router.swarmixtoken.com/v1/models/pricing \
-H "Authorization: Bearer sk-swx-..." \
| jq '.data[] | {id, provider, pricing, context_window}'