音频模型
TTS 语音合成 / STT 语音识别 / 声音翻译 / 音效生成 —— OpenAI Audio API 兼容。
此接口即将上线
预计 2026 Q3 发布。 当前阶段 Swarmix 聚焦文本对话(OpenAI 兼容 /v1/chat/completions), 其他模态与协议会按路线图顺序开放。
对标 OpenAI 接口
上线后将以 /v1/audio/speech · /v1/audio/transcriptions · /v1/audio/translations 路径 + 标准 OpenAI JSON 结构对外暴露, 现有调用 OpenAI 的代码只需切换 base_url 即可迁移。
内部路由
统一 OpenAI Audio 协议对外,后端聚合国产 TTS / ASR 引擎。文件上传走 multipart/form-data。
将接入的厂商
- 阿里 · CosyVoice(TTS,多音色克隆)
- 火山方舟 · 字节跳动 TTS / ASR 引擎
- Kling · 文生音效 / 视频生音效 / 语音合成
- 腾讯 · 混元音频
想抢先体验?
在等待期间可以做什么
这个接口的**能力**(比如"向量嵌入"用于 RAG / 语义检索)在主流云厂商都已具备。 你可以先用 直连阿里百炼 / 火山方舟 / DeepSeek 的原生 API 做 POC,等 Swarmix 开通后一行代码切到统一入口,获得统一鉴权、计费和请求日志。