音频模型

TTS 语音合成 / STT 语音识别 / 声音翻译 / 音效生成 —— OpenAI Audio API 兼容。

此接口即将上线

预计 2026 Q3 发布。 当前阶段 Swarmix 聚焦文本对话(OpenAI 兼容 /v1/chat/completions), 其他模态与协议会按路线图顺序开放。

对标 OpenAI 接口

上线后将以 /v1/audio/speech · /v1/audio/transcriptions · /v1/audio/translations 路径 + 标准 OpenAI JSON 结构对外暴露, 现有调用 OpenAI 的代码只需切换 base_url 即可迁移。

内部路由

统一 OpenAI Audio 协议对外,后端聚合国产 TTS / ASR 引擎。文件上传走 multipart/form-data。

将接入的厂商

  • 阿里 · CosyVoice(TTS,多音色克隆)
  • 火山方舟 · 字节跳动 TTS / ASR 引擎
  • Kling · 文生音效 / 视频生音效 / 语音合成
  • 腾讯 · 混元音频

想抢先体验?

在等待期间可以做什么
这个接口的**能力**(比如"向量嵌入"用于 RAG / 语义检索)在主流云厂商都已具备。 你可以先用 直连阿里百炼 / 火山方舟 / DeepSeek 的原生 API 做 POC,等 Swarmix 开通后一行代码切到统一入口,获得统一鉴权、计费和请求日志。