完美克隆口癖、语速、情感 | 开源语音合成VoxCPM2

VoxCPM2：基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆。

生成的声音你根本听不出来是AI！

1、打一行字「沉稳的30岁女声」就能直接出

2、扔一小段录音，连口癖、语速、情感都能完美复刻

3、48kHz录音棚级音质，Apache 2.0协议，商用随便用

🌍 30种语言语音合成 — 直接输入原始文本即可合成（支持语言详见下文），无需额外语言标签
🎨 音色设计 — 用自然语言描述（性别、年龄、音色、情绪、语速……）凭空创建全新音色，无需参考音频
🎛️ 可控声音克隆 — 从参考音频片段克隆任意声音，可叠加风格指令控制情绪、语速和表现力，同时保持原始音色
🎙️ 极致克隆 — 提供参考音频及其文本内容，模型接着参考音频进行无缝续写，从而精准还原声音细节特征（与 VoxCPM1.5 一致）
🔊 48kHz 高质量音频 — 输入 16kHz 参考音频，通过 AudioVAE V2 的非对称编解码设计直接输出 48kHz 高质量音频，内置超分能力
🧠 语境感知合成 — 根据文本内容自动推断合适的韵律和表现力
⚡ 实时流式合成 — 在 NVIDIA RTX 4090 上 RTF 低至 ~0.3，通过 Nano-vLLM 或 vLLM-Omni（官方 vLLM 全模态服务，原生支持 VoxCPM2，提供 PagedAttention 与 OpenAI 兼容 API）加速后可达 ~0.13
📜 完全开源，商用就绪 — 权重和代码基于 Apache-2.0 协议发布，免费商用

本地部署硬件：
官方推荐： NVIDIA RTX 4090（运行 VoxCPM2 的实时率 RTF 约为 ~0.30；如果使用 Nano-VLLM 框架加速，RTF 可达 ~0.13，速度极快）。

最低显存要求（VRAM）：
- VoxCPM2 (2B 最新版)：约 8 GB 显存（建议使用 BF16 精度加载）。
- 运行内存： 建议 16 GB RAM 或以上
架构与驱动要求： 必须支持 CUDA。官方要求 CUDA ≥ 12.0，PyTorch ≥ 2.5.0。建议使用 NVIDIA Ampere 架构及以上显卡（如 RTX 30系、40系，或数据中心卡 A10、A100、H100 等）。

开源地址：OpenBMB/VoxCPM