ITIMO创新库

完美克隆口癖、语速、情感 | 开源语音合成VoxCPM2

精选开源项目评分 3.9191 阅读

VoxCPM2:基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆。

生成的声音你根本听不出来是AI!

1、打一行字「沉稳的30岁女声」就能直接出

2、扔一小段录音,连口癖、语速、情感都能完美复刻

3、48kHz录音棚级音质,Apache 2.0协议,商用随便用

✨ 核心特性

  • 🌍 30种语言语音合成 — 直接输入原始文本即可合成(支持语言详见下文),无需额外语言标签

  • 🎨 音色设计 — 用自然语言描述(性别、年龄、音色、情绪、语速……)凭空创建全新音色,无需参考音频

  • 🎛️ 可控声音克隆 — 从参考音频片段克隆任意声音,可叠加风格指令控制情绪、语速和表现力,同时保持原始音色

  • 🎙️ 极致克隆 — 提供参考音频及其文本内容,模型接着参考音频进行无缝续写,从而精准还原声音细节特征(与 VoxCPM1.5 一致)

  • 🔊 48kHz 高质量音频 — 输入 16kHz 参考音频,通过 AudioVAE V2 的非对称编解码设计直接输出 48kHz 高质量音频,内置超分能力

  • 🧠 语境感知合成 — 根据文本内容自动推断合适的韵律和表现力

  • 实时流式合成 — 在 NVIDIA RTX 4090 上 RTF 低至 ~0.3,通过 Nano-vLLMvLLM-Omni(官方 vLLM 全模态服务,原生支持 VoxCPM2,提供 PagedAttention 与 OpenAI 兼容 API)加速后可达 ~0.13

  • 📜 完全开源,商用就绪 — 权重和代码基于 Apache-2.0 协议发布,免费商用

65f87d14-b91c-4fdd-9558-588a657c97ed.png

本地部署硬件:
官方推荐: NVIDIA RTX 4090(运行 VoxCPM2 的实时率 RTF 约为 ~0.30;如果使用 Nano-VLLM 框架加速,RTF 可达 ~0.13,速度极快)。

  • 最低显存要求(VRAM):

    • VoxCPM2 (2B 最新版): 约 8 GB 显存(建议使用 BF16 精度加载)。

    • 运行内存: 建议 16 GB RAM 或以上

  • 架构与驱动要求: 必须支持 CUDA。官方要求 CUDA ≥ 12.0,PyTorch ≥ 2.5.0。建议使用 NVIDIA Ampere 架构及以上显卡(如 RTX 30系、40系,或数据中心卡 A10、A100、H100 等)。

开源地址:OpenBMB/VoxCPM