VoxCPM2
VoxCPM2

VoxCPM2

VoxCPM2 是 OpenBMB 发布的开源多语言文本转语音模型,把语音设计、可控克隆和 48kHz 音频输出整合进一个 Apache-2.0 可商用版本。

1

Views

0

Likes

Jun 2026

Added

github.com

Website

Tags

开源 TTS语音克隆多语言语音文字转语音AI 音频

Product Preview

A quick visual look at VoxCPM2 before you visit the official site.

Published 6/2/2026
VoxCPM2 screenshot

Editorial Review

About VoxCPM2

产品简介

VoxCPM2 属于最近最热的开源语音基础设施项目之一,但它不只是一个演示级 TTS。这个 20 亿参数的 tokenizer-free 模型想同时覆盖自然语音生成、从文本定义新声音、参考音频克隆,以及开发者真正会碰到的本地或自管部署场景。

为什么最近热度高

它最近热度很高,一方面是 2026 年 6 月 2 日进入 GitHub Trending,当天新增星标非常明显;另一方面是官方这次把产品能力讲得更完整了,不再只是基础朗读,而是强调 30 种语言、48kHz、可控克隆和 Apache-2.0 商用许可。

核心功能

  • 支持 30 种语言,减少开发者为多语言场景维护多套路由逻辑的负担。
  • 既能通过文本描述直接设计新声音,也能用短参考音频做可控克隆。
  • 代码和权重都以 Apache-2.0 开源,适合创业团队快速验证并推进到真实产品。

真实使用场景

  • 需要比普通托管 TTS API 更强控制力的语音代理和语音工作流。
  • 做本地化旁白、品牌音色、角色语音或定制助手人格的开发者。
  • 希望自行微调、自托管或深入研究语音栈的研究者和独立开发者。

社区反馈

开发者喜欢它很正常,开源而且覆盖面广的语音模型总会被快速关注。更谨慎的声音主要集中在两点:嘈杂参考音频下的克隆质量是否稳定,以及爆发式涨星会不会真的转化成长期生产使用。

限制与风险

开源语音模型并不意味着省心。真实接入时还是要验证延迟、显存需求、瑕疵音处理,以及长文本下声音是否漂移。团队还必须认真处理声音授权、身份冒用和合规风险。

替代方案

常见替代方案包括 ElevenLabs、Cartesia、PlayAI、各类托管语音 API、Kokoro 本地栈,以及其他开源 TTS 项目,它们在控制力、成本、许可和质量上的取舍各不相同。

常见问题

  • 谁最适合先试 VoxCPM2? 想要开源语音基础设施,而不是完全依赖封闭托管服务的团队和开发者。
  • 最早该验证什么? 实时性能、克隆稳定性、多语言质量,以及自托管带来的额外运维成本。

Ready to try VoxCPM2?

Visit the official website to get started

Visit VoxCPM2

Quick Info

Added
6/2/2026
Published
6/2/2026
Updated
6/2/2026

Share This Tool

Have an AI tool to share?

Submit it to AI Dreamhub

Get your product in front of people actively exploring AI tools.

Submit Your Tool
Index TTS

Index TTS

IndexTTS 是 Bilibili 开源的工业级、可控、高效零样本文本转语音系统。它更适合语音研究者和开发者做可控 TTS 实验,而不是普通用户寻找成品网页配音工具。

Index TTStext to speechzero-shot TTS
580
Azure Text to Speech

Azure Text to Speech

The best and most realistic voice tools currently available - 智能 AI 工具,助力您的工作效率。

text-to-speech
490
Hailuo AI TTS

Hailuo AI TTS

Hailuo AI TTS 与 MiniMax Audio 相关,是面向多语种 AI 语音、声音克隆和音频内容工作流的文本转语音产品。

Hailuo AI TTSMiniMax Audiotext to speech
540
Coqui TTS

Coqui TTS

A deep learning toolkit for Text-to-Speech, battle-tested in research and production - 智能 AI 工具,助力您的工作效率。

text-to-speechfree
670