Spark-TTS

3周前发布 2 00

Spark-TTS是SparkAudio团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具,无需额外的生成模型,直接从LLM预测的编码中重建音频,实现零样本文本到语音的转换。Spark-TTS支持中英双语,具备跨语言合成能力,可通过参数调整(如性别、音调、语速)生成虚拟说话者的声音,满足多样化需求。

收录时间:
2025-04-08
Spark-TTSSpark-TTS

Spark-TTS是SparkAudio团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具,无需额外的生成模型,直接从LLM预测的编码中重建音频,实现零样本文本到语音的转换。Spark-TTS支持中英双语,具备跨语言合成能力,可通过参数调整(如性别、音调、语速)生成虚拟说话者的声音,满足多样化需求。 核心功能 高效语音合成:利用单流解耦语音编码技术,直接从模型预测编码中生成音频,无需额外声学特征生成模型。 零样本语音克隆:支持零样本语音克隆,可在无特定训练数据的情况下复制说话者声音,尤其适合跨语言和代码切换场景。 双语支持:兼容中文和英文语音合成,具有高自然度和准确性,适合多语言环境。 可控语音生成:提供丰富的参数调整功能,例如性别、音高、语速等,满足个性化需求。 适用场景 语音助手:为智能设备提供更自然的语音交互体验。 教育工具:生成高质量语音示例,帮助语言学习者掌握发音。 内容创作:为视频和播客添加个性化语音配音。 无障碍技术:为语音障碍者提供个性化语音支持。 Spark-TTS的使用方法 1. 环境准备 安装依赖:确保已安装 Python(建议版本 3.12 或更高)和 Conda 环境管理工具。 克隆代码仓库:运行以下命令将 Spark-TTS 仓库克隆到本地: git clone https://github.com/SparkAudio/Spark-TTS.git cd Spark-TTS 创建虚拟环境:使用 Conda 创建并激活虚拟环境: conda create -n sparktts -y python=3.12 conda activate sparktts 安装依赖库:运行以下命令安装所需依赖: pip install -r requirements.txt 2. 下载预训练模型 通过 Python 下载: from huggingface_hub import snapshot_download snapshot_download(“SparkAudio/Spark-TTS-0.5B”, local_dir=”pretrained_models/Spark-TTS-0.5B”) 通过 Git 下载: mkdir -p pretrained_models git lfs install git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B 3. 基本使用 运行示例脚本: cd example bash infer.sh 命令行生成语音: python -m cli.inference \ –text “需要合成的文本” \ –device 0 \ –save_dir “保存音频的路径” \ –model_dir pretrained_models/Spark-TTS-0.5B \ –prompt_text “提示音频的文本内容” \ –prompt_speech_path “提示音频的路径” 4. 使用 Web 界面 启动 Web UI:运行以下命令启动界面: python webui.py –device 0 功能支持:Web 界面支持语音克隆和语音生成,可上传参考音频或直接录制音频。 5. 可选功能 语音克隆:上传参考音频,生成与参考音频相似的语音。 语音参数调整:通过调整性别、语速、音高等参数,生成个性化语音。 Spark-TTS的GitHub仓库:https://github.com/SparkAudio/Spark-TTS

数据统计

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...