indexTTS是一款基于深度学习的语音合成工具,支持自主上传样本音频,并输入文本进行语音合成。bilibili开源,简单好用容易上手。 github地址:https://github.com/index-tts/index-tts
FFmpeg 是一个开源的多媒体框架,可以用来处理音频和视频文件。
ffmpeg -version,如果出现版本信息,则表示安装成功。这里使用conda来创建虚拟环境。
conda create -n indexTTS python=3.10
conda activate indexTTS
后续的所有操作都在这个虚拟环境中进行。
Pynini是一个基于开源的FST(有限状态机)库的Python库,用于构建和操作有限状态转换器。
在语音识别和合成系统中,Pynini被广泛用于构建语言模型和声学模型。
conda install -c conda-forge pynini==2.1.6 pip install WeTextProcessing --no-deps

最新2.0版本的indexTTS代码可以通过git进行获取。
git clone https://github.com/index-tts/index-tts.git
如果需要使用1.5或者1.0版本的indexTTS请到 https://github.com/index-tts/index-tts/releases/tag/v1.5.0 下载旧版本
cd index-tts
pip install -e . pip install gradio modelscope
选择一个版本进行下载,并且使用之前安装的modelscope进行下载
# 1.0版本 modelscope download --model IndexTeam/Index-TTS --local_dir models/IndexTTS # 1.5版本 modelscope download --model IndexTeam/IndexTTS-1.5 --local_dir models/IndexTTS-1.5 # 2.0版本 modelscope download --model IndexTeam/IndexTTS-2 --local_dir models/IndexTTS-2
等待安装完成。
如果你发现界面卡在类似这样的界面,那么大概率是显示的问题,按几下回车,如果出现了输入行,那么说明是已经下载好了。
这时已经将模型下载到了项目根目录/models/IndexTTS目录下。
# 1.0 python webui.py --model_dir models/IndexTTS # 1.5 python webui.py --model_dir models/IndexTTS-1.5 # 2.0 python webui.py --model_dir models/IndexTTS-2
打开浏览器,输入 http://127.0.0.1:7860 ,即可访问indexTTS的webui界面。

本文作者:hwy2580
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!