SoftVC VITS Singing Voice Conversion

模型简介

歌声音色转换模型，通过SoftVC内容编码器提取源音频语音特征，通过icassp2022_vocal_transcription项目提取音频midi note，将两者结合输入VITS替换原本的文本输入达到歌声转换的效果。

该midi方案目前暂时搁置转入dev分支，目前模型修改回使用 coarse F0输入

midi note（0-127 LongTensor）通过pitch_embedding后与soft-units相加替代vits原本的文本输入
- 使用midi而非f0似乎会导致模型音高不准目前修改回使用F0
采用了VISinger中的PitchPredictor，引入了PitchLoss修正音高
- 似乎效果不是很明显，或许加的方式不太对

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
configs		configs
monotonic_align		monotonic_align
samples		samples
text		text
LICENSE		LICENSE
README.md		README.md
app.py		app.py
attentions.py		attentions.py
commons.py		commons.py
data_utils.py		data_utils.py
losses.py		losses.py
mel_processing.py		mel_processing.py
models.py		models.py
modules.py		modules.py
preprocess.py		preprocess.py
preprocess_wave.py		preprocess_wave.py
requirements.txt		requirements.txt
train.py		train.py
train_ms.py		train_ms.py
transforms.py		transforms.py
utils.py		utils.py