[doc]updade readme for mix tts (#2284)

* format g2pw * fix tone sand_hi bugs for Chinese frontend * fix stats bugs * fix point bug, test=tts * fix point bug, test=tts * update readme for mix tts, test=doc Co-authored-by: liangym <[email protected]> Co-authored-by: lym0302 <[email protected]>
PaddlePaddle · Aug 22, 2022 · 979f75e · 979f75e
1 parent 99977b2
commit 979f75e
Show file tree

Hide file tree

Showing 4 changed files with 83 additions and 39 deletions.
diff --git a/README.md b/README.md
@@ -558,9 +558,9 @@ PaddleSpeech supports a series of most popular models. They are summarized in [r
     </tr>
     <tr>
       <td>FastSpeech2</td>
-      <td>LJSpeech / VCTK / CSMSC / AISHELL-3</td>
+      <td>LJSpeech / VCTK / CSMSC / AISHELL-3 / ZH_EN</td>
       <td>
-      <a href = "./examples/ljspeech/tts3">fastspeech2-ljspeech</a> / <a href = "./examples/vctk/tts3">fastspeech2-vctk</a> / <a href = "./examples/csmsc/tts3">fastspeech2-csmsc</a> / <a href = "./examples/aishell3/tts3">fastspeech2-aishell3</a>
+      <a href = "./examples/ljspeech/tts3">fastspeech2-ljspeech</a> / <a href = "./examples/vctk/tts3">fastspeech2-vctk</a> / <a href = "./examples/csmsc/tts3">fastspeech2-csmsc</a> / <a href = "./examples/aishell3/tts3">fastspeech2-aishell3</a> / <a href = "./examples/zh_en_tts/tts3">fastspeech2-zh_en</a>
       </td>
     </tr>
    <tr>

diff --git a/README_cn.md b/README_cn.md
@@ -196,13 +196,13 @@
 + python >= 3.7
 + linux(推荐), mac, windows
 
-PaddleSpeech依赖于paddlepaddle，安装可以参考[paddlepaddle官网](https://www.paddlepaddle.org.cn/)，根据自己机器的情况进行选择。这里给出cpu版本示例，其它版本大家可以根据自己机器的情况进行安装。
+PaddleSpeech 依赖于 paddlepaddle，安装可以参考[ paddlepaddle 官网](https://www.paddlepaddle.org.cn/)，根据自己机器的情况进行选择。这里给出 cpu 版本示例，其它版本大家可以根据自己机器的情况进行安装。
 
 ```shell
 pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
 ```
 
-PaddleSpeech快速安装方式有两种，一种是pip安装，一种是源码编译（推荐）。
+PaddleSpeech 快速安装方式有两种，一种是 pip 安装，一种是源码编译（推荐）。
 
 ### pip 安装
 ```shell
@@ -223,9 +223,9 @@ pip install .
 <a name="快速开始"></a>
 ## 快速开始
 
-安装完成后，开发者可以通过命令行或者Python快速开始，命令行模式下改变 `--input` 可以尝试用自己的音频或文本测试，支持16k wav格式音频。
+安装完成后，开发者可以通过命令行或者 Python 快速开始，命令行模式下改变 `--input` 可以尝试用自己的音频或文本测试，支持 16k wav 格式音频。
 
-你也可以在`aistudio`中快速体验 👉🏻[一键预测，快速上手Speech开发任务](https://aistudio.baidu.com/aistudio/projectdetail/4353348?sUid=2470186&shared=1&ts=1660878142250)。
+你也可以在 `aistudio` 中快速体验 👉🏻[一键预测，快速上手 Speech 开发任务](https://aistudio.baidu.com/aistudio/projectdetail/4353348?sUid=2470186&shared=1&ts=1660878142250)。
 
 测试音频示例下载
 ```shell
@@ -281,7 +281,7 @@ Python API 一键预测
 
 <details><summary>&emsp;适配多场景的开放领域声音分类工具</summary>
 
-基于AudioSet数据集527个类别的声音分类模型
+基于 AudioSet 数据集 527 个类别的声音分类模型
 
 命令行一键体验
 
@@ -350,7 +350,7 @@ Python API 一键预测
 
 <details><summary>&emsp;端到端英译中语音翻译工具</summary>
 
-使用预编译的kaldi相关工具，只支持在Ubuntu系统中体验
+使用预编译的 kaldi 相关工具，只支持在 Ubuntu 系统中体验
 
 命令行一键体验
 
@@ -370,12 +370,11 @@ python API 一键预测
 </details>
 
 
-
 <a name="快速使用服务"></a>
 ## 快速使用服务
 安装完成后，开发者可以通过命令行一键启动语音识别，语音合成，音频分类等多种服务。
 
-你可以在 AI Studio 中快速体验：[SpeechServer一键部署](https://aistudio.baidu.com/aistudio/projectdetail/4354592?sUid=2470186&shared=1&ts=1660878208266)
+你可以在 AI Studio 中快速体验：[SpeechServer 一键部署](https://aistudio.baidu.com/aistudio/projectdetail/4354592?sUid=2470186&shared=1&ts=1660878208266)
 
 **启动服务**     
 ```shell
@@ -554,9 +553,9 @@ PaddleSpeech 的 **语音合成** 主要包含三个模块：文本前端、声
     </tr>
     <tr>
       <td>FastSpeech2</td>
-      <td>LJSpeech / VCTK / CSMSC / AISHELL-3</td>
+      <td>LJSpeech / VCTK / CSMSC / AISHELL-3 / ZH_EN</td>
       <td>
-      <a href = "./examples/ljspeech/tts3">fastspeech2-ljspeech</a> / <a href = "./examples/vctk/tts3">fastspeech2-vctk</a> / <a href = "./examples/csmsc/tts3">fastspeech2-csmsc</a> / <a href = "./examples/aishell3/tts3">fastspeech2-aishell3</a>
+      <a href = "./examples/ljspeech/tts3">fastspeech2-ljspeech</a> / <a href = "./examples/vctk/tts3">fastspeech2-vctk</a> / <a href = "./examples/csmsc/tts3">fastspeech2-csmsc</a> / <a href = "./examples/aishell3/tts3">fastspeech2-aishell3</a> / <a href = "./examples/zh_en_tts/tts3">fastspeech2-zh_en</a>
       </td>
     </tr>
    <tr>

diff --git a/demos/text_to_speech/README.md b/demos/text_to_speech/README.md
@@ -45,7 +45,19 @@ The input of this demo should be a text of the specific language that can be pas
         You can change `spk_id` here.
         ```bash
         paddlespeech tts --am fastspeech2_vctk --voc pwgan_vctk --input "hello, boys" --lang en --spk_id 0
-        ```   
+        ```
+    - Chinese English Mixed, multi-speaker
+        You can change `spk_id` here.
+        ```bash
+        # The `am` must be `fastspeech2_mix`!
+        # The `lang` must be `mix`!
+        # The voc must be chinese datasets' voc now!
+        # spk 174 is csmcc, spk 175 is ljspeech
+        paddlespeech tts --am fastspeech2_mix --voc hifigan_csmsc --lang mix --input "热烈欢迎您在 Discussions 中提交问题，并在 Issues 中指出发现的 bug。此外，我们非常希望您参与到 Paddle Speech 的开发中！" --spk_id 174 --output mix_spk174.wav
+        paddlespeech tts --am fastspeech2_mix --voc hifigan_aishell3 --lang mix --input "热烈欢迎您在 Discussions 中提交问题，并在 Issues 中指出发现的 bug。此外，我们非常希望您参与到 Paddle Speech 的开发中！" --spk_id 174 --output mix_spk174_aishell3.wav
+        paddlespeech tts --am fastspeech2_mix --voc pwgan_csmsc --lang mix --input "我们的声学模型使用了 Fast Speech Two, 声码器使用了 Parallel Wave GAN and Hifi GAN." --spk_id 175 --output mix_spk175_pwgan.wav
+        paddlespeech tts --am fastspeech2_mix --voc hifigan_csmsc --lang mix --input "我们的声学模型使用了 Fast Speech Two, 声码器使用了 Parallel Wave GAN and Hifi GAN." --spk_id 175 --output mix_spk175.wav
+        ```
   Usage:
 
   ```bash
@@ -110,19 +122,29 @@ The input of this demo should be a text of the specific language that can be pas
 Here is a list of pretrained models released by PaddleSpeech that can be used by command and python API:
 
 - Acoustic model
-  | Model | Language
+  | Model | Language |
   | :--- | :---: |
-  | speedyspeech_csmsc| zh
-  | fastspeech2_csmsc| zh
-  | fastspeech2_aishell3| zh
-  | fastspeech2_ljspeech| en
-  | fastspeech2_vctk| en
+  |      speedyspeech_csmsc      |    zh    |
+  |      fastspeech2_csmsc       |    zh    |
+  |     fastspeech2_ljspeech     |    en    |
+  |     fastspeech2_aishell3     |    zh    |
+  |       fastspeech2_vctk       |    en    |
+  | fastspeech2_cnndecoder_csmsc |    zh    |
+  |       fastspeech2_mix        |   mix    |
+  |       tacotron2_csmsc        |    zh    |
+  |      tacotron2_ljspeech      |    en    |
 
 - Vocoder
-  | Model | Language
+  | Model | Language |
   | :--- | :---: |
-  | pwgan_csmsc| zh
-  | pwgan_aishell3| zh
-  | pwgan_ljspeech| en
-  | pwgan_vctk| en
-  | mb_melgan_csmsc| zh
+  |         pwgan_csmsc          |    zh    |
+  |        pwgan_ljspeech        |    en    |
+  |        pwgan_aishell3        |    zh    |
+  |          pwgan_vctk          |    en    |
+  |       mb_melgan_csmsc        |    zh    |
+  |      style_melgan_csmsc      |    zh    |
+  |        hifigan_csmsc         |    zh    |
+  |       hifigan_ljspeech       |    en    |
+  |       hifigan_aishell3       |    zh    |
+  |         hifigan_vctk         |    en    |
+  |        wavernn_csmsc         |    zh    |
diff --git a/demos/text_to_speech/README_cn.md b/demos/text_to_speech/README_cn.md
@@ -34,7 +34,7 @@
         ```
     - 中文， 多说话人
 
-        你可以改变 `spk_id` 。
+        你可以改变 `spk_id`。
         ```bash
         paddlespeech tts --am fastspeech2_aishell3 --voc pwgan_aishell3 --input "你好，欢迎使用百度飞桨深度学习框架！" --spk_id 0
         ```
@@ -45,10 +45,23 @@
         ```
     - 英文，多说话人
 
-        你可以改变 `spk_id` 。
+        你可以改变 `spk_id`。
         ```bash
         paddlespeech tts --am fastspeech2_vctk --voc pwgan_vctk --input "hello, boys" --lang en --spk_id 0
         ```
+    - 中英文混合，多说话人
+        你可以改变 `spk_id`。
+        ```bash
+        # The `am` must be `fastspeech2_mix`!
+        # The `lang` must be `mix`!
+        # The voc must be chinese datasets' voc now!
+        # spk 174 is csmcc, spk 175 is ljspeech
+        paddlespeech tts --am fastspeech2_mix --voc hifigan_csmsc --lang mix --input "热烈欢迎您在 Discussions 中提交问题，并在 Issues 中指出发现的 bug。此外，我们非常希望您参与到 Paddle Speech 的开发中！" --spk_id 174 --output mix_spk174.wav
+        paddlespeech tts --am fastspeech2_mix --voc hifigan_aishell3 --lang mix --input "热烈欢迎您在 Discussions 中提交问题，并在 Issues 中指出发现的 bug。此外，我们非常希望您参与到 Paddle Speech 的开发中！" --spk_id 174 --output mix_spk174_aishell3.wav
+        paddlespeech tts --am fastspeech2_mix --voc pwgan_csmsc --lang mix --input "我们的声学模型使用了 Fast Speech Two, 声码器使用了 Parallel Wave GAN and Hifi GAN." --spk_id 175 --output mix_spk175_pwgan.wav
+        paddlespeech tts --am fastspeech2_mix --voc hifigan_csmsc --lang mix --input "我们的声学模型使用了 Fast Speech Two, 声码器使用了 Parallel Wave GAN and Hifi GAN." --spk_id 175 --output mix_spk175.wav
+        ```
+
   使用方法：
 
   ```bash
@@ -112,19 +125,29 @@
 以下是 PaddleSpeech 提供的可以被命令行和 python API 使用的预训练模型列表：
 
 - 声学模型
-  | 模型 | 语言
+  | 模型 | 语言 |
   | :--- | :---: |
-  | speedyspeech_csmsc| zh
-  | fastspeech2_csmsc| zh
-  | fastspeech2_aishell3| zh
-  | fastspeech2_ljspeech| en
-  | fastspeech2_vctk| en
+  |      speedyspeech_csmsc      |    zh    |
+  |      fastspeech2_csmsc       |    zh    |
+  |     fastspeech2_ljspeech     |    en    |
+  |     fastspeech2_aishell3     |    zh    |
+  |       fastspeech2_vctk       |    en    |
+  | fastspeech2_cnndecoder_csmsc |    zh    |
+  |       fastspeech2_mix        |   mix    |
+  |       tacotron2_csmsc        |    zh    |
+  |      tacotron2_ljspeech      |    en    |
 
 - 声码器
-  | 模型 | 语言
+  | 模型 | 语言 |
   | :--- | :---: |
-  | pwgan_csmsc| zh
-  | pwgan_aishell3| zh
-  | pwgan_ljspeech| en
-  | pwgan_vctk| en
-  | mb_melgan_csmsc| zh
+  |         pwgan_csmsc          |    zh    |
+  |        pwgan_ljspeech        |    en    |
+  |        pwgan_aishell3        |    zh    |
+  |          pwgan_vctk          |    en    |
+  |       mb_melgan_csmsc        |    zh    |
+  |      style_melgan_csmsc      |    zh    |
+  |        hifigan_csmsc         |    zh    |
+  |       hifigan_ljspeech       |    en    |
+  |       hifigan_aishell3       |    zh    |
+  |         hifigan_vctk         |    en    |
+  |        wavernn_csmsc         |    zh    |