l2

Paused

App Files Files Community

darksakura commited on Oct 25, 2023

Commit

989bf29

•

1 Parent(s): 7b04756

Upload app.py

Browse files

Files changed (1) hide show

app.py +161 -71

app.py CHANGED Viewed

@@ -1,8 +1,5 @@
 # flake8: noqa: E402
-import sys, os
 import logging
 logging.getLogger("numba").setLevel(logging.WARNING)
 logging.getLogger("markdown_it").setLevel(logging.WARNING)
 logging.getLogger("urllib3").setLevel(logging.WARNING)
@@ -13,8 +10,13 @@ logging.basicConfig(
 )
 logger = logging.getLogger(__name__)
 import torch
 import argparse
 import commons
 import utils
@@ -24,9 +26,20 @@ from text import cleaned_text_to_sequence, get_bert
 from text.cleaner import clean_text
 import gradio as gr
 import webbrowser
-import numpy as np
 net_g = None
 if sys.platform == "darwin" and torch.backends.mps.is_available():
     device = "mps"
@@ -34,6 +47,35 @@ if sys.platform == "darwin" and torch.backends.mps.is_available():
 else:
     device = "cuda"
 def get_text(text, language_str, hps):
     norm_text, phone, tone, word2ph = clean_text(text, language_str)
@@ -53,7 +95,7 @@ def get_text(text, language_str, hps):
     if language_str == "ZH":
         bert = bert
         ja_bert = torch.zeros(768, len(phone))
-    elif language_str == "JP":
         ja_bert = bert
         bert = torch.zeros(1024, len(phone))
     else:
@@ -101,35 +143,77 @@ def infer(text, sdp_ratio, noise_scale, noise_scale_w, length_scale, sid, langua
             .numpy()
         )
         del x_tst, tones, lang_ids, bert, x_tst_lengths, speakers
-        torch.cuda.empty_cache()
         return audio
-def tts_fn(text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale, language):
-    slices = text.split("|")
-    audio_list = []
-    with torch.no_grad():
-        for slice in slices:
-            audio = infer(slice, sdp_ratio=sdp_ratio, noise_scale=noise_scale, noise_scale_w=noise_scale_w, length_scale=length_scale, sid=speaker, language=language)
-            audio_list.append(audio)
-            silence = np.zeros(hps.data.sampling_rate)  # 生成1秒的静音
-            audio_list.append(silence)  # 将静音添加到列表中
-    audio_concat = np.concatenate(audio_list)
-    return "Success", (hps.data.sampling_rate, audio_concat)
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument(
-        "-m", "--model", default="./logs/hanser/G_43500.pth", help="path of your model"
     )
     parser.add_argument(
         "-c",
         "--config",
-        default="./configs/config.json",
         help="path of your config file",
     )
     parser.add_argument(
-        "--share", default=False, help="make link public", action="store_true"
     )
     parser.add_argument(
         "-d", "--debug", action="store_true", help="enable DEBUG-LEVEL log"
@@ -165,53 +249,59 @@ if __name__ == "__main__":
     speakers = list(speaker_ids.keys())
     languages = ["ZH", "JP"]
     with gr.Blocks() as app:
-        with gr.Row():
-            with gr.Column():
-                gr.Markdown(value="""
-                                🤖 【AI 乃木坂46】在线语音合成 Bert-Vits2 🤖\n
-                                🎤 声音来源：乃木坂46 🎤\n
-                                ✅ 使用本模型请遵守中华人民共和国法律 ✅\n
-                                """)
-                text = gr.TextArea(
-                    label="Text",
-                    placeholder="Input Text Here",
-                    value="大家好，我是秋元康，今天给大家看看我的女儿们",
-                )
-                speaker = gr.Dropdown(
-                    choices=speakers, value=speakers[0], label="Speaker"
-                )
-                sdp_ratio = gr.Slider(
-                    minimum=0, maximum=1, value=0.2, step=0.1, label="SDP Ratio"
-                )
-                noise_scale = gr.Slider(
-                    minimum=0.1, maximum=2, value=0.6, step=0.1, label="Noise Scale"
-                )
-                noise_scale_w = gr.Slider(
-                    minimum=0.1, maximum=2, value=0.8, step=0.1, label="Noise Scale W"
-                )
-                length_scale = gr.Slider(
-                    minimum=0.1, maximum=2, value=1, step=0.1, label="Length Scale"
-                )
-                language = gr.Dropdown(
-                    choices=languages, value=languages[0], label="Language"
-                )
-                btn = gr.Button("Generate 生成!", variant="primary")
-            with gr.Column():
-                text_output = gr.Textbox(label="Message")
-                audio_output = gr.Audio(label="Output Audio")
-        btn.click(
-            tts_fn,
-            inputs=[
-                text,
-                speaker,
-                sdp_ratio,
-                noise_scale,
-                noise_scale_w,
-                length_scale,
-                language,
-            ],
-            outputs=[text_output, audio_output],
         )
-    app.launch(show_error=True)

 # flake8: noqa: E402
 import logging
 logging.getLogger("numba").setLevel(logging.WARNING)
 logging.getLogger("markdown_it").setLevel(logging.WARNING)
 logging.getLogger("urllib3").setLevel(logging.WARNING)
 )
 logger = logging.getLogger(__name__)
+import datetime
+import numpy as np
 import torch
+import zipfile
+import shutil
+import sys, os
+import json
 import argparse
 import commons
 import utils
 from text.cleaner import clean_text
 import gradio as gr
 import webbrowser
+import re
+from scipy.io.wavfile import write
 net_g = None
+BandList = {
+     "乃木坂46":["AKIMOTO_MANATSU" ,"ENDO_SAKURA" ,"ETO_MISA" ,"FUKAGAWA_MAI" ,"HARUKA_KUROMI" ,"HASHIMOTO_NANAMI" ,"HAYAKAWA_SEIRA" ,"HIGUCHI_HINA" ,"HORI_MIONA" ,"HOSHINO_MINAMI" ,
+                    "ICHINOSE_MIKU" ,"IKEDA_TERESA" ,"IKOMA_RINA" ,"IKUTA_ERIKA" ,"INOUE_NAGI" ,"INOUE_SAYURI" ,"IOKI_MAO" ,"ITO_JUNNA" ,"ITO_KARIN" ,"ITO_MARIKA" ,"ITO_RIRIA" ,"IWAMOTO_RENKA" ,
+                    "KAKEHASHI_SAYAKA" ,"KAKI_HARUKA" ,"KANAGAWA_SAYA" ,"KAWAGO_HINA" ,"KAWAMURA_MAHIRO" ,"KAWASAKI_SAKURA" ,"KITAGAWA_YURI" ,"KITANO_HINAKO" ,"KUBO_SHIORI" ,"MATSUMURA_SAYURI" ,
+                    "MIYU_MATSUO" ,"MUKAI_HAZUKI" ,"NAKADA_KANA" ,"NAKAMOTO_HIMEKA" ,"NAKAMURA_RENO" ,"NAKANISHI_ARUNO" ,"NAO_YUMIKI" ,"NISHINO_NANASE" ,"NOUJO_AMI" ,"OGAWA_AYA" ,"OKAMOTO_HINA" ,
+                    "OKUDA_IROHA" ,"OZONO_MOMOKO" ,"RIKA_SATO" ,"RUNA_HAYASHI" ,"SAGARA_IORI" ,"SAITO_ASUKA" ,"SAITO_CHIHARU" ,"SAKAGUCHI_TAMAMI" ,"SAKURAI_REIKA" ,"SASAKI_KOTOKO" ,"SATO_KAEDE" ,
+                    "SATO_YUURI" ,"SEIMIYA_REI" ,"SHIBATA_YUNA" ,"SHINUCHI_MAI" ,"SHIRAISHI_MAI" ,"SUGAWARA_SATSUKI" ,"SUZUKI_AYANE" ,"TAKAYAMA_KAZUMI" ,"TAMURA_MAYU" ,"TERADA_RANZE",
+                    "TOMISATO_NAO" ,"TSUTSUI_AYAME" ,"UMEZAWA_MINAMI" ,"WADA_MAAYA" ,"WAKATSUKI_YUMI" ,"WATANABE_MIRIA" ,"YAKUBO_MIO" ,"YAMASHITA_MIZUKI" ,"YAMAZAKI_RENA" ,"YODA_YUUKI" ,"YOSHIDA_AYANO_CHRISTIE"
+                   ],
+}
 if sys.platform == "darwin" and torch.backends.mps.is_available():
     device = "mps"
 else:
     device = "cuda"
+def is_japanese(string):
+        for ch in string:
+            if ord(ch) > 0x3040 and ord(ch) < 0x30FF:
+                return True
+        return False
+def extrac(text):
+    text = re.sub("<[^>]*>","",text)
+    result_list = re.split(r'\n', text)
+    final_list = []
+    for i in result_list:
+        i = i.replace('\n','').replace(' ','')
+        #Current length of single sentence: 20
+        if len(i)>1:
+            if len(i) > 20:
+                try:
+                    cur_list = re.split(r'。|！', i)
+                    for i in cur_list:
+                        if len(i)>1:
+                            final_list.append(i+'。')
+                except:
+                    pass
+            else:
+                final_list.append(i)
+            '''
+        final_list.append(i)
+        '''
+    final_list = [x for x in final_list if x != '']
+    return final_list
 def get_text(text, language_str, hps):
     norm_text, phone, tone, word2ph = clean_text(text, language_str)
     if language_str == "ZH":
         bert = bert
         ja_bert = torch.zeros(768, len(phone))
+    elif language_str == "JA":
         ja_bert = bert
         bert = torch.zeros(1024, len(phone))
     else:
             .numpy()
         )
         del x_tst, tones, lang_ids, bert, x_tst_lengths, speakers
         return audio
+def tts_fn(
+    text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,LongSentence
+):
+    if not LongSentence:
+        with torch.no_grad():
+            audio = infer(
+                text,
+                sdp_ratio=sdp_ratio,
+                noise_scale=noise_scale,
+                noise_scale_w=noise_scale_w,
+                length_scale=length_scale,
+                sid=speaker,
+                language= "JP" if is_japanese(text) else "ZH",
+            )
+            torch.cuda.empty_cache()
+        return (hps.data.sampling_rate, audio)
+    else:
+        audiopath = 'voice.wav'
+        a = ['【','[','(','（']
+        b = ['】',']',')','）']
+        for i in a:
+            text = text.replace(i,'<')
+        for i in b:
+            text = text.replace(i,'>')
+        final_list = extrac(text.replace('“','').replace('”',''))
+        audio_fin = []
+        for sentence in final_list:
+            with torch.no_grad():
+                audio = infer(
+                    sentence,
+                    sdp_ratio=sdp_ratio,
+                    noise_scale=noise_scale,
+                    noise_scale_w=noise_scale_w,
+                    length_scale=length_scale,
+                    sid=speaker,
+                    language= "JP" if is_japanese(text) else "ZH",
+                )
+            audio_fin.append(audio)
+        return (hps.data.sampling_rate, np.concatenate(audio_fin))
+def split_into_sentences(text):
+    """将文本分割为句子，基于中文的标点符号"""
+    sentences = re.split(r'(?<=[。！？…\n])', text)
+    return [sentence.strip() for sentence in sentences if sentence]
+def seconds_to_ass_time(seconds):
+    """将秒数转换为ASS时间格式"""
+    hours = int(seconds / 3600)
+    minutes = int((seconds % 3600) / 60)
+    seconds = int(seconds) % 60
+    milliseconds = int((seconds - int(seconds)) * 1000)
+    return "{:01d}:{:02d}:{:02d}.{:02d}".format(hours, minutes, seconds, int(milliseconds / 10))
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument(
+        "-m", "--model", default="./Nogizaka46/vits2.pth", help="path of your model"
     )
     parser.add_argument(
         "-c",
         "--config",
+        default="./Nogizaka46/config.json",
         help="path of your config file",
     )
     parser.add_argument(
+        "--share", default=True, help="make link public", action="store_true"
     )
     parser.add_argument(
         "-d", "--debug", action="store_true", help="enable DEBUG-LEVEL log"
     speakers = list(speaker_ids.keys())
     languages = ["ZH", "JP"]
     with gr.Blocks() as app:
+        gr.Markdown(
+             f"【乃木坂46全员TTS】,使用本模型请严格遵守法律法规!\n 发布二创作品请标注本项目网址<a href='https://sovits4-dev.nogizaka46.cc/'>sovits4-dev.nogizaka46.cc</a>\n"
         )
+        for band in BandList:
+            with gr.TabItem(band):
+                for name in BandList[band]:
+                    with gr.TabItem(name):
+                        with gr.Row():
+                            #with gr.Column():
+                                #with gr.Row():
+                                    #gr.Markdown(
+                                        #'<div align="center">'
+                                        #f'<img style="width:auto;height:400px;" src="file/image/SAITO_ASUKA.png">'
+                                        #'</div>'
+                                    #)
+                            with gr.Column():
+                                text = gr.TextArea(
+                                    label="输入纯日语或者中文",
+                                    placeholder="输入纯日语或者中文",
+                                    value="純粋な日本語または中国語を入力してください。",
+                                )
+                                btn = gr.Button("点击生成", variant="primary")
+                                audio_output = gr.Audio(label="Output Audio")
+                                LongSentence = gr.Checkbox(value=True, label="Generate LongSentence")
+                                with gr.Accordion(label="TTS设定", open=True):
+                                    sdp_ratio = gr.Slider(
+                                    minimum=0, maximum=1, value=0.2, step=0.01, label="SDP/DP混合比"
+                                    )
+                                    noise_scale = gr.Slider(
+                                        minimum=0.1, maximum=2, value=0.6, step=0.01, label="感情调节"
+                                    )
+                                    noise_scale_w = gr.Slider(
+                                        minimum=0.1, maximum=2, value=0.8, step=0.01, label="音素长度"
+                                    )
+                                    length_scale = gr.Slider(
+                                        minimum=0.1, maximum=2, value=1, step=0.01, label="生成长度"
+                                    )
+                                    speaker = gr.Dropdown(
+                                        choices=speakers, value=name, label="说话人"
+                                    )
+                    btn.click(
+                        tts_fn,
+                        inputs=[
+                            text,
+                            speaker,
+                            sdp_ratio,
+                            noise_scale,
+                            noise_scale_w,
+                            length_scale,
+                            LongSentence,
+                        ],
+                        outputs=[audio_output],
+                    )
+app.launch()