Spaces:

emirhanbilgic
/

Text-to-speech-Turkish

Running on Zero

App Files Files Community

emirhanbilgic commited on Aug 29

Commit

29a7123

•

1 Parent(s): 05020c4

Update app.py

Browse files

Files changed (1) hide show

app.py +62 -4

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import os
-import gradio as gr
 import torch
 from datasets import load_dataset
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 import soundfile as sf
@@ -9,6 +10,62 @@ import spaces
 device = "cuda" if torch.cuda.is_available() else "cpu"
 def load_models_and_data():
     model_name = "microsoft/speecht5_tts"
     processor = SpeechT5Processor.from_pretrained(model_name)
@@ -34,10 +91,11 @@ def create_speaker_embedding(waveform):
 @spaces.GPU(duration = 60)
 def text_to_speech(text, waveform):
     speaker_embeddings = create_speaker_embedding(waveform)
     speaker_embeddings = torch.tensor(speaker_embeddings).unsqueeze(0).to(device)
-    inputs = processor(text=text, return_tensors="pt").to(device)
     speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
     sf.write("output.wav", speech.cpu().numpy(), samplerate=16000)
     return "output.wav"
@@ -46,11 +104,11 @@ iface = gr.Interface(
     fn=text_to_speech,
     inputs=[
         gr.Textbox(label="Enter Turkish text to convert to speech"),
-        gr.Audio(source="upload", type="numpy", label="Upload Speaker Audio"),
     ],
     outputs=gr.Audio(label="Generated Speech"),
     title="Turkish SpeechT5 Text-to-Speech Demo with Custom Speaker Embeddings",
-    description="Enter Turkish text and upload an audio file to generate speech using the fine-tuned SpeechT5 model with custom speaker embeddings."
 )
 iface.launch()

 import os
+import re
 import torch
+import gradio as gr
 from datasets import load_dataset
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 import soundfile as sf
 device = "cuda" if torch.cuda.is_available() else "cpu"
+replacements = [
+    ("â", "a"),
+    ("ç", "ch"),
+    ("ğ", "gh"),
+    ("ı", "i"),
+    ("î", "i"),
+    ("ö", "oe"),
+    ("ş", "sh"),
+    ("ü", "ue"),
+    ("û", "u"),
+]
+number_words = {
+    0: "sıfır", 1: "bir", 2: "iki", 3: "üç", 4: "dört", 5: "beş", 6: "altı", 7: "yedi", 8: "sekiz", 9: "dokuz",
+    10: "on", 11: "on bir", 12: "on iki", 13: "on üç", 14: "on dört", 15: "on beş", 16: "on altı", 17: "on yedi",
+    18: "on sekiz", 19: "on dokuz", 20: "yirmi", 30: "otuz", 40: "kırk", 50: "elli", 60: "altmış", 70: "yetmiş",
+    80: "seksen", 90: "doksan", 100: "yüz", 1000: "bin"
+}
+def number_to_words(number):
+    if number < 20:
+        return number_words[number]
+    elif number < 100:
+        tens, unit = divmod(number, 10)
+        return number_words[tens * 10] + (" " + number_words[unit] if unit else "")
+    elif number < 1000:
+        hundreds, remainder = divmod(number, 100)
+        return (number_words[hundreds] + " yüz" if hundreds > 1 else "yüz") + (" " + number_to_words(remainder) if remainder else "")
+    elif number < 1000000:
+        thousands, remainder = divmod(number, 1000)
+        return (number_to_words(thousands) + " bin" if thousands > 1 else "bin") + (" " + number_to_words(remainder) if remainder else "")
+    elif number < 1000000000:
+        millions, remainder = divmod(number, 1000000)
+        return number_to_words(millions) + " milyon" + (" " + number_to_words(remainder) if remainder else "")
+    elif number < 1000000000000:
+        billions, remainder = divmod(number, 1000000000)
+        return number_to_words(billions) + " milyar" + (" " + number_to_words(remainder) if remainder else "")
+    else:
+        return str(number)
+def replace_numbers_with_words(text):
+    def replace(match):
+        number = int(match.group())
+        return number_to_words(number)
+    return re.sub(r'\b\d+\b', replace, text)
+def cleanup_text(text):
+    for old, new in replacements:
+        text = text.replace(old, new)
+    return text
+def normalize_text(text):
+    text = replace_numbers_with_words(text)
+    text = cleanup_text(text)
+    return text
 def load_models_and_data():
     model_name = "microsoft/speecht5_tts"
     processor = SpeechT5Processor.from_pretrained(model_name)
 @spaces.GPU(duration = 60)
 def text_to_speech(text, waveform):
+    final_text = normalize_text(text)
     speaker_embeddings = create_speaker_embedding(waveform)
     speaker_embeddings = torch.tensor(speaker_embeddings).unsqueeze(0).to(device)
+    inputs = processor(text=final_text, return_tensors="pt").to(device)
     speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
     sf.write("output.wav", speech.cpu().numpy(), samplerate=16000)
     return "output.wav"
     fn=text_to_speech,
     inputs=[
         gr.Textbox(label="Enter Turkish text to convert to speech"),
+        gr.Audio(type="numpy", label="Upload Speaker Audio"),  # Updated this line
     ],
     outputs=gr.Audio(label="Generated Speech"),
     title="Turkish SpeechT5 Text-to-Speech Demo with Custom Speaker Embeddings",
+    description="Enter Turkish text and upload an audio file to generate speech using the fine-tuned SpeechT5 model with custom speaker embeddings. The text is normalized with custom replacements and number-to-word conversions."
 )
 iface.launch()