seamless_m4t

Runtime error

App Files Files Community

MiKAI13

reach-vb HF staff commited on Sep 2, 2023

Commit

5ed6c4c

•

0 Parent(s):

Duplicate from facebook/seamless_m4t

Browse files

Co-authored-by: Vaibhav Srivastav <[email protected]>

Files changed (9) hide show

.gitattributes +36 -0
Dockerfile +56 -0
README.md +12 -0
app.py +434 -0
assets/sample_input.mp3 +3 -0
assets/sample_input_2.mp3 +3 -0
lang_list.py +254 -0
requirements.txt +6 -0
style.css +16 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,36 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+*.mp3 filter=lfs diff=lfs merge=lfs -text

Dockerfile ADDED Viewed

	@@ -0,0 +1,56 @@

+FROM nvidia/cuda:11.7.1-cudnn8-devel-ubuntu22.04
+ENV DEBIAN_FRONTEND=noninteractive
+RUN apt-get update && \
+    apt-get upgrade -y && \
+    apt-get install -y --no-install-recommends \
+    git \
+    git-lfs \
+    wget \
+    curl \
+    # python build dependencies \
+    build-essential \
+    libssl-dev \
+    zlib1g-dev \
+    libbz2-dev \
+    libreadline-dev \
+    libsqlite3-dev \
+    libncursesw5-dev \
+    xz-utils \
+    tk-dev \
+    libxml2-dev \
+    libxmlsec1-dev \
+    libffi-dev \
+    liblzma-dev \
+    # gradio dependencies \
+    ffmpeg \
+    # fairseq2 dependencies \
+    libsndfile-dev && \
+    apt-get clean && \
+    rm -rf /var/lib/apt/lists/*
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:${PATH}
+WORKDIR ${HOME}/app
+RUN curl https://pyenv.run | bash
+ENV PATH=${HOME}/.pyenv/shims:${HOME}/.pyenv/bin:${PATH}
+ARG PYTHON_VERSION=3.10.12
+RUN pyenv install ${PYTHON_VERSION} && \
+    pyenv global ${PYTHON_VERSION} && \
+    pyenv rehash && \
+    pip install --no-cache-dir -U pip setuptools wheel
+COPY --chown=1000 ./requirements.txt /tmp/requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /tmp/requirements.txt
+COPY --chown=1000 . ${HOME}/app
+ENV PYTHONPATH=${HOME}/app \
+    PYTHONUNBUFFERED=1 \
+    GRADIO_ALLOW_FLAGGING=never \
+    GRADIO_NUM_PORTS=1 \
+    GRADIO_SERVER_NAME=0.0.0.0 \
+    GRADIO_THEME=huggingface \
+    SYSTEM=spaces
+CMD ["python", "app.py"]

README.md ADDED Viewed

	@@ -0,0 +1,12 @@

+---
+title: Seamless M4T
+emoji: 📞
+colorFrom: blue
+colorTo: yellow
+sdk: docker
+pinned: false
+suggested_hardware: t4-medium
+duplicated_from: facebook/seamless_m4t
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,434 @@

+from __future__ import annotations
+import os
+import gradio as gr
+import numpy as np
+import torch
+import torchaudio
+from seamless_communication.models.inference.translator import Translator
+from lang_list import (
+    LANGUAGE_NAME_TO_CODE,
+    S2ST_TARGET_LANGUAGE_NAMES,
+    S2TT_TARGET_LANGUAGE_NAMES,
+    T2TT_TARGET_LANGUAGE_NAMES,
+    TEXT_SOURCE_LANGUAGE_NAMES,
+)
+DESCRIPTION = """# SeamlessM4T
+[SeamlessM4T](https://github.com/facebookresearch/seamless_communication) is designed to provide high-quality
+translation, allowing people from different linguistic communities to communicate effortlessly through speech and text.
+This unified model enables multiple tasks like Speech-to-Speech (S2ST), Speech-to-Text (S2TT), Text-to-Speech (T2ST)
+translation and more, without relying on multiple separate models.
+"""
+CACHE_EXAMPLES = os.getenv("CACHE_EXAMPLES") == "1"
+TASK_NAMES = [
+    "S2ST (Speech to Speech translation)",
+    "S2TT (Speech to Text translation)",
+    "T2ST (Text to Speech translation)",
+    "T2TT (Text to Text translation)",
+    "ASR (Automatic Speech Recognition)",
+]
+AUDIO_SAMPLE_RATE = 16000.0
+MAX_INPUT_AUDIO_LENGTH = 60  # in seconds
+DEFAULT_TARGET_LANGUAGE = "French"
+device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+translator = Translator(
+    model_name_or_card="seamlessM4T_large",
+    vocoder_name_or_card="vocoder_36langs",
+    device=device,
+    sample_rate=AUDIO_SAMPLE_RATE,
+)
+def predict(
+    task_name: str,
+    audio_source: str,
+    input_audio_mic: str | None,
+    input_audio_file: str | None,
+    input_text: str | None,
+    source_language: str | None,
+    target_language: str,
+) -> tuple[tuple[int, np.ndarray] | None, str]:
+    task_name = task_name.split()[0]
+    source_language_code = LANGUAGE_NAME_TO_CODE[source_language] if source_language else None
+    target_language_code = LANGUAGE_NAME_TO_CODE[target_language]
+    if task_name in ["S2ST", "S2TT", "ASR"]:
+        if audio_source == "microphone":
+            input_data = input_audio_mic
+        else:
+            input_data = input_audio_file
+        arr, org_sr = torchaudio.load(input_data)
+        new_arr = torchaudio.functional.resample(arr, orig_freq=org_sr, new_freq=AUDIO_SAMPLE_RATE)
+        max_length = int(MAX_INPUT_AUDIO_LENGTH * AUDIO_SAMPLE_RATE)
+        if new_arr.shape[1] > max_length:
+            new_arr = new_arr[:, :max_length]
+            gr.Warning(f"Input audio is too long. Only the first {MAX_INPUT_AUDIO_LENGTH} seconds is used.")
+        torchaudio.save(input_data, new_arr, sample_rate=int(AUDIO_SAMPLE_RATE))
+    else:
+        input_data = input_text
+    text_out, wav, sr = translator.predict(
+        input=input_data,
+        task_str=task_name,
+        tgt_lang=target_language_code,
+        src_lang=source_language_code,
+        ngram_filtering=True,
+    )
+    if task_name in ["S2ST", "T2ST"]:
+        return (sr, wav.cpu().detach().numpy()), text_out
+    else:
+        return None, text_out
+def process_s2st_example(input_audio_file: str, target_language: str) -> tuple[tuple[int, np.ndarray] | None, str]:
+    return predict(
+        task_name="S2ST",
+        audio_source="file",
+        input_audio_mic=None,
+        input_audio_file=input_audio_file,
+        input_text=None,
+        source_language=None,
+        target_language=target_language,
+    )
+def process_s2tt_example(input_audio_file: str, target_language: str) -> tuple[tuple[int, np.ndarray] | None, str]:
+    return predict(
+        task_name="S2TT",
+        audio_source="file",
+        input_audio_mic=None,
+        input_audio_file=input_audio_file,
+        input_text=None,
+        source_language=None,
+        target_language=target_language,
+    )
+def process_t2st_example(
+    input_text: str, source_language: str, target_language: str
+) -> tuple[tuple[int, np.ndarray] | None, str]:
+    return predict(
+        task_name="T2ST",
+        audio_source="",
+        input_audio_mic=None,
+        input_audio_file=None,
+        input_text=input_text,
+        source_language=source_language,
+        target_language=target_language,
+    )
+def process_t2tt_example(
+    input_text: str, source_language: str, target_language: str
+) -> tuple[tuple[int, np.ndarray] | None, str]:
+    return predict(
+        task_name="T2TT",
+        audio_source="",
+        input_audio_mic=None,
+        input_audio_file=None,
+        input_text=input_text,
+        source_language=source_language,
+        target_language=target_language,
+    )
+def process_asr_example(input_audio_file: str, target_language: str) -> tuple[tuple[int, np.ndarray] | None, str]:
+    return predict(
+        task_name="ASR",
+        audio_source="file",
+        input_audio_mic=None,
+        input_audio_file=input_audio_file,
+        input_text=None,
+        source_language=None,
+        target_language=target_language,
+    )
+def update_audio_ui(audio_source: str) -> tuple[dict, dict]:
+    mic = audio_source == "microphone"
+    return (
+        gr.update(visible=mic, value=None),  # input_audio_mic
+        gr.update(visible=not mic, value=None),  # input_audio_file
+    )
+def update_input_ui(task_name: str) -> tuple[dict, dict, dict, dict]:
+    task_name = task_name.split()[0]
+    if task_name == "S2ST":
+        return (
+            gr.update(visible=True),  # audio_box
+            gr.update(visible=False),  # input_text
+            gr.update(visible=False),  # source_language
+            gr.update(
+                visible=True, choices=S2ST_TARGET_LANGUAGE_NAMES, value=DEFAULT_TARGET_LANGUAGE
+            ),  # target_language
+        )
+    elif task_name == "S2TT":
+        return (
+            gr.update(visible=True),  # audio_box
+            gr.update(visible=False),  # input_text
+            gr.update(visible=False),  # source_language
+            gr.update(
+                visible=True, choices=S2TT_TARGET_LANGUAGE_NAMES, value=DEFAULT_TARGET_LANGUAGE
+            ),  # target_language
+        )
+    elif task_name == "T2ST":
+        return (
+            gr.update(visible=False),  # audio_box
+            gr.update(visible=True),  # input_text
+            gr.update(visible=True),  # source_language
+            gr.update(
+                visible=True, choices=S2ST_TARGET_LANGUAGE_NAMES, value=DEFAULT_TARGET_LANGUAGE
+            ),  # target_language
+        )
+    elif task_name == "T2TT":
+        return (
+            gr.update(visible=False),  # audio_box
+            gr.update(visible=True),  # input_text
+            gr.update(visible=True),  # source_language
+            gr.update(
+                visible=True, choices=T2TT_TARGET_LANGUAGE_NAMES, value=DEFAULT_TARGET_LANGUAGE
+            ),  # target_language
+        )
+    elif task_name == "ASR":
+        return (
+            gr.update(visible=True),  # audio_box
+            gr.update(visible=False),  # input_text
+            gr.update(visible=False),  # source_language
+            gr.update(
+                visible=True, choices=S2TT_TARGET_LANGUAGE_NAMES, value=DEFAULT_TARGET_LANGUAGE
+            ),  # target_language
+        )
+    else:
+        raise ValueError(f"Unknown task: {task_name}")
+def update_output_ui(task_name: str) -> tuple[dict, dict]:
+    task_name = task_name.split()[0]
+    if task_name in ["S2ST", "T2ST"]:
+        return (
+            gr.update(visible=True, value=None),  # output_audio
+            gr.update(value=None),  # output_text
+        )
+    elif task_name in ["S2TT", "T2TT", "ASR"]:
+        return (
+            gr.update(visible=False, value=None),  # output_audio
+            gr.update(value=None),  # output_text
+        )
+    else:
+        raise ValueError(f"Unknown task: {task_name}")
+def update_example_ui(task_name: str) -> tuple[dict, dict, dict, dict, dict]:
+    task_name = task_name.split()[0]
+    return (
+        gr.update(visible=task_name == "S2ST"),  # s2st_example_row
+        gr.update(visible=task_name == "S2TT"),  # s2tt_example_row
+        gr.update(visible=task_name == "T2ST"),  # t2st_example_row
+        gr.update(visible=task_name == "T2TT"),  # t2tt_example_row
+        gr.update(visible=task_name == "ASR"),  # asr_example_row
+    )
+with gr.Blocks(css="style.css") as demo:
+    gr.Markdown(DESCRIPTION)
+    gr.DuplicateButton(
+        value="Duplicate Space for private use",
+        elem_id="duplicate-button",
+        visible=os.getenv("SHOW_DUPLICATE_BUTTON") == "1",
+    )
+    with gr.Group():
+        task_name = gr.Dropdown(
+            label="Task",
+            choices=TASK_NAMES,
+            value=TASK_NAMES[0],
+        )
+        with gr.Row():
+            source_language = gr.Dropdown(
+                label="Source language",
+                choices=TEXT_SOURCE_LANGUAGE_NAMES,
+                value="English",
+                visible=False,
+            )
+            target_language = gr.Dropdown(
+                label="Target language",
+                choices=S2ST_TARGET_LANGUAGE_NAMES,
+                value=DEFAULT_TARGET_LANGUAGE,
+            )
+        with gr.Row() as audio_box:
+            audio_source = gr.Radio(
+                label="Audio source",
+                choices=["file", "microphone"],
+                value="file",
+            )
+            input_audio_mic = gr.Audio(
+                label="Input speech",
+                type="filepath",
+                source="microphone",
+                visible=False,
+            )
+            input_audio_file = gr.Audio(
+                label="Input speech",
+                type="filepath",
+                source="upload",
+                visible=True,
+            )
+        input_text = gr.Textbox(label="Input text", visible=False)
+        btn = gr.Button("Translate")
+        with gr.Column():
+            output_audio = gr.Audio(
+                label="Translated speech",
+                autoplay=False,
+                streaming=False,
+                type="numpy",
+            )
+            output_text = gr.Textbox(label="Translated text")
+    with gr.Row(visible=True) as s2st_example_row:
+        s2st_examples = gr.Examples(
+            examples=[
+                ["assets/sample_input.mp3", "French"],
+                ["assets/sample_input.mp3", "Mandarin Chinese"],
+                ["assets/sample_input_2.mp3", "Hindi"],
+                ["assets/sample_input_2.mp3", "Spanish"],
+            ],
+            inputs=[input_audio_file, target_language],
+            outputs=[output_audio, output_text],
+            fn=process_s2st_example,
+            cache_examples=CACHE_EXAMPLES,
+        )
+    with gr.Row(visible=False) as s2tt_example_row:
+        s2tt_examples = gr.Examples(
+            examples=[
+                ["assets/sample_input.mp3", "French"],
+                ["assets/sample_input.mp3", "Mandarin Chinese"],
+                ["assets/sample_input_2.mp3", "Hindi"],
+                ["assets/sample_input_2.mp3", "Spanish"],
+            ],
+            inputs=[input_audio_file, target_language],
+            outputs=[output_audio, output_text],
+            fn=process_s2tt_example,
+            cache_examples=CACHE_EXAMPLES,
+        )
+    with gr.Row(visible=False) as t2st_example_row:
+        t2st_examples = gr.Examples(
+            examples=[
+                ["My favorite animal is the elephant.", "English", "French"],
+                ["My favorite animal is the elephant.", "English", "Mandarin Chinese"],
+                [
+                    "Meta AI's Seamless M4T model is democratising spoken communication across language barriers",
+                    "English",
+                    "Hindi",
+                ],
+                [
+                    "Meta AI's Seamless M4T model is democratising spoken communication across language barriers",
+                    "English",
+                    "Spanish",
+                ],
+            ],
+            inputs=[input_text, source_language, target_language],
+            outputs=[output_audio, output_text],
+            fn=process_t2st_example,
+            cache_examples=CACHE_EXAMPLES,
+        )
+    with gr.Row(visible=False) as t2tt_example_row:
+        t2tt_examples = gr.Examples(
+            examples=[
+                ["My favorite animal is the elephant.", "English", "French"],
+                ["My favorite animal is the elephant.", "English", "Mandarin Chinese"],
+                [
+                    "Meta AI's Seamless M4T model is democratising spoken communication across language barriers",
+                    "English",
+                    "Hindi",
+                ],
+                [
+                    "Meta AI's Seamless M4T model is democratising spoken communication across language barriers",
+                    "English",
+                    "Spanish",
+                ],
+            ],
+            inputs=[input_text, source_language, target_language],
+            outputs=[output_audio, output_text],
+            fn=process_t2tt_example,
+            cache_examples=CACHE_EXAMPLES,
+        )
+    with gr.Row(visible=False) as asr_example_row:
+        asr_examples = gr.Examples(
+            examples=[
+                ["assets/sample_input.mp3", "English"],
+                ["assets/sample_input_2.mp3", "English"],
+            ],
+            inputs=[input_audio_file, target_language],
+            outputs=[output_audio, output_text],
+            fn=process_asr_example,
+            cache_examples=CACHE_EXAMPLES,
+        )
+    audio_source.change(
+        fn=update_audio_ui,
+        inputs=audio_source,
+        outputs=[
+            input_audio_mic,
+            input_audio_file,
+        ],
+        queue=False,
+        api_name=False,
+    )
+    task_name.change(
+        fn=update_input_ui,
+        inputs=task_name,
+        outputs=[
+            audio_box,
+            input_text,
+            source_language,
+            target_language,
+        ],
+        queue=False,
+        api_name=False,
+    ).then(
+        fn=update_output_ui,
+        inputs=task_name,
+        outputs=[output_audio, output_text],
+        queue=False,
+        api_name=False,
+    ).then(
+        fn=update_example_ui,
+        inputs=task_name,
+        outputs=[
+            s2st_example_row,
+            s2tt_example_row,
+            t2st_example_row,
+            t2tt_example_row,
+            asr_example_row,
+        ],
+        queue=False,
+        api_name=False,
+    )
+    btn.click(
+        fn=predict,
+        inputs=[
+            task_name,
+            audio_source,
+            input_audio_mic,
+            input_audio_file,
+            input_text,
+            source_language,
+            target_language,
+        ],
+        outputs=[output_audio, output_text],
+        api_name="run",
+    )
+demo.queue(max_size=50).launch()
+# Linking models to the space
+# 'facebook/seamless-m4t-large'
+# 'facebook/SONAR'

assets/sample_input.mp3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:982369687f05bf8fcd6923c4ffcccda0fcce92f44eceae5a9d00a431f07ea87b
+size 10272

assets/sample_input_2.mp3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a505a4641e3f5f0ddec9508832793aa20e63d2545530b66bc04a9bd19a742e6
+size 30624

lang_list.py ADDED Viewed

	@@ -0,0 +1,254 @@

+# Language dict
+language_code_to_name = {
+    "afr": "Afrikaans",
+    "amh": "Amharic",
+    "arb": "Modern Standard Arabic",
+    "ary": "Moroccan Arabic",
+    "arz": "Egyptian Arabic",
+    "asm": "Assamese",
+    "ast": "Asturian",
+    "azj": "North Azerbaijani",
+    "bel": "Belarusian",
+    "ben": "Bengali",
+    "bos": "Bosnian",
+    "bul": "Bulgarian",
+    "cat": "Catalan",
+    "ceb": "Cebuano",
+    "ces": "Czech",
+    "ckb": "Central Kurdish",
+    "cmn": "Mandarin Chinese",
+    "cym": "Welsh",
+    "dan": "Danish",
+    "deu": "German",
+    "ell": "Greek",
+    "eng": "English",
+    "est": "Estonian",
+    "eus": "Basque",
+    "fin": "Finnish",
+    "fra": "French",
+    "gaz": "West Central Oromo",
+    "gle": "Irish",
+    "glg": "Galician",
+    "guj": "Gujarati",
+    "heb": "Hebrew",
+    "hin": "Hindi",
+    "hrv": "Croatian",
+    "hun": "Hungarian",
+    "hye": "Armenian",
+    "ibo": "Igbo",
+    "ind": "Indonesian",
+    "isl": "Icelandic",
+    "ita": "Italian",
+    "jav": "Javanese",
+    "jpn": "Japanese",
+    "kam": "Kamba",
+    "kan": "Kannada",
+    "kat": "Georgian",
+    "kaz": "Kazakh",
+    "kea": "Kabuverdianu",
+    "khk": "Halh Mongolian",
+    "khm": "Khmer",
+    "kir": "Kyrgyz",
+    "kor": "Korean",
+    "lao": "Lao",
+    "lit": "Lithuanian",
+    "ltz": "Luxembourgish",
+    "lug": "Ganda",
+    "luo": "Luo",
+    "lvs": "Standard Latvian",
+    "mai": "Maithili",
+    "mal": "Malayalam",
+    "mar": "Marathi",
+    "mkd": "Macedonian",
+    "mlt": "Maltese",
+    "mni": "Meitei",
+    "mya": "Burmese",
+    "nld": "Dutch",
+    "nno": "Norwegian Nynorsk",
+    "nob": "Norwegian Bokm\u00e5l",
+    "npi": "Nepali",
+    "nya": "Nyanja",
+    "oci": "Occitan",
+    "ory": "Odia",
+    "pan": "Punjabi",
+    "pbt": "Southern Pashto",
+    "pes": "Western Persian",
+    "pol": "Polish",
+    "por": "Portuguese",
+    "ron": "Romanian",
+    "rus": "Russian",
+    "slk": "Slovak",
+    "slv": "Slovenian",
+    "sna": "Shona",
+    "snd": "Sindhi",
+    "som": "Somali",
+    "spa": "Spanish",
+    "srp": "Serbian",
+    "swe": "Swedish",
+    "swh": "Swahili",
+    "tam": "Tamil",
+    "tel": "Telugu",
+    "tgk": "Tajik",
+    "tgl": "Tagalog",
+    "tha": "Thai",
+    "tur": "Turkish",
+    "ukr": "Ukrainian",
+    "urd": "Urdu",
+    "uzn": "Northern Uzbek",
+    "vie": "Vietnamese",
+    "xho": "Xhosa",
+    "yor": "Yoruba",
+    "yue": "Cantonese",
+    "zlm": "Colloquial Malay",
+    "zsm": "Standard Malay",
+    "zul": "Zulu",
+}
+LANGUAGE_NAME_TO_CODE = {v: k for k, v in language_code_to_name.items()}
+# Source langs: S2ST / S2TT / ASR don't need source lang
+# T2TT / T2ST use this
+text_source_language_codes = [
+    "afr",
+    "amh",
+    "arb",
+    "ary",
+    "arz",
+    "asm",
+    "azj",
+    "bel",
+    "ben",
+    "bos",
+    "bul",
+    "cat",
+    "ceb",
+    "ces",
+    "ckb",
+    "cmn",
+    "cym",
+    "dan",
+    "deu",
+    "ell",
+    "eng",
+    "est",
+    "eus",
+    "fin",
+    "fra",
+    "gaz",
+    "gle",
+    "glg",
+    "guj",
+    "heb",
+    "hin",
+    "hrv",
+    "hun",
+    "hye",
+    "ibo",
+    "ind",
+    "isl",
+    "ita",
+    "jav",
+    "jpn",
+    "kan",
+    "kat",
+    "kaz",
+    "khk",
+    "khm",
+    "kir",
+    "kor",
+    "lao",
+    "lit",
+    "lug",
+    "luo",
+    "lvs",
+    "mai",
+    "mal",
+    "mar",
+    "mkd",
+    "mlt",
+    "mni",
+    "mya",
+    "nld",
+    "nno",
+    "nob",
+    "npi",
+    "nya",
+    "ory",
+    "pan",
+    "pbt",
+    "pes",
+    "pol",
+    "por",
+    "ron",
+    "rus",
+    "slk",
+    "slv",
+    "sna",
+    "snd",
+    "som",
+    "spa",
+    "srp",
+    "swe",
+    "swh",
+    "tam",
+    "tel",
+    "tgk",
+    "tgl",
+    "tha",
+    "tur",
+    "ukr",
+    "urd",
+    "uzn",
+    "vie",
+    "yor",
+    "yue",
+    "zsm",
+    "zul",
+]
+TEXT_SOURCE_LANGUAGE_NAMES = sorted([language_code_to_name[code] for code in text_source_language_codes])
+# Target langs:
+# S2ST / T2ST
+s2st_target_language_codes = [
+    "eng",
+    "arb",
+    "ben",
+    "cat",
+    "ces",
+    "cmn",
+    "cym",
+    "dan",
+    "deu",
+    "est",
+    "fin",
+    "fra",
+    "hin",
+    "ind",
+    "ita",
+    "jpn",
+    "kor",
+    "mlt",
+    "nld",
+    "pes",
+    "pol",
+    "por",
+    "ron",
+    "rus",
+    "slk",
+    "spa",
+    "swe",
+    "swh",
+    "tel",
+    "tgl",
+    "tha",
+    "tur",
+    "ukr",
+    "urd",
+    "uzn",
+    "vie",
+]
+S2ST_TARGET_LANGUAGE_NAMES = sorted([language_code_to_name[code] for code in s2st_target_language_codes])
+# S2TT / ASR
+S2TT_TARGET_LANGUAGE_NAMES = TEXT_SOURCE_LANGUAGE_NAMES
+# T2TT
+T2TT_TARGET_LANGUAGE_NAMES = TEXT_SOURCE_LANGUAGE_NAMES

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+fairseq2==0.1.0
+git+https://github.com/facebookresearch/seamless_communication
+gradio==3.40.1
+huggingface_hub==0.16.4
+torch==2.0.1
+torchaudio==2.0.2

style.css ADDED Viewed

	@@ -0,0 +1,16 @@

+h1 {
+  text-align: center;
+}
+#duplicate-button {
+  margin: auto;
+  color: #fff;
+  background: #1565c0;
+  border-radius: 100vh;
+}
+#component-0 {
+  max-width: 730px;
+  margin: auto;
+  padding-top: 1.5rem;
+}