andito
/

s2s

andito HF staff commited on Sep 20

Commit

6383c51

•

1 Parent(s): 8745348

Upload folder using huggingface_hub

Files changed (3) hide show

TTS/melo_handler.py CHANGED Viewed

@@ -33,7 +33,7 @@ class MeloTTSHandler(BaseHandler):
     def setup(
         self,
         should_listen,
-        device="mps",
         language="en",
         speaker_to_id="en",
         gen_kwargs={},  # Unused
@@ -41,10 +41,12 @@ class MeloTTSHandler(BaseHandler):
     ):
         self.should_listen = should_listen
         self.device = device
         self.language = language
         self.model = TTS(
             language=WHISPER_LANGUAGE_TO_MELO_LANGUAGE[self.language], device=device
         )
         self.speaker_id = self.model.hps.data.spk2id[
             WHISPER_LANGUAGE_TO_MELO_SPEAKER[speaker_to_id]
         ]

     def setup(
         self,
         should_listen,
+        device="auto",
         language="en",
         speaker_to_id="en",
         gen_kwargs={},  # Unused
     ):
         self.should_listen = should_listen
         self.device = device
+        console.print(f"[green]Device: {device}")
         self.language = language
         self.model = TTS(
             language=WHISPER_LANGUAGE_TO_MELO_LANGUAGE[self.language], device=device
         )
+        console.print(f"[green]Model device: {self.model.device}")
         self.speaker_id = self.model.hps.data.spk2id[
             WHISPER_LANGUAGE_TO_MELO_SPEAKER[speaker_to_id]
         ]

audio_streaming_client.py CHANGED Viewed

@@ -57,9 +57,15 @@ class AudioStreamingClient:
             if self.session_state != "processing" and not self.send_queue.empty():
                 chunk = self.send_queue.get().tobytes()
                 buffer += chunk
-                if len(buffer) >= self.args.chunk_size * 2:  # * 2 because of int16
-                    self.send_request(buffer)
-                    buffer = b''
             else:
                 self.send_request()
                 time.sleep(0.1)

             if self.session_state != "processing" and not self.send_queue.empty():
                 chunk = self.send_queue.get().tobytes()
                 buffer += chunk
+                # Calculate energy of the audio chunk
+                energy = np.sum(np.square(np.frombuffer(chunk, dtype=np.int16))) / len(chunk)
+                print(f"Energy: {energy}")
+                if energy > 0.01:  # Threshold for energy detection
+                    if len(buffer) >= self.args.chunk_size * 2:  # * 2 because of int16
+                        self.send_request(buffer)
+                        buffer = b''
             else:
                 self.send_request()
                 time.sleep(0.1)

handler.py CHANGED Viewed

@@ -23,7 +23,7 @@ class EndpointHandler:
             self.parler_tts_handler_kwargs,
             self.melo_tts_handler_kwargs,
             self.chat_tts_handler_kwargs,
-        ) = get_default_arguments(mode='none', lm_model_name='meta-llama/Meta-Llama-3.1-8B-Instruct', tts='melo')
         setup_logger(self.module_kwargs.log_level)

             self.parler_tts_handler_kwargs,
             self.melo_tts_handler_kwargs,
             self.chat_tts_handler_kwargs,
+        ) = get_default_arguments(mode='none', log_level='DEBUG', lm_model_name='meta-llama/Meta-Llama-3.1-8B-Instruct', tts='melo', device='mps')
         setup_logger(self.module_kwargs.log_level)