Spaces:

Harveenchadha
/

hindi-speech-recognition-vakyansh-wav2vec2

Runtime error

Harveenchadha commited on Sep 14, 2021

Commit

ea8b34f

•

1 Parent(s): cb71106

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,13 +2,24 @@ import soundfile as sf
 import torch
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import gradio as gr
 def parse_transcription(wav_file):
-    print("hello")
-    audio_input, sample_rate = sf.read(wav_file.name)
-    input_values = processor(audio_input, sampling_rate=sample_rate, return_tensors="pt").input_values
     logits = model(input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
@@ -17,6 +28,11 @@ def parse_transcription(wav_file):
     return transcription
 processor = Wav2Vec2Processor.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
 model = Wav2Vec2ForCTC.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")

 import torch
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import gradio as gr
+import sox
+def convert(inputfile, outfile):
+    sox_tfm = sox.Transformer()
+    sox_tfm.set_output_format(
+        file_type="wav", channels=1, encoding="signed-integer", rate=16000, bits=16
+    )
+    sox_tfm.build(inputfile, outfile)
 def parse_transcription(wav_file):
+    filename = wav_file.name.split('.')[0]
+    convert(wav_file.name, filename + "16k.wav")
+    speech, _ = sf.read(filename + "16k.wav")
+    input_values = processor(speech, sampling_rate=16_000, return_tensors="pt").input_values
     logits = model(input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     return transcription
+processor = Wav2Vec2Processor.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
+model = Wav2Vec2ForCTC.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
 processor = Wav2Vec2Processor.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")
 model = Wav2Vec2ForCTC.from_pretrained("Harveenchadha/vakyansh-wav2vec2-hindi-him-4200")