openai
/

whisper-large

Automatic Speech Recognition

hf-asr-leaderboard

Inference Endpoints

Model card Files Files and versions Community

ArthurZ HF staff commited on Oct 5, 2022

Commit

7a824db

•

1 Parent(s): 56b0c7d

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -189,7 +189,7 @@ To each task corresponds a sequence of tokens that are given to the decoder as *
 # Usage
-To transcribe or translate audio files, the model has to be used along a `WhisperFeatureExtractor`.
 ## Transcription
@@ -238,7 +238,7 @@ transcription.
 >>> ds = load_dataset("common_voice", "fr", split="test", streaming=True)
 >>> ds = ds.cast_column("audio", datasets.Audio(sampling_rate=16_000))
 >>> input_speech = next(iter(ds))["audio"]["array"]
->>> # tokenize
 >>> input_features = processor(input_speech, return_tensors="pt").input_features
 >>> predicted_ids = model.generate(input_features)
 >>> transcription = processor.batch_decode(predicted_ids)
@@ -268,7 +268,7 @@ The "<|translate|>" is used as the first decoder input token to specify the tran
 >>> input_speech = next(iter(ds))["audio"]["array"]
 >>> # tokenize
 >>> input_features = processor(input_speech, return_tensors="pt").input_features
->>> forced_decoder_ids = processor._get_decoder_prompt_ids(language = "fr", task = "translate")
 >>> predicted_ids = model.generate(input_features, forced_decoder_ids = forced_decoder_ids)
 >>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens = True)

 # Usage
+To transcribe or translate audio files, the model has to be used along a `WhisperProcessor`. The `WhisperProcessor.get_decoder_prompt_ids` function is used to get a list of `( idx, token )` tuples, which can either be set in the config, or directly passed to the generate function, as `forced_decoder_ids`.
 ## Transcription
 >>> ds = load_dataset("common_voice", "fr", split="test", streaming=True)
 >>> ds = ds.cast_column("audio", datasets.Audio(sampling_rate=16_000))
 >>> input_speech = next(iter(ds))["audio"]["array"]
+>>> model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(language = "fr", task = "transcribe")
 >>> input_features = processor(input_speech, return_tensors="pt").input_features
 >>> predicted_ids = model.generate(input_features)
 >>> transcription = processor.batch_decode(predicted_ids)
 >>> input_speech = next(iter(ds))["audio"]["array"]
 >>> # tokenize
 >>> input_features = processor(input_speech, return_tensors="pt").input_features
+>>> forced_decoder_ids = processor.get_decoder_prompt_ids(language = "fr", task = "translate")
 >>> predicted_ids = model.generate(input_features, forced_decoder_ids = forced_decoder_ids)
 >>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens = True)