ReazonSpeech Large(5000h)で学習したQuartzNet Large モデルです。
非常に軽量なモデルです。
WandBのレポートに学習曲線などをまとめています。
WandBレポート
こちらのASRモデルは 全て文字誤り率(CER)で評価しています。
Training set : 19.619 %
Validation set : 17.909 %
Test set :
Comming soon...