{
  "_name_or_path": "wsntxxn/audiocaps-temporal-cnn14rnn-gru",
  "architectures": [
    "Cnn14RnnTempAttnGruModel"
  ],
  "attn_emb_dim": 512,
  "auto_map": {
    "AutoConfig": "hf_wrapper.Cnn14RnnTempAttnGruConfig",
    "AutoModel": "hf_wrapper.Cnn14RnnTempAttnGruModel"
  },
  "decoder_d_model": 512,
  "decoder_dropout": 0.5,
  "decoder_emb_dim": 512,
  "decoder_num_layers": 1,
  "decoder_rnn_type": "GRU",
  "encoder_rnn_bidirectional": true,
  "encoder_rnn_dropout": 0.5,
  "encoder_rnn_hidden_size": 256,
  "encoder_rnn_num_layers": 3,
  "fc_emb_dim": 512,
  "sample_rate": 32000,
  "torch_dtype": "float32",
  "transformers_version": "4.30.2",
  "vocab_size": 4981
}