{
  "_name_or_path": "DeSTA-ntu/DeSTA2.5-Audio-Llama-3.1-8B",
  "architectures": [
    "DeSTA25AudioModel"
  ],
  "audio_locator": "<|AUDIO|>",
  "connector_mode": "qformer_1",
  "encoder_config": {
    "_name_or_path": "openai/whisper-large-v3",
    "architectures": [
      "WhisperForConditionalGeneration"
    ],
    "begin_suppress_tokens": [
      220,
      50257
    ],
    "bos_token_id": 50257,
    "d_model": 1280,
    "decoder_attention_heads": 20,
    "decoder_ffn_dim": 5120,
    "decoder_layers": 32,
    "decoder_start_token_id": 50258,
    "encoder_attention_heads": 20,
    "encoder_ffn_dim": 5120,
    "encoder_layers": 32,
    "eos_token_id": 50257,
    "max_length": 448,
    "model_type": "whisper",
    "num_hidden_layers": 32,
    "num_mel_bins": 128,
    "torch_dtype": "float16",
    "vocab_size": 51866
  },
  "encoder_model_id": "openai/whisper-large-v3",
  "first_n_layers": -1,
  "llm_config": {
    "_name_or_path": "DeSTA-ntu/Llama-3.1-8B-Instruct",
    "architectures": [
      "LlamaForCausalLM"
    ],
    "bos_token_id": 128000,
    "eos_token_id": [
      128001,
      128008,
      128009
    ],
    "intermediate_size": 14336,
    "max_position_embeddings": 131072,
    "model_type": "llama",
    "num_key_value_heads": 8,
    "rms_norm_eps": 1e-05,
    "rope_scaling": {
      "factor": 8.0,
      "high_freq_factor": 4.0,
      "low_freq_factor": 1.0,
      "original_max_position_embeddings": 8192,
      "rope_type": "llama3"
    },
    "rope_theta": 500000.0,
    "torch_dtype": "bfloat16",
    "vocab_size": 128256
  },
  "llm_model_id": "DeSTA-ntu/Llama-3.1-8B-Instruct",
  "model_type": "desta25",
  "placeholder_token": "<|reserved_special_token_87|>",
  "prompt_size": 64,
  "qformer_num_hidden_layers": 6,
  "target_layer_ids": [
    7,
    15,
    23,
    31
  ],
  "torch_dtype": "bfloat16",
  "transformers_version": "4.49.0",
  "use_lora": false
}