senga-nt-asr-inferred-force-aligned-speecht5-LUK-ACT

This model is a fine-tuned version of microsoft/speecht5_tts on the None dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 8
eval_batch_size: 8
seed: 3407
gradient_accumulation_steps: 4
total_train_batch_size: 32
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 200
training_steps: 40000
mixed_precision_training: Native AMP

Training Loss	Epoch	Step	Validation Loss
0.5434	29.4148	1000	0.5573
0.4992	58.8296	2000	0.5399
0.4792	88.2370	3000	0.5388
0.4804	117.6519	4000	0.5473
0.4654	147.0593	5000	0.5428
0.4536	176.4741	6000	0.5379
0.4512	205.8889	7000	0.5389
0.438	235.2963	8000	0.5467
0.4366	264.7111	9000	0.5497
0.4345	294.1185	10000	0.5455
0.4155	323.5333	11000	0.5521
0.4092	352.9481	12000	0.5490
0.4203	382.3556	13000	0.5503
0.3997	411.7704	14000	0.5519
0.4	441.1778	15000	0.5614
0.3952	470.5926	16000	0.5544
0.4054	500.0	17000	0.5562
0.3923	529.4148	18000	0.5539
0.3883	558.8296	19000	0.5585
0.3784	588.2370	20000	0.5562
0.3814	617.6519	21000	0.5585
0.3846	647.0593	22000	0.5638
0.3864	676.4741	23000	0.5611
0.3739	705.8889	24000	0.5636
0.3791	735.2963	25000	0.5661
0.362	764.7111	26000	0.5604
0.3666	794.1185	27000	0.5680
0.3662	823.5333	28000	0.5665
0.3712	852.9481	29000	0.5683
0.3666	882.3556	30000	0.5696
0.3666	911.7704	31000	0.5710
0.3704	941.1778	32000	0.5673
0.3602	970.5926	33000	0.5711
0.3606	1000.0	34000	0.5724
0.363	1029.4148	35000	0.5710
0.3557	1058.8296	36000	0.5711
0.3712	1088.2370	37000	0.5707
0.3621	1117.6519	38000	0.5724
0.3558	1147.0593	39000	0.5720
0.3564	1176.4741	40000	0.5724

Safetensors

Model size

0.1B params

Tensor type

F32

Base model

Finetuned

(1251)

this model