End of training

Browse files

Files changed (7) hide show

README.md +6 -3
adapter.eng.safetensors +2 -2
all_results.json +11 -11
eval_results.json +6 -6
runs/Mar09_21-57-37_srvrocgpu011.uct.ac.za/events.out.tfevents.1741595873.srvrocgpu011.uct.ac.za.3447107.1 +3 -0
train_results.json +6 -6
trainer_state.json +1127 -855

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: apache-2.0
 base_model: facebook/wav2vec2-base-960h
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # wav2vec2-base-librispeech-model
-This model is a fine-tuned version of [facebook/wav2vec2-base-960h](https://huggingface.co/facebook/wav2vec2-base-960h) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.8515
-- Wer: 0.7236
 ## Model description

 license: apache-2.0
 base_model: facebook/wav2vec2-base-960h
 tags:
+- automatic-speech-recognition
+- libri10h
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # wav2vec2-base-librispeech-model
+This model is a fine-tuned version of [facebook/wav2vec2-base-960h](https://huggingface.co/facebook/wav2vec2-base-960h) on the LIBRI10H - ENG dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.8514
+- Wer: 0.7245
 ## Model description

adapter.eng.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7bb6010e8765394d31c9279a44c0f53a4e7d36c9187477109fa5148df2be0975
-size 38108196

 version https://git-lfs.github.com/spec/v1
+oid sha256:5227271458e2148b60995be53604c884de9775ac1d560989c01006974d075768
+size 19101500

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 100.0,
-    "eval_loss": 0.5515139698982239,
-    "eval_runtime": 155.9781,
     "eval_samples": 2604,
-    "eval_samples_per_second": 16.695,
-    "eval_steps_per_second": 4.174,
-    "eval_wer": 0.4640569678163663,
-    "total_flos": 3.512425533037396e+19,
-    "train_loss": 0.26323221057394275,
-    "train_runtime": 51849.7109,
     "train_samples": 2759,
-    "train_samples_per_second": 5.321,
-    "train_steps_per_second": 0.665
 }

 {
+    "epoch": 99.4231884057971,
+    "eval_loss": 0.8513913154602051,
+    "eval_runtime": 128.9183,
     "eval_samples": 2604,
+    "eval_samples_per_second": 20.199,
+    "eval_steps_per_second": 2.529,
+    "eval_wer": 0.7245295779130365,
+    "total_flos": 3.3406327721118188e+19,
+    "train_loss": 1.118092892668968,
+    "train_runtime": 45286.7863,
     "train_samples": 2759,
+    "train_samples_per_second": 6.092,
+    "train_steps_per_second": 0.38
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 100.0,
-    "eval_loss": 0.5515139698982239,
-    "eval_runtime": 155.9781,
     "eval_samples": 2604,
-    "eval_samples_per_second": 16.695,
-    "eval_steps_per_second": 4.174,
-    "eval_wer": 0.4640569678163663
 }

 {
+    "epoch": 99.4231884057971,
+    "eval_loss": 0.8513913154602051,
+    "eval_runtime": 128.9183,
     "eval_samples": 2604,
+    "eval_samples_per_second": 20.199,
+    "eval_steps_per_second": 2.529,
+    "eval_wer": 0.7245295779130365
 }

runs/Mar09_21-57-37_srvrocgpu011.uct.ac.za/events.out.tfevents.1741595873.srvrocgpu011.uct.ac.za.3447107.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b617634a3dc30711bad72bf419557dfd9628b12843f221a6d328064b73bbe268
+size 412

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 100.0,
-    "total_flos": 3.512425533037396e+19,
-    "train_loss": 0.26323221057394275,
-    "train_runtime": 51849.7109,
     "train_samples": 2759,
-    "train_samples_per_second": 5.321,
-    "train_steps_per_second": 0.665
 }

 {
+    "epoch": 99.4231884057971,
+    "total_flos": 3.3406327721118188e+19,
+    "train_loss": 1.118092892668968,
+    "train_runtime": 45286.7863,
     "train_samples": 2759,
+    "train_samples_per_second": 6.092,
+    "train_steps_per_second": 0.38
 }

trainer_state.json CHANGED Viewed

@@ -1,1132 +1,1404 @@
 {
-  "best_metric": 0.5514756441116333,
-  "best_model_checkpoint": "/scratch/skscla001/speech/results/wav2vec2-base-librispeech-model/checkpoint-5500",
-  "epoch": 100.0,
-  "eval_steps": 500,
-  "global_step": 34500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.4492753623188406,
-      "grad_norm": 0.6375983953475952,
-      "learning_rate": 0.00029939999999999996,
-      "loss": 3.544,
-      "step": 500
     },
     {
-      "epoch": 1.4492753623188406,
-      "eval_loss": 1.7567861080169678,
-      "eval_runtime": 155.5701,
-      "eval_samples_per_second": 16.738,
-      "eval_steps_per_second": 4.185,
-      "eval_wer": 0.9819787564148467,
-      "step": 500
     },
     {
-      "epoch": 2.898550724637681,
-      "grad_norm": 0.6045961976051331,
-      "learning_rate": 0.00029559705882352936,
-      "loss": 1.42,
       "step": 1000
     },
     {
-      "epoch": 2.898550724637681,
-      "eval_loss": 1.027501106262207,
-      "eval_runtime": 153.8637,
-      "eval_samples_per_second": 16.924,
-      "eval_steps_per_second": 4.231,
-      "eval_wer": 0.8167641325536062,
       "step": 1000
     },
     {
-      "epoch": 4.3478260869565215,
-      "grad_norm": 0.6760497689247131,
-      "learning_rate": 0.000291185294117647,
-      "loss": 1.0403,
-      "step": 1500
     },
     {
-      "epoch": 4.3478260869565215,
-      "eval_loss": 0.8305047154426575,
-      "eval_runtime": 154.0362,
-      "eval_samples_per_second": 16.905,
-      "eval_steps_per_second": 4.226,
-      "eval_wer": 0.717329036877909,
-      "step": 1500
     },
     {
-      "epoch": 5.797101449275362,
-      "grad_norm": 0.8079296946525574,
-      "learning_rate": 0.0002867735294117647,
-      "loss": 0.8574,
       "step": 2000
     },
     {
-      "epoch": 5.797101449275362,
-      "eval_loss": 0.729262113571167,
-      "eval_runtime": 154.0605,
-      "eval_samples_per_second": 16.902,
-      "eval_steps_per_second": 4.226,
-      "eval_wer": 0.6648565859092175,
       "step": 2000
     },
     {
-      "epoch": 7.246376811594203,
-      "grad_norm": 0.7156503200531006,
-      "learning_rate": 0.00028236176470588235,
-      "loss": 0.7315,
-      "step": 2500
     },
     {
-      "epoch": 7.246376811594203,
-      "eval_loss": 0.6631811857223511,
-      "eval_runtime": 154.2602,
-      "eval_samples_per_second": 16.881,
-      "eval_steps_per_second": 4.22,
-      "eval_wer": 0.6025380912598958,
-      "step": 2500
     },
     {
-      "epoch": 8.695652173913043,
-      "grad_norm": 0.9667319655418396,
-      "learning_rate": 0.00027794999999999995,
-      "loss": 0.6389,
       "step": 3000
     },
     {
-      "epoch": 8.695652173913043,
-      "eval_loss": 0.6286384463310242,
-      "eval_runtime": 154.4422,
-      "eval_samples_per_second": 16.861,
-      "eval_steps_per_second": 4.215,
-      "eval_wer": 0.5695389266817839,
       "step": 3000
     },
     {
-      "epoch": 10.144927536231885,
-      "grad_norm": 1.996129035949707,
-      "learning_rate": 0.0002735382352941176,
-      "loss": 0.5679,
-      "step": 3500
     },
     {
-      "epoch": 10.144927536231885,
-      "eval_loss": 0.6101946830749512,
-      "eval_runtime": 154.3916,
-      "eval_samples_per_second": 16.866,
-      "eval_steps_per_second": 4.217,
-      "eval_wer": 0.548911962445797,
-      "step": 3500
     },
     {
-      "epoch": 11.594202898550725,
-      "grad_norm": 0.8161708116531372,
-      "learning_rate": 0.0002691264705882353,
-      "loss": 0.5085,
       "step": 4000
     },
     {
-      "epoch": 11.594202898550725,
-      "eval_loss": 0.5863102078437805,
-      "eval_runtime": 155.3264,
-      "eval_samples_per_second": 16.765,
-      "eval_steps_per_second": 4.191,
-      "eval_wer": 0.5215419501133787,
       "step": 4000
     },
     {
-      "epoch": 13.043478260869565,
-      "grad_norm": 0.7935850024223328,
-      "learning_rate": 0.00026471470588235294,
-      "loss": 0.4579,
-      "step": 4500
     },
     {
-      "epoch": 13.043478260869565,
-      "eval_loss": 0.5660598874092102,
-      "eval_runtime": 155.0665,
-      "eval_samples_per_second": 16.793,
-      "eval_steps_per_second": 4.198,
-      "eval_wer": 0.4933365158929069,
-      "step": 4500
     },
     {
-      "epoch": 14.492753623188406,
-      "grad_norm": 0.871003270149231,
-      "learning_rate": 0.00026030294117647054,
-      "loss": 0.4097,
       "step": 5000
     },
     {
-      "epoch": 14.492753623188406,
-      "eval_loss": 0.5645673871040344,
-      "eval_runtime": 155.2693,
-      "eval_samples_per_second": 16.771,
-      "eval_steps_per_second": 4.193,
-      "eval_wer": 0.48229701237220035,
       "step": 5000
     },
     {
-      "epoch": 15.942028985507246,
-      "grad_norm": 0.7843791246414185,
-      "learning_rate": 0.0002558911764705882,
-      "loss": 0.382,
-      "step": 5500
     },
     {
-      "epoch": 15.942028985507246,
-      "eval_loss": 0.5514756441116333,
-      "eval_runtime": 155.0315,
-      "eval_samples_per_second": 16.797,
-      "eval_steps_per_second": 4.199,
-      "eval_wer": 0.46441500576838923,
-      "step": 5500
     },
     {
-      "epoch": 17.391304347826086,
-      "grad_norm": 0.7231972217559814,
-      "learning_rate": 0.00025147941176470586,
-      "loss": 0.3426,
       "step": 6000
     },
     {
-      "epoch": 17.391304347826086,
-      "eval_loss": 0.5585278868675232,
-      "eval_runtime": 155.3086,
-      "eval_samples_per_second": 16.767,
-      "eval_steps_per_second": 4.192,
-      "eval_wer": 0.4513864025142221,
       "step": 6000
     },
     {
-      "epoch": 18.840579710144926,
-      "grad_norm": 0.8039381504058838,
-      "learning_rate": 0.0002470676470588235,
-      "loss": 0.32,
-      "step": 6500
     },
     {
-      "epoch": 18.840579710144926,
-      "eval_loss": 0.5598042607307434,
-      "eval_runtime": 155.6698,
-      "eval_samples_per_second": 16.728,
-      "eval_steps_per_second": 4.182,
-      "eval_wer": 0.4475076580339738,
-      "step": 6500
     },
     {
-      "epoch": 20.28985507246377,
-      "grad_norm": 2.395310640335083,
-      "learning_rate": 0.00024265588235294113,
-      "loss": 0.2926,
       "step": 7000
     },
     {
-      "epoch": 20.28985507246377,
-      "eval_loss": 0.6245768666267395,
-      "eval_runtime": 155.7542,
-      "eval_samples_per_second": 16.719,
-      "eval_steps_per_second": 4.18,
-      "eval_wer": 0.4587062895333572,
       "step": 7000
     },
     {
-      "epoch": 21.73913043478261,
-      "grad_norm": 0.9574357867240906,
-      "learning_rate": 0.00023824411764705882,
-      "loss": 0.2735,
-      "step": 7500
     },
     {
-      "epoch": 21.73913043478261,
-      "eval_loss": 0.5887025594711304,
-      "eval_runtime": 156.166,
-      "eval_samples_per_second": 16.675,
-      "eval_steps_per_second": 4.169,
-      "eval_wer": 0.44390738751641007,
-      "step": 7500
     },
     {
-      "epoch": 23.18840579710145,
-      "grad_norm": 0.852486252784729,
-      "learning_rate": 0.00023383235294117643,
-      "loss": 0.257,
-      "step": 8000
     },
     {
-      "epoch": 23.18840579710145,
-      "eval_loss": 0.5977800488471985,
-      "eval_runtime": 155.6723,
-      "eval_samples_per_second": 16.727,
-      "eval_steps_per_second": 4.182,
-      "eval_wer": 0.4355133866412062,
-      "step": 8000
     },
     {
-      "epoch": 24.63768115942029,
-      "grad_norm": 0.9156618118286133,
-      "learning_rate": 0.0002294205882352941,
-      "loss": 0.2409,
-      "step": 8500
     },
     {
-      "epoch": 24.63768115942029,
-      "eval_loss": 0.5721296072006226,
-      "eval_runtime": 155.7717,
-      "eval_samples_per_second": 16.717,
-      "eval_steps_per_second": 4.179,
-      "eval_wer": 0.4214703425229741,
-      "step": 8500
     },
     {
-      "epoch": 26.08695652173913,
-      "grad_norm": 0.67136549949646,
-      "learning_rate": 0.00022500882352941172,
-      "loss": 0.2246,
-      "step": 9000
     },
     {
-      "epoch": 26.08695652173913,
-      "eval_loss": 0.5978689789772034,
-      "eval_runtime": 156.0083,
-      "eval_samples_per_second": 16.691,
-      "eval_steps_per_second": 4.173,
-      "eval_wer": 0.4186856028961292,
-      "step": 9000
     },
     {
-      "epoch": 27.536231884057973,
-      "grad_norm": 0.8318625092506409,
-      "learning_rate": 0.00022059705882352938,
-      "loss": 0.2139,
-      "step": 9500
     },
     {
-      "epoch": 27.536231884057973,
-      "eval_loss": 0.6102660298347473,
-      "eval_runtime": 155.8743,
-      "eval_samples_per_second": 16.706,
-      "eval_steps_per_second": 4.176,
-      "eval_wer": 0.4145482754505311,
-      "step": 9500
     },
     {
-      "epoch": 28.985507246376812,
-      "grad_norm": 0.7386115193367004,
-      "learning_rate": 0.00021618529411764702,
-      "loss": 0.2014,
-      "step": 10000
     },
     {
-      "epoch": 28.985507246376812,
-      "eval_loss": 0.643622100353241,
-      "eval_runtime": 156.0699,
-      "eval_samples_per_second": 16.685,
-      "eval_steps_per_second": 4.171,
-      "eval_wer": 0.41568206229860366,
-      "step": 10000
     },
     {
-      "epoch": 30.434782608695652,
-      "grad_norm": Infinity,
-      "learning_rate": 0.00021179117647058822,
-      "loss": 0.1917,
-      "step": 10500
     },
     {
-      "epoch": 30.434782608695652,
-      "eval_loss": 0.6471384763717651,
-      "eval_runtime": 156.2304,
-      "eval_samples_per_second": 16.668,
-      "eval_steps_per_second": 4.167,
-      "eval_wer": 0.41878505788280224,
-      "step": 10500
     },
     {
-      "epoch": 31.884057971014492,
-      "grad_norm": 0.8037901520729065,
-      "learning_rate": 0.00020737941176470585,
-      "loss": 0.184,
-      "step": 11000
     },
     {
-      "epoch": 31.884057971014492,
-      "eval_loss": 0.6409507989883423,
-      "eval_runtime": 156.4464,
-      "eval_samples_per_second": 16.645,
-      "eval_steps_per_second": 4.161,
-      "eval_wer": 0.4067510044953654,
-      "step": 11000
     },
     {
-      "epoch": 33.333333333333336,
-      "grad_norm": 0.8534353375434875,
-      "learning_rate": 0.0002029676470588235,
-      "loss": 0.1752,
-      "step": 11500
     },
     {
-      "epoch": 33.333333333333336,
-      "eval_loss": 0.6426236629486084,
-      "eval_runtime": 156.2362,
-      "eval_samples_per_second": 16.667,
-      "eval_steps_per_second": 4.167,
-      "eval_wer": 0.408640649242153,
-      "step": 11500
     },
     {
-      "epoch": 34.78260869565217,
-      "grad_norm": 0.8873021006584167,
-      "learning_rate": 0.00019855588235294114,
-      "loss": 0.169,
-      "step": 12000
     },
     {
-      "epoch": 34.78260869565217,
-      "eval_loss": 0.6633431315422058,
-      "eval_runtime": 160.0974,
-      "eval_samples_per_second": 16.265,
-      "eval_steps_per_second": 4.066,
-      "eval_wer": 0.40253411306042886,
-      "step": 12000
     },
     {
-      "epoch": 36.231884057971016,
-      "grad_norm": 0.6732174754142761,
-      "learning_rate": 0.0001941441176470588,
-      "loss": 0.1612,
-      "step": 12500
     },
     {
-      "epoch": 36.231884057971016,
-      "eval_loss": 0.6465741395950317,
-      "eval_runtime": 156.2372,
-      "eval_samples_per_second": 16.667,
-      "eval_steps_per_second": 4.167,
-      "eval_wer": 0.396765723833393,
-      "step": 12500
     },
     {
-      "epoch": 37.68115942028985,
-      "grad_norm": 0.7956398725509644,
-      "learning_rate": 0.00018973235294117647,
-      "loss": 0.1553,
-      "step": 13000
     },
     {
-      "epoch": 37.68115942028985,
-      "eval_loss": 0.6572560667991638,
-      "eval_runtime": 156.6011,
-      "eval_samples_per_second": 16.628,
-      "eval_steps_per_second": 4.157,
-      "eval_wer": 0.39410033019055574,
-      "step": 13000
     },
     {
-      "epoch": 39.130434782608695,
-      "grad_norm": 0.8513861298561096,
-      "learning_rate": 0.0001853205882352941,
-      "loss": 0.15,
-      "step": 13500
     },
     {
-      "epoch": 39.130434782608695,
-      "eval_loss": 0.6988933086395264,
-      "eval_runtime": 156.3407,
-      "eval_samples_per_second": 16.656,
-      "eval_steps_per_second": 4.164,
-      "eval_wer": 0.39557226399331663,
-      "step": 13500
     },
     {
-      "epoch": 40.57971014492754,
-      "grad_norm": 1.6812894344329834,
-      "learning_rate": 0.00018090882352941176,
-      "loss": 0.1442,
-      "step": 14000
     },
     {
-      "epoch": 40.57971014492754,
-      "eval_loss": 0.7209036946296692,
-      "eval_runtime": 156.2269,
-      "eval_samples_per_second": 16.668,
-      "eval_steps_per_second": 4.167,
-      "eval_wer": 0.40621394756733104,
-      "step": 14000
     },
     {
-      "epoch": 42.028985507246375,
-      "grad_norm": 0.685930609703064,
-      "learning_rate": 0.0001764970588235294,
-      "loss": 0.1409,
-      "step": 14500
     },
     {
-      "epoch": 42.028985507246375,
-      "eval_loss": 0.6950096487998962,
-      "eval_runtime": 156.3243,
-      "eval_samples_per_second": 16.658,
-      "eval_steps_per_second": 4.164,
-      "eval_wer": 0.3960894299240164,
-      "step": 14500
     },
     {
-      "epoch": 43.47826086956522,
-      "grad_norm": 0.5274556279182434,
-      "learning_rate": 0.0001720941176470588,
-      "loss": 0.1356,
-      "step": 15000
     },
     {
-      "epoch": 43.47826086956522,
-      "eval_loss": 0.6815584897994995,
-      "eval_runtime": 160.3066,
-      "eval_samples_per_second": 16.244,
-      "eval_steps_per_second": 4.061,
-      "eval_wer": 0.38626327724072085,
-      "step": 15000
     },
     {
-      "epoch": 44.927536231884055,
-      "grad_norm": 0.735133945941925,
-      "learning_rate": 0.00016768235294117647,
-      "loss": 0.134,
-      "step": 15500
     },
     {
-      "epoch": 44.927536231884055,
-      "eval_loss": 0.6895952820777893,
-      "eval_runtime": 156.4083,
-      "eval_samples_per_second": 16.649,
-      "eval_steps_per_second": 4.162,
-      "eval_wer": 0.386661097187413,
-      "step": 15500
     },
     {
-      "epoch": 46.3768115942029,
-      "grad_norm": 0.8698641657829285,
-      "learning_rate": 0.0001632705882352941,
-      "loss": 0.1288,
-      "step": 16000
     },
     {
-      "epoch": 46.3768115942029,
-      "eval_loss": 0.7073222994804382,
-      "eval_runtime": 156.7831,
-      "eval_samples_per_second": 16.609,
-      "eval_steps_per_second": 4.152,
-      "eval_wer": 0.3843537414965986,
-      "step": 16000
     },
     {
-      "epoch": 47.82608695652174,
-      "grad_norm": 0.7717955708503723,
-      "learning_rate": 0.00015885882352941177,
-      "loss": 0.1263,
-      "step": 16500
     },
     {
-      "epoch": 47.82608695652174,
-      "eval_loss": 0.7207434177398682,
-      "eval_runtime": 156.8893,
-      "eval_samples_per_second": 16.598,
-      "eval_steps_per_second": 4.149,
-      "eval_wer": 0.3835978835978836,
-      "step": 16500
     },
     {
-      "epoch": 49.27536231884058,
-      "grad_norm": 1.0890934467315674,
-      "learning_rate": 0.0001544647058823529,
-      "loss": 0.1218,
-      "step": 17000
     },
     {
-      "epoch": 49.27536231884058,
-      "eval_loss": 0.7430319786071777,
-      "eval_runtime": 156.7354,
-      "eval_samples_per_second": 16.614,
-      "eval_steps_per_second": 4.153,
-      "eval_wer": 0.3811711819230616,
-      "step": 17000
     },
     {
-      "epoch": 50.72463768115942,
-      "grad_norm": 1.435145616531372,
-      "learning_rate": 0.0001500529411764706,
-      "loss": 0.1217,
-      "step": 17500
     },
     {
-      "epoch": 50.72463768115942,
-      "eval_loss": 0.7588245868682861,
-      "eval_runtime": 156.9854,
-      "eval_samples_per_second": 16.588,
-      "eval_steps_per_second": 4.147,
-      "eval_wer": 0.38306082666984925,
-      "step": 17500
     },
     {
-      "epoch": 52.17391304347826,
-      "grad_norm": 0.6202664971351624,
-      "learning_rate": 0.0001456411764705882,
-      "loss": 0.1183,
-      "step": 18000
     },
     {
-      "epoch": 52.17391304347826,
-      "eval_loss": 0.7478466629981995,
-      "eval_runtime": 156.6121,
-      "eval_samples_per_second": 16.627,
-      "eval_steps_per_second": 4.157,
-      "eval_wer": 0.3813303099017385,
-      "step": 18000
     },
     {
-      "epoch": 53.6231884057971,
-      "grad_norm": 0.7649337649345398,
-      "learning_rate": 0.00014122941176470587,
-      "loss": 0.113,
-      "step": 18500
     },
     {
-      "epoch": 53.6231884057971,
-      "eval_loss": 0.7268975973129272,
-      "eval_runtime": 156.8146,
-      "eval_samples_per_second": 16.606,
-      "eval_steps_per_second": 4.151,
-      "eval_wer": 0.377869276365517,
-      "step": 18500
     },
     {
-      "epoch": 55.072463768115945,
-      "grad_norm": 0.6549494862556458,
-      "learning_rate": 0.0001368176470588235,
-      "loss": 0.1109,
-      "step": 19000
     },
     {
-      "epoch": 55.072463768115945,
-      "eval_loss": 0.7117257118225098,
-      "eval_runtime": 156.5809,
-      "eval_samples_per_second": 16.63,
-      "eval_steps_per_second": 4.158,
-      "eval_wer": 0.373473365954569,
-      "step": 19000
     },
     {
-      "epoch": 56.52173913043478,
-      "grad_norm": 0.4416871666908264,
-      "learning_rate": 0.00013241470588235292,
-      "loss": 0.1102,
-      "step": 19500
     },
     {
-      "epoch": 56.52173913043478,
-      "eval_loss": 0.7531840205192566,
-      "eval_runtime": 156.1999,
-      "eval_samples_per_second": 16.671,
-      "eval_steps_per_second": 4.168,
-      "eval_wer": 0.3689183275649441,
-      "step": 19500
     },
     {
-      "epoch": 57.971014492753625,
-      "grad_norm": 0.8305051922798157,
-      "learning_rate": 0.00012800294117647058,
-      "loss": 0.1084,
-      "step": 20000
     },
     {
-      "epoch": 57.971014492753625,
-      "eval_loss": 0.7607569694519043,
-      "eval_runtime": 156.7941,
-      "eval_samples_per_second": 16.608,
-      "eval_steps_per_second": 4.152,
-      "eval_wer": 0.3703504793730358,
-      "step": 20000
     },
     {
-      "epoch": 59.42028985507246,
-      "grad_norm": 0.7849389314651489,
-      "learning_rate": 0.00012359117647058824,
-      "loss": 0.1042,
-      "step": 20500
     },
     {
-      "epoch": 59.42028985507246,
-      "eval_loss": 0.7571032643318176,
-      "eval_runtime": 156.51,
-      "eval_samples_per_second": 16.638,
-      "eval_steps_per_second": 4.159,
-      "eval_wer": 0.3676651947328639,
-      "step": 20500
     },
     {
-      "epoch": 60.869565217391305,
-      "grad_norm": 2.074193239212036,
-      "learning_rate": 0.00011917941176470587,
-      "loss": 0.1048,
-      "step": 21000
     },
     {
-      "epoch": 60.869565217391305,
-      "eval_loss": 0.7744612097740173,
-      "eval_runtime": 156.269,
-      "eval_samples_per_second": 16.664,
-      "eval_steps_per_second": 4.166,
-      "eval_wer": 0.3682619246529021,
-      "step": 21000
     },
     {
-      "epoch": 62.31884057971015,
-      "grad_norm": 0.620770275592804,
-      "learning_rate": 0.00011476764705882352,
-      "loss": 0.1005,
-      "step": 21500
     },
     {
-      "epoch": 62.31884057971015,
-      "eval_loss": 0.784517228603363,
-      "eval_runtime": 156.5747,
-      "eval_samples_per_second": 16.631,
-      "eval_steps_per_second": 4.158,
-      "eval_wer": 0.37122568325575844,
-      "step": 21500
     },
     {
-      "epoch": 63.768115942028984,
-      "grad_norm": 0.6090012192726135,
-      "learning_rate": 0.00011035588235294117,
-      "loss": 0.1006,
-      "step": 22000
     },
     {
-      "epoch": 63.768115942028984,
-      "eval_loss": 0.7632699608802795,
-      "eval_runtime": 156.8255,
-      "eval_samples_per_second": 16.604,
-      "eval_steps_per_second": 4.151,
-      "eval_wer": 0.3664319528981183,
-      "step": 22000
     },
     {
-      "epoch": 65.21739130434783,
-      "grad_norm": 0.7670443058013916,
-      "learning_rate": 0.00010594411764705882,
-      "loss": 0.0976,
-      "step": 22500
     },
     {
-      "epoch": 65.21739130434783,
-      "eval_loss": 0.772113561630249,
-      "eval_runtime": 156.8861,
-      "eval_samples_per_second": 16.598,
-      "eval_steps_per_second": 4.15,
-      "eval_wer": 0.3638859052392887,
-      "step": 22500
     },
     {
-      "epoch": 66.66666666666667,
-      "grad_norm": 0.7425007224082947,
-      "learning_rate": 0.00010153235294117646,
-      "loss": 0.096,
-      "step": 23000
     },
     {
-      "epoch": 66.66666666666667,
-      "eval_loss": 0.7658870220184326,
-      "eval_runtime": 156.557,
-      "eval_samples_per_second": 16.633,
-      "eval_steps_per_second": 4.158,
-      "eval_wer": 0.36432350718065004,
-      "step": 23000
     },
     {
-      "epoch": 68.1159420289855,
-      "grad_norm": 0.6578115820884705,
-      "learning_rate": 9.712058823529411e-05,
-      "loss": 0.0938,
-      "step": 23500
     },
     {
-      "epoch": 68.1159420289855,
-      "eval_loss": 0.7658408284187317,
-      "eval_runtime": 156.5578,
-      "eval_samples_per_second": 16.633,
-      "eval_steps_per_second": 4.158,
-      "eval_wer": 0.3620161514898357,
-      "step": 23500
     },
     {
-      "epoch": 69.56521739130434,
-      "grad_norm": 0.7457234859466553,
-      "learning_rate": 9.271764705882353e-05,
-      "loss": 0.0933,
-      "step": 24000
     },
     {
-      "epoch": 69.56521739130434,
-      "eval_loss": 0.7692342400550842,
-      "eval_runtime": 156.8993,
-      "eval_samples_per_second": 16.597,
-      "eval_steps_per_second": 4.149,
-      "eval_wer": 0.35789871504157217,
-      "step": 24000
     },
     {
-      "epoch": 71.01449275362319,
-      "grad_norm": 0.44514575600624084,
-      "learning_rate": 8.830588235294118e-05,
-      "loss": 0.092,
-      "step": 24500
     },
     {
-      "epoch": 71.01449275362319,
-      "eval_loss": 0.7784613966941833,
-      "eval_runtime": 156.7679,
-      "eval_samples_per_second": 16.611,
-      "eval_steps_per_second": 4.153,
-      "eval_wer": 0.36245375343119707,
-      "step": 24500
     },
     {
-      "epoch": 72.46376811594203,
-      "grad_norm": 0.6682944893836975,
-      "learning_rate": 8.389411764705882e-05,
-      "loss": 0.089,
-      "step": 25000
     },
     {
-      "epoch": 72.46376811594203,
-      "eval_loss": 0.7845346331596375,
-      "eval_runtime": 156.6256,
-      "eval_samples_per_second": 16.626,
-      "eval_steps_per_second": 4.156,
-      "eval_wer": 0.36149898555913595,
-      "step": 25000
     },
     {
-      "epoch": 73.91304347826087,
-      "grad_norm": 0.6694007515907288,
-      "learning_rate": 7.948235294117647e-05,
-      "loss": 0.088,
-      "step": 25500
     },
     {
-      "epoch": 73.91304347826087,
-      "eval_loss": 0.7972577214241028,
-      "eval_runtime": 156.8625,
-      "eval_samples_per_second": 16.601,
-      "eval_steps_per_second": 4.15,
-      "eval_wer": 0.3585948999482834,
-      "step": 25500
     },
     {
-      "epoch": 75.3623188405797,
-      "grad_norm": 0.6369543671607971,
-      "learning_rate": 7.507941176470587e-05,
-      "loss": 0.0862,
-      "step": 26000
     },
     {
-      "epoch": 75.3623188405797,
-      "eval_loss": 0.7805651426315308,
-      "eval_runtime": 160.3239,
-      "eval_samples_per_second": 16.242,
-      "eval_steps_per_second": 4.061,
-      "eval_wer": 0.3575804590842185,
-      "step": 26000
     },
     {
-      "epoch": 76.81159420289855,
-      "grad_norm": 0.6956751346588135,
-      "learning_rate": 7.066764705882352e-05,
-      "loss": 0.0851,
-      "step": 26500
     },
     {
-      "epoch": 76.81159420289855,
-      "eval_loss": 0.7946861982345581,
-      "eval_runtime": 156.9716,
-      "eval_samples_per_second": 16.589,
-      "eval_steps_per_second": 4.147,
-      "eval_wer": 0.3582567529935951,
-      "step": 26500
     },
     {
-      "epoch": 78.26086956521739,
-      "grad_norm": 0.6056320667266846,
-      "learning_rate": 6.625588235294117e-05,
-      "loss": 0.0846,
-      "step": 27000
     },
     {
-      "epoch": 78.26086956521739,
-      "eval_loss": 0.7801975607872009,
-      "eval_runtime": 156.8934,
-      "eval_samples_per_second": 16.597,
-      "eval_steps_per_second": 4.149,
-      "eval_wer": 0.3526276007479015,
-      "step": 27000
     },
     {
-      "epoch": 79.71014492753623,
-      "grad_norm": 0.7737133502960205,
-      "learning_rate": 6.184411764705882e-05,
-      "loss": 0.0809,
-      "step": 27500
     },
     {
-      "epoch": 79.71014492753623,
-      "eval_loss": 0.8093453049659729,
-      "eval_runtime": 156.9304,
-      "eval_samples_per_second": 16.593,
-      "eval_steps_per_second": 4.148,
-      "eval_wer": 0.3532243306679397,
-      "step": 27500
     },
     {
-      "epoch": 81.15942028985508,
-      "grad_norm": 0.4759688377380371,
-      "learning_rate": 5.7449999999999994e-05,
-      "loss": 0.0813,
-      "step": 28000
     },
     {
-      "epoch": 81.15942028985508,
-      "eval_loss": 0.8237009644508362,
-      "eval_runtime": 156.9785,
-      "eval_samples_per_second": 16.588,
-      "eval_steps_per_second": 4.147,
-      "eval_wer": 0.3571627481401918,
-      "step": 28000
     },
     {
-      "epoch": 82.6086956521739,
-      "grad_norm": 0.6076968908309937,
-      "learning_rate": 5.303823529411764e-05,
-      "loss": 0.0785,
-      "step": 28500
     },
     {
-      "epoch": 82.6086956521739,
-      "eval_loss": 0.8130338191986084,
-      "eval_runtime": 157.2925,
-      "eval_samples_per_second": 16.555,
-      "eval_steps_per_second": 4.139,
-      "eval_wer": 0.35330389465727813,
-      "step": 28500
     },
     {
-      "epoch": 84.05797101449275,
-      "grad_norm": 0.452317476272583,
-      "learning_rate": 4.862647058823529e-05,
-      "loss": 0.0799,
-      "step": 29000
     },
     {
-      "epoch": 84.05797101449275,
-      "eval_loss": 0.7957727909088135,
-      "eval_runtime": 157.045,
-      "eval_samples_per_second": 16.581,
-      "eval_steps_per_second": 4.145,
-      "eval_wer": 0.3510959939531368,
-      "step": 29000
     },
     {
-      "epoch": 85.5072463768116,
-      "grad_norm": 0.48164471983909607,
-      "learning_rate": 4.4214705882352936e-05,
-      "loss": 0.0784,
-      "step": 29500
     },
     {
-      "epoch": 85.5072463768116,
-      "eval_loss": 0.8108227252960205,
-      "eval_runtime": 157.2491,
-      "eval_samples_per_second": 16.56,
-      "eval_steps_per_second": 4.14,
-      "eval_wer": 0.35065839201177545,
-      "step": 29500
     },
     {
-      "epoch": 86.95652173913044,
-      "grad_norm": 0.46430978178977966,
-      "learning_rate": 3.9802941176470584e-05,
-      "loss": 0.0767,
-      "step": 30000
     },
     {
-      "epoch": 86.95652173913044,
-      "eval_loss": 0.8208354711532593,
-      "eval_runtime": 157.1037,
-      "eval_samples_per_second": 16.575,
-      "eval_steps_per_second": 4.144,
-      "eval_wer": 0.3510959939531368,
-      "step": 30000
     },
     {
-      "epoch": 88.40579710144928,
-      "grad_norm": 0.678175687789917,
-      "learning_rate": 3.539117647058823e-05,
-      "loss": 0.0742,
-      "step": 30500
     },
     {
-      "epoch": 88.40579710144928,
-      "eval_loss": 0.8270174860954285,
-      "eval_runtime": 157.1113,
-      "eval_samples_per_second": 16.574,
-      "eval_steps_per_second": 4.144,
-      "eval_wer": 0.3500815530890719,
-      "step": 30500
     },
     {
-      "epoch": 89.85507246376811,
-      "grad_norm": 1.0150262117385864,
-      "learning_rate": 3.097941176470588e-05,
-      "loss": 0.0746,
-      "step": 31000
     },
     {
-      "epoch": 89.85507246376811,
-      "eval_loss": 0.8121225237846375,
-      "eval_runtime": 157.194,
-      "eval_samples_per_second": 16.566,
-      "eval_steps_per_second": 4.141,
-      "eval_wer": 0.3458646616541353,
-      "step": 31000
     },
     {
-      "epoch": 91.30434782608695,
-      "grad_norm": 0.6040120124816895,
-      "learning_rate": 2.6567647058823526e-05,
-      "loss": 0.073,
-      "step": 31500
     },
     {
-      "epoch": 91.30434782608695,
-      "eval_loss": 0.8151441812515259,
-      "eval_runtime": 157.4683,
-      "eval_samples_per_second": 16.537,
-      "eval_steps_per_second": 4.134,
-      "eval_wer": 0.34849027330230337,
-      "step": 31500
     },
     {
-      "epoch": 92.7536231884058,
-      "grad_norm": 0.4965975284576416,
-      "learning_rate": 2.2155882352941177e-05,
-      "loss": 0.0725,
-      "step": 32000
-    },
-    {
-      "epoch": 92.7536231884058,
-      "eval_loss": 0.8264575600624084,
-      "eval_runtime": 157.3691,
-      "eval_samples_per_second": 16.547,
-      "eval_steps_per_second": 4.137,
-      "eval_wer": 0.34773441540358835,
-      "step": 32000
-    },
-    {
-      "epoch": 94.20289855072464,
-      "grad_norm": 0.4107760190963745,
-      "learning_rate": 1.7752941176470586e-05,
-      "loss": 0.0717,
-      "step": 32500
-    },
-    {
-      "epoch": 94.20289855072464,
-      "eval_loss": 0.817254900932312,
-      "eval_runtime": 157.3782,
-      "eval_samples_per_second": 16.546,
-      "eval_steps_per_second": 4.137,
-      "eval_wer": 0.3445916378247205,
-      "step": 32500
-    },
-    {
-      "epoch": 95.65217391304348,
-      "grad_norm": 0.5178669691085815,
-      "learning_rate": 1.3341176470588234e-05,
-      "loss": 0.0709,
-      "step": 33000
-    },
-    {
-      "epoch": 95.65217391304348,
-      "eval_loss": 0.8134782314300537,
-      "eval_runtime": 157.5041,
-      "eval_samples_per_second": 16.533,
-      "eval_steps_per_second": 4.133,
-      "eval_wer": 0.34341806898197874,
-      "step": 33000
-    },
-    {
-      "epoch": 97.10144927536231,
-      "grad_norm": 0.4780011773109436,
-      "learning_rate": 8.929411764705881e-06,
-      "loss": 0.0704,
-      "step": 33500
-    },
-    {
-      "epoch": 97.10144927536231,
-      "eval_loss": 0.817874550819397,
-      "eval_runtime": 157.0668,
-      "eval_samples_per_second": 16.579,
-      "eval_steps_per_second": 4.145,
-      "eval_wer": 0.3431197040219597,
-      "step": 33500
-    },
-    {
-      "epoch": 98.55072463768116,
-      "grad_norm": 0.44165438413619995,
-      "learning_rate": 4.5176470588235295e-06,
-      "loss": 0.0699,
-      "step": 34000
-    },
-    {
-      "epoch": 98.55072463768116,
-      "eval_loss": 0.8134194612503052,
-      "eval_runtime": 157.034,
-      "eval_samples_per_second": 16.582,
-      "eval_steps_per_second": 4.146,
-      "eval_wer": 0.3426622110832637,
-      "step": 34000
-    },
-    {
-      "epoch": 100.0,
-      "grad_norm": 1.7415516376495361,
-      "learning_rate": 1.1470588235294118e-07,
-      "loss": 0.0691,
-      "step": 34500
-    },
-    {
-      "epoch": 100.0,
-      "eval_loss": 0.8155142664909363,
-      "eval_runtime": 157.1295,
-      "eval_samples_per_second": 16.572,
-      "eval_steps_per_second": 4.143,
-      "eval_wer": 0.34280144806460594,
-      "step": 34500
-    },
-    {
-      "epoch": 100.0,
-      "step": 34500,
-      "total_flos": 3.512425533037396e+19,
-      "train_loss": 0.26323221057394275,
-      "train_runtime": 51849.7109,
-      "train_samples_per_second": 5.321,
-      "train_steps_per_second": 0.665
     }
   ],
-  "logging_steps": 500,
-  "max_steps": 34500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 100,
-  "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -1139,8 +1411,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.512425533037396e+19,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.8512468338012695,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/wav2vec2-base-librispeech-model/checkpoint-16800",
+  "epoch": 99.4231884057971,
+  "eval_steps": 200,
+  "global_step": 17200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.1565217391304348,
+      "grad_norm": 1.2893730401992798,
+      "learning_rate": 0.00029699999999999996,
+      "loss": 4.7426,
+      "step": 200
     },
     {
+      "epoch": 1.1565217391304348,
+      "eval_loss": 2.8968212604522705,
+      "eval_runtime": 126.7808,
+      "eval_samples_per_second": 20.539,
+      "eval_steps_per_second": 2.571,
+      "eval_wer": 1.0,
+      "step": 200
     },
     {
+      "epoch": 2.3130434782608695,
+      "grad_norm": 0.3036455512046814,
+      "learning_rate": 0.0002965058823529411,
+      "loss": 2.7493,
+      "step": 400
+    },
+    {
+      "epoch": 2.3130434782608695,
+      "eval_loss": 2.26717472076416,
+      "eval_runtime": 126.2768,
+      "eval_samples_per_second": 20.621,
+      "eval_steps_per_second": 2.582,
+      "eval_wer": 0.9989457771412659,
+      "step": 400
+    },
+    {
+      "epoch": 3.4695652173913043,
+      "grad_norm": 0.44915950298309326,
+      "learning_rate": 0.0002929764705882353,
+      "loss": 2.0156,
+      "step": 600
+    },
+    {
+      "epoch": 3.4695652173913043,
+      "eval_loss": 1.6933485269546509,
+      "eval_runtime": 126.1204,
+      "eval_samples_per_second": 20.647,
+      "eval_steps_per_second": 2.585,
+      "eval_wer": 0.9759716752197956,
+      "step": 600
+    },
+    {
+      "epoch": 4.626086956521739,
+      "grad_norm": 0.3140698969364166,
+      "learning_rate": 0.0002894470588235294,
+      "loss": 1.7839,
+      "step": 800
+    },
+    {
+      "epoch": 4.626086956521739,
+      "eval_loss": 1.5435950756072998,
+      "eval_runtime": 126.0194,
+      "eval_samples_per_second": 20.663,
+      "eval_steps_per_second": 2.587,
+      "eval_wer": 0.960735171261487,
+      "step": 800
+    },
+    {
+      "epoch": 5.782608695652174,
+      "grad_norm": 0.40944600105285645,
+      "learning_rate": 0.0002859176470588235,
+      "loss": 1.6691,
       "step": 1000
     },
     {
+      "epoch": 5.782608695652174,
+      "eval_loss": 1.4462971687316895,
+      "eval_runtime": 130.6554,
+      "eval_samples_per_second": 19.93,
+      "eval_steps_per_second": 2.495,
+      "eval_wer": 0.9393921311214545,
       "step": 1000
     },
     {
+      "epoch": 6.939130434782609,
+      "grad_norm": 0.39339712262153625,
+      "learning_rate": 0.00028238823529411764,
+      "loss": 1.592,
+      "step": 1200
+    },
+    {
+      "epoch": 6.939130434782609,
+      "eval_loss": 1.3824982643127441,
+      "eval_runtime": 125.9506,
+      "eval_samples_per_second": 20.675,
+      "eval_steps_per_second": 2.588,
+      "eval_wer": 0.9289493575207861,
+      "step": 1200
+    },
+    {
+      "epoch": 8.092753623188406,
+      "grad_norm": 0.4750897288322449,
+      "learning_rate": 0.00027885882352941176,
+      "loss": 1.5384,
+      "step": 1400
+    },
+    {
+      "epoch": 8.092753623188406,
+      "eval_loss": 1.3446310758590698,
+      "eval_runtime": 126.0297,
+      "eval_samples_per_second": 20.662,
+      "eval_steps_per_second": 2.587,
+      "eval_wer": 0.9162986832159764,
+      "step": 1400
+    },
+    {
+      "epoch": 9.24927536231884,
+      "grad_norm": 0.9390007257461548,
+      "learning_rate": 0.0002753294117647059,
+      "loss": 1.4929,
+      "step": 1600
+    },
+    {
+      "epoch": 9.24927536231884,
+      "eval_loss": 1.317173957824707,
+      "eval_runtime": 126.3023,
+      "eval_samples_per_second": 20.617,
+      "eval_steps_per_second": 2.581,
+      "eval_wer": 0.9207144846242591,
+      "step": 1600
     },
     {
+      "epoch": 10.405797101449275,
+      "grad_norm": 0.3777698576450348,
+      "learning_rate": 0.0002718,
+      "loss": 1.4563,
+      "step": 1800
     },
     {
+      "epoch": 10.405797101449275,
+      "eval_loss": 1.2747116088867188,
+      "eval_runtime": 130.3532,
+      "eval_samples_per_second": 19.976,
+      "eval_steps_per_second": 2.501,
+      "eval_wer": 0.907427298404742,
+      "step": 1800
+    },
+    {
+      "epoch": 11.56231884057971,
+      "grad_norm": 0.4892979562282562,
+      "learning_rate": 0.00026827058823529406,
+      "loss": 1.4278,
       "step": 2000
     },
     {
+      "epoch": 11.56231884057971,
+      "eval_loss": 1.2533023357391357,
+      "eval_runtime": 126.6214,
+      "eval_samples_per_second": 20.565,
+      "eval_steps_per_second": 2.575,
+      "eval_wer": 0.9113657158769941,
       "step": 2000
     },
     {
+      "epoch": 12.718840579710145,
+      "grad_norm": 0.4739660620689392,
+      "learning_rate": 0.00026474117647058823,
+      "loss": 1.3945,
+      "step": 2200
+    },
+    {
+      "epoch": 12.718840579710145,
+      "eval_loss": 1.2253831624984741,
+      "eval_runtime": 126.6581,
+      "eval_samples_per_second": 20.559,
+      "eval_steps_per_second": 2.574,
+      "eval_wer": 0.8960297569320126,
+      "step": 2200
+    },
+    {
+      "epoch": 13.87536231884058,
+      "grad_norm": 0.4378398060798645,
+      "learning_rate": 0.00026121176470588235,
+      "loss": 1.3772,
+      "step": 2400
+    },
+    {
+      "epoch": 13.87536231884058,
+      "eval_loss": 1.2075964212417603,
+      "eval_runtime": 126.6197,
+      "eval_samples_per_second": 20.566,
+      "eval_steps_per_second": 2.575,
+      "eval_wer": 0.9005450133269682,
+      "step": 2400
+    },
+    {
+      "epoch": 15.028985507246377,
+      "grad_norm": 0.5404449105262756,
+      "learning_rate": 0.00025768235294117646,
+      "loss": 1.3473,
+      "step": 2600
+    },
+    {
+      "epoch": 15.028985507246377,
+      "eval_loss": 1.1940252780914307,
+      "eval_runtime": 126.7107,
+      "eval_samples_per_second": 20.551,
+      "eval_steps_per_second": 2.573,
+      "eval_wer": 0.8836973385845567,
+      "step": 2600
     },
     {
+      "epoch": 16.18550724637681,
+      "grad_norm": 0.4465963840484619,
+      "learning_rate": 0.0002541529411764706,
+      "loss": 1.3281,
+      "step": 2800
     },
     {
+      "epoch": 16.18550724637681,
+      "eval_loss": 1.1721361875534058,
+      "eval_runtime": 126.7359,
+      "eval_samples_per_second": 20.547,
+      "eval_steps_per_second": 2.572,
+      "eval_wer": 0.8849305804193022,
+      "step": 2800
+    },
+    {
+      "epoch": 17.342028985507245,
+      "grad_norm": 0.36305734515190125,
+      "learning_rate": 0.00025062352941176465,
+      "loss": 1.3126,
       "step": 3000
     },
     {
+      "epoch": 17.342028985507245,
+      "eval_loss": 1.1684266328811646,
+      "eval_runtime": 126.6868,
+      "eval_samples_per_second": 20.555,
+      "eval_steps_per_second": 2.573,
+      "eval_wer": 0.8771929824561403,
       "step": 3000
     },
     {
+      "epoch": 18.49855072463768,
+      "grad_norm": 0.8538926243782043,
+      "learning_rate": 0.0002470941176470588,
+      "loss": 1.294,
+      "step": 3200
     },
     {
+      "epoch": 18.49855072463768,
+      "eval_loss": 1.1741454601287842,
+      "eval_runtime": 126.8469,
+      "eval_samples_per_second": 20.529,
+      "eval_steps_per_second": 2.57,
+      "eval_wer": 0.8795799021362931,
+      "step": 3200
     },
     {
+      "epoch": 19.655072463768114,
+      "grad_norm": 0.4263986051082611,
+      "learning_rate": 0.00024356470588235294,
+      "loss": 1.277,
+      "step": 3400
+    },
+    {
+      "epoch": 19.655072463768114,
+      "eval_loss": 1.1416850090026855,
+      "eval_runtime": 126.7443,
+      "eval_samples_per_second": 20.545,
+      "eval_steps_per_second": 2.572,
+      "eval_wer": 0.8725384890798424,
+      "step": 3400
+    },
+    {
+      "epoch": 20.81159420289855,
+      "grad_norm": 0.5871867537498474,
+      "learning_rate": 0.00024003529411764703,
+      "loss": 1.2668,
+      "step": 3600
+    },
+    {
+      "epoch": 20.81159420289855,
+      "eval_loss": 1.13175368309021,
+      "eval_runtime": 126.8413,
+      "eval_samples_per_second": 20.53,
+      "eval_steps_per_second": 2.57,
+      "eval_wer": 0.8663722799061145,
+      "step": 3600
+    },
+    {
+      "epoch": 21.968115942028987,
+      "grad_norm": 0.455477237701416,
+      "learning_rate": 0.00023650588235294115,
+      "loss": 1.2456,
+      "step": 3800
+    },
+    {
+      "epoch": 21.968115942028987,
+      "eval_loss": 1.1195415258407593,
+      "eval_runtime": 127.194,
+      "eval_samples_per_second": 20.473,
+      "eval_steps_per_second": 2.563,
+      "eval_wer": 0.8677845407168715,
+      "step": 3800
+    },
+    {
+      "epoch": 23.121739130434783,
+      "grad_norm": 0.3989470601081848,
+      "learning_rate": 0.0002329764705882353,
+      "loss": 1.2317,
       "step": 4000
     },
     {
+      "epoch": 23.121739130434783,
+      "eval_loss": 1.1132415533065796,
+      "eval_runtime": 126.9937,
+      "eval_samples_per_second": 20.505,
+      "eval_steps_per_second": 2.567,
+      "eval_wer": 0.8625532084178701,
       "step": 4000
     },
     {
+      "epoch": 24.278260869565216,
+      "grad_norm": 0.5162937045097351,
+      "learning_rate": 0.00022944705882352938,
+      "loss": 1.2225,
+      "step": 4200
+    },
+    {
+      "epoch": 24.278260869565216,
+      "eval_loss": 1.1121087074279785,
+      "eval_runtime": 126.8632,
+      "eval_samples_per_second": 20.526,
+      "eval_steps_per_second": 2.57,
+      "eval_wer": 0.8715638302104467,
+      "step": 4200
     },
     {
+      "epoch": 25.434782608695652,
+      "grad_norm": 0.4300783574581146,
+      "learning_rate": 0.00022591764705882353,
+      "loss": 1.2059,
+      "step": 4400
     },
     {
+      "epoch": 25.434782608695652,
+      "eval_loss": 1.1003350019454956,
+      "eval_runtime": 131.7283,
+      "eval_samples_per_second": 19.768,
+      "eval_steps_per_second": 2.475,
+      "eval_wer": 0.8622747344551855,
+      "step": 4400
+    },
+    {
+      "epoch": 26.591304347826085,
+      "grad_norm": 0.4021275043487549,
+      "learning_rate": 0.00022238823529411762,
+      "loss": 1.1991,
+      "step": 4600
+    },
+    {
+      "epoch": 26.591304347826085,
+      "eval_loss": 1.0933383703231812,
+      "eval_runtime": 127.0907,
+      "eval_samples_per_second": 20.489,
+      "eval_steps_per_second": 2.565,
+      "eval_wer": 0.8598878147750328,
+      "step": 4600
+    },
+    {
+      "epoch": 27.747826086956522,
+      "grad_norm": 0.8139039874076843,
+      "learning_rate": 0.00021885882352941174,
+      "loss": 1.1832,
+      "step": 4800
+    },
+    {
+      "epoch": 27.747826086956522,
+      "eval_loss": 1.089185118675232,
+      "eval_runtime": 127.3985,
+      "eval_samples_per_second": 20.44,
+      "eval_steps_per_second": 2.559,
+      "eval_wer": 0.8555913593507578,
+      "step": 4800
+    },
+    {
+      "epoch": 28.904347826086955,
+      "grad_norm": 0.42960914969444275,
+      "learning_rate": 0.00021532941176470588,
+      "loss": 1.1732,
       "step": 5000
     },
     {
+      "epoch": 28.904347826086955,
+      "eval_loss": 1.0722780227661133,
+      "eval_runtime": 127.3657,
+      "eval_samples_per_second": 20.445,
+      "eval_steps_per_second": 2.56,
+      "eval_wer": 0.8469387755102041,
       "step": 5000
     },
     {
+      "epoch": 30.057971014492754,
+      "grad_norm": 0.4363812804222107,
+      "learning_rate": 0.00021179999999999997,
+      "loss": 1.1588,
+      "step": 5200
+    },
+    {
+      "epoch": 30.057971014492754,
+      "eval_loss": 1.0763438940048218,
+      "eval_runtime": 127.5044,
+      "eval_samples_per_second": 20.423,
+      "eval_steps_per_second": 2.557,
+      "eval_wer": 0.8478537613875959,
+      "step": 5200
+    },
+    {
+      "epoch": 31.214492753623187,
+      "grad_norm": 0.49785545468330383,
+      "learning_rate": 0.0002082705882352941,
+      "loss": 1.149,
+      "step": 5400
+    },
+    {
+      "epoch": 31.214492753623187,
+      "eval_loss": 1.0577690601348877,
+      "eval_runtime": 127.6923,
+      "eval_samples_per_second": 20.393,
+      "eval_steps_per_second": 2.553,
+      "eval_wer": 0.8409515853124876,
+      "step": 5400
+    },
+    {
+      "epoch": 32.37101449275362,
+      "grad_norm": 0.3857053220272064,
+      "learning_rate": 0.00020474117647058823,
+      "loss": 1.1398,
+      "step": 5600
+    },
+    {
+      "epoch": 32.37101449275362,
+      "eval_loss": 1.0509884357452393,
+      "eval_runtime": 127.2975,
+      "eval_samples_per_second": 20.456,
+      "eval_steps_per_second": 2.561,
+      "eval_wer": 0.8412101682778375,
+      "step": 5600
+    },
+    {
+      "epoch": 33.527536231884056,
+      "grad_norm": 0.4151206612586975,
+      "learning_rate": 0.00020121176470588233,
+      "loss": 1.1297,
+      "step": 5800
     },
     {
+      "epoch": 33.527536231884056,
+      "eval_loss": 1.0429149866104126,
+      "eval_runtime": 127.4154,
+      "eval_samples_per_second": 20.437,
+      "eval_steps_per_second": 2.559,
+      "eval_wer": 0.8413494052591797,
+      "step": 5800
     },
     {
+      "epoch": 34.68405797101449,
+      "grad_norm": 0.46378350257873535,
+      "learning_rate": 0.00019768235294117647,
+      "loss": 1.117,
       "step": 6000
     },
     {
+      "epoch": 34.68405797101449,
+      "eval_loss": 1.0374654531478882,
+      "eval_runtime": 127.3947,
+      "eval_samples_per_second": 20.44,
+      "eval_steps_per_second": 2.559,
+      "eval_wer": 0.8321796554879262,
       "step": 6000
     },
     {
+      "epoch": 35.84057971014493,
+      "grad_norm": 0.4410320222377777,
+      "learning_rate": 0.00019415294117647056,
+      "loss": 1.1119,
+      "step": 6200
+    },
+    {
+      "epoch": 35.84057971014493,
+      "eval_loss": 1.0412153005599976,
+      "eval_runtime": 127.3041,
+      "eval_samples_per_second": 20.455,
+      "eval_steps_per_second": 2.561,
+      "eval_wer": 0.8316227075625572,
+      "step": 6200
+    },
+    {
+      "epoch": 36.99710144927536,
+      "grad_norm": 1.033341884613037,
+      "learning_rate": 0.00019062352941176468,
+      "loss": 1.0986,
+      "step": 6400
+    },
+    {
+      "epoch": 36.99710144927536,
+      "eval_loss": 1.029122233390808,
+      "eval_runtime": 127.5003,
+      "eval_samples_per_second": 20.423,
+      "eval_steps_per_second": 2.557,
+      "eval_wer": 0.8341687552213868,
+      "step": 6400
+    },
+    {
+      "epoch": 38.15072463768116,
+      "grad_norm": 0.44958433508872986,
+      "learning_rate": 0.00018709411764705882,
+      "loss": 1.0858,
+      "step": 6600
+    },
+    {
+      "epoch": 38.15072463768116,
+      "eval_loss": 1.0151913166046143,
+      "eval_runtime": 127.4524,
+      "eval_samples_per_second": 20.431,
+      "eval_steps_per_second": 2.558,
+      "eval_wer": 0.824103910570076,
+      "step": 6600
+    },
+    {
+      "epoch": 39.30724637681159,
+      "grad_norm": 0.42733389139175415,
+      "learning_rate": 0.00018356470588235291,
+      "loss": 1.0781,
+      "step": 6800
     },
     {
+      "epoch": 39.30724637681159,
+      "eval_loss": 1.028800129890442,
+      "eval_runtime": 127.5392,
+      "eval_samples_per_second": 20.417,
+      "eval_steps_per_second": 2.556,
+      "eval_wer": 0.8245017305167681,
+      "step": 6800
     },
     {
+      "epoch": 40.46376811594203,
+      "grad_norm": 0.5106310248374939,
+      "learning_rate": 0.00018003529411764703,
+      "loss": 1.0712,
       "step": 7000
     },
     {
+      "epoch": 40.46376811594203,
+      "eval_loss": 1.009470820426941,
+      "eval_runtime": 127.3801,
+      "eval_samples_per_second": 20.443,
+      "eval_steps_per_second": 2.559,
+      "eval_wer": 0.8191112702390898,
       "step": 7000
     },
     {
+      "epoch": 41.620289855072464,
+      "grad_norm": 0.4691919982433319,
+      "learning_rate": 0.00017650588235294118,
+      "loss": 1.0646,
+      "step": 7200
     },
     {
+      "epoch": 41.620289855072464,
+      "eval_loss": 1.0001919269561768,
+      "eval_runtime": 127.5273,
+      "eval_samples_per_second": 20.419,
+      "eval_steps_per_second": 2.556,
+      "eval_wer": 0.8189521422604129,
+      "step": 7200
     },
     {
+      "epoch": 42.7768115942029,
+      "grad_norm": 0.4837665855884552,
+      "learning_rate": 0.00017297647058823527,
+      "loss": 1.052,
+      "step": 7400
     },
     {
+      "epoch": 42.7768115942029,
+      "eval_loss": 0.9987174868583679,
+      "eval_runtime": 127.7719,
+      "eval_samples_per_second": 20.38,
+      "eval_steps_per_second": 2.551,
+      "eval_wer": 0.8281616740263357,
+      "step": 7400
     },
     {
+      "epoch": 43.93333333333333,
+      "grad_norm": 0.4914618134498596,
+      "learning_rate": 0.00016944705882352941,
+      "loss": 1.0422,
+      "step": 7600
     },
     {
+      "epoch": 43.93333333333333,
+      "eval_loss": 0.9949682950973511,
+      "eval_runtime": 127.6961,
+      "eval_samples_per_second": 20.392,
+      "eval_steps_per_second": 2.553,
+      "eval_wer": 0.8155109997215261,
+      "step": 7600
     },
     {
+      "epoch": 45.08695652173913,
+      "grad_norm": 0.4811262786388397,
+      "learning_rate": 0.0001659176470588235,
+      "loss": 1.0345,
+      "step": 7800
     },
     {
+      "epoch": 45.08695652173913,
+      "eval_loss": 0.9906212091445923,
+      "eval_runtime": 127.616,
+      "eval_samples_per_second": 20.405,
+      "eval_steps_per_second": 2.555,
+      "eval_wer": 0.8113139992839241,
+      "step": 7800
     },
     {
+      "epoch": 46.243478260869566,
+      "grad_norm": 0.7449145317077637,
+      "learning_rate": 0.00016238823529411762,
+      "loss": 1.0209,
+      "step": 8000
     },
     {
+      "epoch": 46.243478260869566,
+      "eval_loss": 0.9777077436447144,
+      "eval_runtime": 127.811,
+      "eval_samples_per_second": 20.374,
+      "eval_steps_per_second": 2.551,
+      "eval_wer": 0.812129530174643,
+      "step": 8000
     },
     {
+      "epoch": 47.4,
+      "grad_norm": 0.48268821835517883,
+      "learning_rate": 0.00015885882352941177,
+      "loss": 1.0217,
+      "step": 8200
     },
     {
+      "epoch": 47.4,
+      "eval_loss": 0.9648416638374329,
+      "eval_runtime": 127.7579,
+      "eval_samples_per_second": 20.382,
+      "eval_steps_per_second": 2.552,
+      "eval_wer": 0.8048295341528424,
+      "step": 8200
     },
     {
+      "epoch": 48.55652173913043,
+      "grad_norm": 0.5607514977455139,
+      "learning_rate": 0.00015532941176470586,
+      "loss": 1.0067,
+      "step": 8400
     },
     {
+      "epoch": 48.55652173913043,
+      "eval_loss": 0.9864305853843689,
+      "eval_runtime": 127.8335,
+      "eval_samples_per_second": 20.37,
+      "eval_steps_per_second": 2.55,
+      "eval_wer": 0.8027210884353742,
+      "step": 8400
     },
     {
+      "epoch": 49.71304347826087,
+      "grad_norm": 0.6017518043518066,
+      "learning_rate": 0.00015179999999999998,
+      "loss": 1.0033,
+      "step": 8600
     },
     {
+      "epoch": 49.71304347826087,
+      "eval_loss": 0.9633412957191467,
+      "eval_runtime": 127.7324,
+      "eval_samples_per_second": 20.386,
+      "eval_steps_per_second": 2.552,
+      "eval_wer": 0.7977284481043879,
+      "step": 8600
     },
     {
+      "epoch": 50.869565217391305,
+      "grad_norm": 0.5103667974472046,
+      "learning_rate": 0.0001482705882352941,
+      "loss": 0.9925,
+      "step": 8800
     },
     {
+      "epoch": 50.869565217391305,
+      "eval_loss": 0.9522212147712708,
+      "eval_runtime": 127.8431,
+      "eval_samples_per_second": 20.369,
+      "eval_steps_per_second": 2.55,
+      "eval_wer": 0.7946254525201893,
+      "step": 8800
     },
     {
+      "epoch": 52.0231884057971,
+      "grad_norm": 0.5089967250823975,
+      "learning_rate": 0.0001447411764705882,
+      "loss": 0.9784,
+      "step": 9000
     },
     {
+      "epoch": 52.0231884057971,
+      "eval_loss": 0.9520332217216492,
+      "eval_runtime": 127.451,
+      "eval_samples_per_second": 20.431,
+      "eval_steps_per_second": 2.558,
+      "eval_wer": 0.7978875760830648,
+      "step": 9000
     },
     {
+      "epoch": 53.17971014492753,
+      "grad_norm": 0.4959864020347595,
+      "learning_rate": 0.00014121176470588236,
+      "loss": 0.9757,
+      "step": 9200
     },
     {
+      "epoch": 53.17971014492753,
+      "eval_loss": 0.940946638584137,
+      "eval_runtime": 127.57,
+      "eval_samples_per_second": 20.412,
+      "eval_steps_per_second": 2.555,
+      "eval_wer": 0.78828022437045,
+      "step": 9200
     },
     {
+      "epoch": 54.33623188405797,
+      "grad_norm": 0.518679678440094,
+      "learning_rate": 0.00013768235294117645,
+      "loss": 0.9648,
+      "step": 9400
     },
     {
+      "epoch": 54.33623188405797,
+      "eval_loss": 0.9465099573135376,
+      "eval_runtime": 127.6829,
+      "eval_samples_per_second": 20.394,
+      "eval_steps_per_second": 2.553,
+      "eval_wer": 0.788578589330469,
+      "step": 9400
     },
     {
+      "epoch": 55.492753623188406,
+      "grad_norm": 0.7649258375167847,
+      "learning_rate": 0.00013415294117647057,
+      "loss": 0.9553,
+      "step": 9600
     },
     {
+      "epoch": 55.492753623188406,
+      "eval_loss": 0.9416138529777527,
+      "eval_runtime": 127.6278,
+      "eval_samples_per_second": 20.403,
+      "eval_steps_per_second": 2.554,
+      "eval_wer": 0.7877829494370848,
+      "step": 9600
     },
     {
+      "epoch": 56.64927536231884,
+      "grad_norm": 0.4904441237449646,
+      "learning_rate": 0.00013062352941176468,
+      "loss": 0.955,
+      "step": 9800
     },
     {
+      "epoch": 56.64927536231884,
+      "eval_loss": 0.9271659255027771,
+      "eval_runtime": 127.4634,
+      "eval_samples_per_second": 20.429,
+      "eval_steps_per_second": 2.558,
+      "eval_wer": 0.7855153757409397,
+      "step": 9800
     },
     {
+      "epoch": 57.80579710144927,
+      "grad_norm": 0.46599653363227844,
+      "learning_rate": 0.00012709411764705883,
+      "loss": 0.9442,
+      "step": 10000
     },
     {
+      "epoch": 57.80579710144927,
+      "eval_loss": 0.9268618822097778,
+      "eval_runtime": 127.2806,
+      "eval_samples_per_second": 20.459,
+      "eval_steps_per_second": 2.561,
+      "eval_wer": 0.7777976687751124,
+      "step": 10000
     },
     {
+      "epoch": 58.96231884057971,
+      "grad_norm": 0.5592873096466064,
+      "learning_rate": 0.00012356470588235292,
+      "loss": 0.9346,
+      "step": 10200
     },
     {
+      "epoch": 58.96231884057971,
+      "eval_loss": 0.9154264330863953,
+      "eval_runtime": 127.5803,
+      "eval_samples_per_second": 20.411,
+      "eval_steps_per_second": 2.555,
+      "eval_wer": 0.7685085730198512,
+      "step": 10200
     },
     {
+      "epoch": 60.11594202898551,
+      "grad_norm": 0.4597800374031067,
+      "learning_rate": 0.00012003529411764705,
+      "loss": 0.9271,
+      "step": 10400
     },
     {
+      "epoch": 60.11594202898551,
+      "eval_loss": 0.9182903170585632,
+      "eval_runtime": 127.6408,
+      "eval_samples_per_second": 20.401,
+      "eval_steps_per_second": 2.554,
+      "eval_wer": 0.7704777817559773,
+      "step": 10400
     },
     {
+      "epoch": 61.27246376811594,
+      "grad_norm": 0.5329666137695312,
+      "learning_rate": 0.00011650588235294116,
+      "loss": 0.9165,
+      "step": 10600
     },
     {
+      "epoch": 61.27246376811594,
+      "eval_loss": 0.9233406186103821,
+      "eval_runtime": 128.0081,
+      "eval_samples_per_second": 20.342,
+      "eval_steps_per_second": 2.547,
+      "eval_wer": 0.7725862274734455,
+      "step": 10600
     },
     {
+      "epoch": 62.428985507246374,
+      "grad_norm": 0.546533465385437,
+      "learning_rate": 0.00011297647058823529,
+      "loss": 0.9165,
+      "step": 10800
     },
     {
+      "epoch": 62.428985507246374,
+      "eval_loss": 0.9042327404022217,
+      "eval_runtime": 127.7124,
+      "eval_samples_per_second": 20.39,
+      "eval_steps_per_second": 2.553,
+      "eval_wer": 0.7694235588972431,
+      "step": 10800
     },
     {
+      "epoch": 63.585507246376814,
+      "grad_norm": 0.49292466044425964,
+      "learning_rate": 0.0001094470588235294,
+      "loss": 0.9088,
+      "step": 11000
     },
     {
+      "epoch": 63.585507246376814,
+      "eval_loss": 0.9099429845809937,
+      "eval_runtime": 127.459,
+      "eval_samples_per_second": 20.43,
+      "eval_steps_per_second": 2.558,
+      "eval_wer": 0.7645900465449338,
+      "step": 11000
     },
     {
+      "epoch": 64.74202898550725,
+      "grad_norm": 0.7860192656517029,
+      "learning_rate": 0.00010591764705882352,
+      "loss": 0.9018,
+      "step": 11200
     },
     {
+      "epoch": 64.74202898550725,
+      "eval_loss": 0.8967615365982056,
+      "eval_runtime": 127.4599,
+      "eval_samples_per_second": 20.43,
+      "eval_steps_per_second": 2.558,
+      "eval_wer": 0.7602140271313204,
+      "step": 11200
     },
     {
+      "epoch": 65.89855072463769,
+      "grad_norm": 0.4933035373687744,
+      "learning_rate": 0.00010238823529411763,
+      "loss": 0.8985,
+      "step": 11400
     },
     {
+      "epoch": 65.89855072463769,
+      "eval_loss": 0.8918899297714233,
+      "eval_runtime": 127.4862,
+      "eval_samples_per_second": 20.426,
+      "eval_steps_per_second": 2.557,
+      "eval_wer": 0.7606118470780124,
+      "step": 11400
     },
     {
+      "epoch": 67.05217391304348,
+      "grad_norm": 0.5119895935058594,
+      "learning_rate": 9.885882352941176e-05,
+      "loss": 0.8851,
+      "step": 11600
     },
     {
+      "epoch": 67.05217391304348,
+      "eval_loss": 0.8957463502883911,
+      "eval_runtime": 127.6383,
+      "eval_samples_per_second": 20.401,
+      "eval_steps_per_second": 2.554,
+      "eval_wer": 0.75442574690695,
+      "step": 11600
     },
     {
+      "epoch": 68.20869565217392,
+      "grad_norm": 0.61966872215271,
+      "learning_rate": 9.532941176470588e-05,
+      "loss": 0.8834,
+      "step": 11800
     },
     {
+      "epoch": 68.20869565217392,
+      "eval_loss": 0.8949310183525085,
+      "eval_runtime": 127.6674,
+      "eval_samples_per_second": 20.397,
+      "eval_steps_per_second": 2.554,
+      "eval_wer": 0.7545848748856268,
+      "step": 11800
     },
     {
+      "epoch": 69.36521739130434,
+      "grad_norm": 0.5450541973114014,
+      "learning_rate": 9.18e-05,
+      "loss": 0.8779,
+      "step": 12000
     },
     {
+      "epoch": 69.36521739130434,
+      "eval_loss": 0.8951545357704163,
+      "eval_runtime": 127.7527,
+      "eval_samples_per_second": 20.383,
+      "eval_steps_per_second": 2.552,
+      "eval_wer": 0.7552213868003341,
+      "step": 12000
     },
     {
+      "epoch": 70.52173913043478,
+      "grad_norm": 0.46215394139289856,
+      "learning_rate": 8.82705882352941e-05,
+      "loss": 0.8708,
+      "step": 12200
     },
     {
+      "epoch": 70.52173913043478,
+      "eval_loss": 0.8882645964622498,
+      "eval_runtime": 127.6812,
+      "eval_samples_per_second": 20.395,
+      "eval_steps_per_second": 2.553,
+      "eval_wer": 0.75265544814417,
+      "step": 12200
     },
     {
+      "epoch": 71.67826086956522,
+      "grad_norm": 0.5442056059837341,
+      "learning_rate": 8.474117647058823e-05,
+      "loss": 0.8669,
+      "step": 12400
     },
     {
+      "epoch": 71.67826086956522,
+      "eval_loss": 0.8810063600540161,
+      "eval_runtime": 127.6211,
+      "eval_samples_per_second": 20.404,
+      "eval_steps_per_second": 2.554,
+      "eval_wer": 0.7488761586505948,
+      "step": 12400
     },
     {
+      "epoch": 72.83478260869565,
+      "grad_norm": 0.540812611579895,
+      "learning_rate": 8.121176470588235e-05,
+      "loss": 0.8616,
+      "step": 12600
     },
     {
+      "epoch": 72.83478260869565,
+      "eval_loss": 0.8785393834114075,
+      "eval_runtime": 127.672,
+      "eval_samples_per_second": 20.396,
+      "eval_steps_per_second": 2.553,
+      "eval_wer": 0.7446393762183235,
+      "step": 12600
     },
     {
+      "epoch": 73.99130434782609,
+      "grad_norm": 0.7264253497123718,
+      "learning_rate": 7.768235294117647e-05,
+      "loss": 0.8572,
+      "step": 12800
     },
     {
+      "epoch": 73.99130434782609,
+      "eval_loss": 0.8806383013725281,
+      "eval_runtime": 127.5992,
+      "eval_samples_per_second": 20.408,
+      "eval_steps_per_second": 2.555,
+      "eval_wer": 0.7415761626287942,
+      "step": 12800
     },
     {
+      "epoch": 75.14492753623189,
+      "grad_norm": 0.5088544487953186,
+      "learning_rate": 7.415294117647058e-05,
+      "loss": 0.8536,
+      "step": 13000
     },
     {
+      "epoch": 75.14492753623189,
+      "eval_loss": 0.8745167851448059,
+      "eval_runtime": 127.7753,
+      "eval_samples_per_second": 20.38,
+      "eval_steps_per_second": 2.551,
+      "eval_wer": 0.7391295699566376,
+      "step": 13000
     },
     {
+      "epoch": 76.30144927536232,
+      "grad_norm": 0.5131168961524963,
+      "learning_rate": 7.06235294117647e-05,
+      "loss": 0.8453,
+      "step": 13200
     },
     {
+      "epoch": 76.30144927536232,
+      "eval_loss": 0.8805530071258545,
+      "eval_runtime": 127.9225,
+      "eval_samples_per_second": 20.356,
+      "eval_steps_per_second": 2.548,
+      "eval_wer": 0.7384731670445956,
+      "step": 13200
     },
     {
+      "epoch": 77.45797101449276,
+      "grad_norm": 0.6087790131568909,
+      "learning_rate": 6.709411764705882e-05,
+      "loss": 0.8435,
+      "step": 13400
     },
     {
+      "epoch": 77.45797101449276,
+      "eval_loss": 0.8695724606513977,
+      "eval_runtime": 132.7677,
+      "eval_samples_per_second": 19.613,
+      "eval_steps_per_second": 2.455,
+      "eval_wer": 0.7399053188526873,
+      "step": 13400
     },
     {
+      "epoch": 78.61449275362318,
+      "grad_norm": 0.49738621711730957,
+      "learning_rate": 6.356470588235294e-05,
+      "loss": 0.8392,
+      "step": 13600
     },
     {
+      "epoch": 78.61449275362318,
+      "eval_loss": 0.8718934059143066,
+      "eval_runtime": 128.0532,
+      "eval_samples_per_second": 20.335,
+      "eval_steps_per_second": 2.546,
+      "eval_wer": 0.7387317500099455,
+      "step": 13600
     },
     {
+      "epoch": 79.77101449275362,
+      "grad_norm": 0.5539494156837463,
+      "learning_rate": 6.003529411764706e-05,
+      "loss": 0.8361,
+      "step": 13800
     },
     {
+      "epoch": 79.77101449275362,
+      "eval_loss": 0.8683921694755554,
+      "eval_runtime": 128.202,
+      "eval_samples_per_second": 20.312,
+      "eval_steps_per_second": 2.543,
+      "eval_wer": 0.7372598162071846,
+      "step": 13800
     },
     {
+      "epoch": 80.92753623188406,
+      "grad_norm": 0.5560426712036133,
+      "learning_rate": 5.650588235294117e-05,
+      "loss": 0.8339,
+      "step": 14000
+    },
+    {
+      "epoch": 80.92753623188406,
+      "eval_loss": 0.8655583262443542,
+      "eval_runtime": 128.1625,
+      "eval_samples_per_second": 20.318,
+      "eval_steps_per_second": 2.544,
+      "eval_wer": 0.7349325695190357,
+      "step": 14000
+    },
+    {
+      "epoch": 82.08115942028985,
+      "grad_norm": 0.5128791928291321,
+      "learning_rate": 5.299411764705882e-05,
+      "loss": 0.8264,
+      "step": 14200
+    },
+    {
+      "epoch": 82.08115942028985,
+      "eval_loss": 0.8635972738265991,
+      "eval_runtime": 128.0931,
+      "eval_samples_per_second": 20.329,
+      "eval_steps_per_second": 2.545,
+      "eval_wer": 0.7316704459561603,
+      "step": 14200
     },
     {
+      "epoch": 83.23768115942029,
+      "grad_norm": 0.7810338139533997,
+      "learning_rate": 4.946470588235294e-05,
+      "loss": 0.8184,
+      "step": 14400
     },
     {
+      "epoch": 83.23768115942029,
+      "eval_loss": 0.8625103831291199,
+      "eval_runtime": 128.3971,
+      "eval_samples_per_second": 20.281,
+      "eval_steps_per_second": 2.539,
+      "eval_wer": 0.732943469785575,
+      "step": 14400
     },
     {
+      "epoch": 84.39420289855073,
+      "grad_norm": 0.5399278998374939,
+      "learning_rate": 4.593529411764705e-05,
+      "loss": 0.8246,
+      "step": 14600
     },
     {
+      "epoch": 84.39420289855073,
+      "eval_loss": 0.8625257611274719,
+      "eval_runtime": 128.2959,
+      "eval_samples_per_second": 20.297,
+      "eval_steps_per_second": 2.541,
+      "eval_wer": 0.7340971476309822,
+      "step": 14600
     },
     {
+      "epoch": 85.55072463768116,
+      "grad_norm": 0.4938839077949524,
+      "learning_rate": 4.240588235294118e-05,
+      "loss": 0.8176,
+      "step": 14800
     },
     {
+      "epoch": 85.55072463768116,
+      "eval_loss": 0.8633288741111755,
+      "eval_runtime": 128.0601,
+      "eval_samples_per_second": 20.334,
+      "eval_steps_per_second": 2.546,
+      "eval_wer": 0.732088156900187,
+      "step": 14800
     },
     {
+      "epoch": 86.7072463768116,
+      "grad_norm": 0.5640541911125183,
+      "learning_rate": 3.887647058823529e-05,
+      "loss": 0.8167,
+      "step": 15000
+    },
+    {
+      "epoch": 86.7072463768116,
+      "eval_loss": 0.8610928654670715,
+      "eval_runtime": 128.3971,
+      "eval_samples_per_second": 20.281,
+      "eval_steps_per_second": 2.539,
+      "eval_wer": 0.7309344790547798,
+      "step": 15000
     },
     {
+      "epoch": 87.86376811594202,
+      "grad_norm": 0.5315191149711609,
+      "learning_rate": 3.534705882352941e-05,
+      "loss": 0.8123,
+      "step": 15200
     },
     {
+      "epoch": 87.86376811594202,
+      "eval_loss": 0.8582242131233215,
+      "eval_runtime": 128.0796,
+      "eval_samples_per_second": 20.331,
+      "eval_steps_per_second": 2.545,
+      "eval_wer": 0.7285873413692963,
+      "step": 15200
     },
     {
+      "epoch": 89.01739130434783,
+      "grad_norm": 0.5748764276504517,
+      "learning_rate": 3.1817647058823525e-05,
+      "loss": 0.8045,
+      "step": 15400
     },
     {
+      "epoch": 89.01739130434783,
+      "eval_loss": 0.8577102422714233,
+      "eval_runtime": 128.1955,
+      "eval_samples_per_second": 20.313,
+      "eval_steps_per_second": 2.543,
+      "eval_wer": 0.7275331185105621,
+      "step": 15400
     },
     {
+      "epoch": 90.17391304347827,
+      "grad_norm": 0.5497247576713562,
+      "learning_rate": 2.8288235294117643e-05,
+      "loss": 0.8121,
+      "step": 15600
     },
     {
+      "epoch": 90.17391304347827,
+      "eval_loss": 0.8565927147865295,
+      "eval_runtime": 128.1806,
+      "eval_samples_per_second": 20.315,
+      "eval_steps_per_second": 2.543,
+      "eval_wer": 0.7265982416358356,
+      "step": 15600
     },
     {
+      "epoch": 91.33043478260869,
+      "grad_norm": 0.5754753947257996,
+      "learning_rate": 2.475882352941176e-05,
+      "loss": 0.8061,
+      "step": 15800
     },
     {
+      "epoch": 91.33043478260869,
+      "eval_loss": 0.8549688458442688,
+      "eval_runtime": 128.2142,
+      "eval_samples_per_second": 20.31,
+      "eval_steps_per_second": 2.543,
+      "eval_wer": 0.7265783506385011,
+      "step": 15800
     },
     {
+      "epoch": 92.48695652173913,
+      "grad_norm": 0.7763922810554504,
+      "learning_rate": 2.122941176470588e-05,
+      "loss": 0.7999,
+      "step": 16000
     },
     {
+      "epoch": 92.48695652173913,
+      "eval_loss": 0.8554069399833679,
+      "eval_runtime": 128.218,
+      "eval_samples_per_second": 20.309,
+      "eval_steps_per_second": 2.543,
+      "eval_wer": 0.725723037753113,
+      "step": 16000
     },
     {
+      "epoch": 93.64347826086957,
+      "grad_norm": 0.5108122825622559,
+      "learning_rate": 1.7699999999999997e-05,
+      "loss": 0.7977,
+      "step": 16200
     },
     {
+      "epoch": 93.64347826086957,
+      "eval_loss": 0.8529220819473267,
+      "eval_runtime": 128.0979,
+      "eval_samples_per_second": 20.328,
+      "eval_steps_per_second": 2.545,
+      "eval_wer": 0.7248876158650595,
+      "step": 16200
     },
     {
+      "epoch": 94.8,
+      "grad_norm": 0.501833975315094,
+      "learning_rate": 1.4188235294117647e-05,
+      "loss": 0.7999,
+      "step": 16400
     },
     {
+      "epoch": 94.8,
+      "eval_loss": 0.8523918390274048,
+      "eval_runtime": 128.3137,
+      "eval_samples_per_second": 20.294,
+      "eval_steps_per_second": 2.541,
+      "eval_wer": 0.7234753550543024,
+      "step": 16400
     },
     {
+      "epoch": 95.95652173913044,
+      "grad_norm": 0.6044087409973145,
+      "learning_rate": 1.0658823529411765e-05,
+      "loss": 0.798,
+      "step": 16600
     },
     {
+      "epoch": 95.95652173913044,
+      "eval_loss": 0.852449893951416,
+      "eval_runtime": 129.1001,
+      "eval_samples_per_second": 20.17,
+      "eval_steps_per_second": 2.525,
+      "eval_wer": 0.7250865258384055,
+      "step": 16600
     },
     {
+      "epoch": 97.11014492753623,
+      "grad_norm": 0.5589261054992676,
+      "learning_rate": 7.1294117647058815e-06,
+      "loss": 0.7932,
+      "step": 16800
     },
     {
+      "epoch": 97.11014492753623,
+      "eval_loss": 0.8512468338012695,
+      "eval_runtime": 128.4107,
+      "eval_samples_per_second": 20.279,
+      "eval_steps_per_second": 2.539,
+      "eval_wer": 0.7236941560249831,
+      "step": 16800
     },
     {
+      "epoch": 98.26666666666667,
+      "grad_norm": 0.4919562339782715,
+      "learning_rate": 3.6e-06,
+      "loss": 0.793,
+      "step": 17000
     },
     {
+      "epoch": 98.26666666666667,
+      "eval_loss": 0.8516792058944702,
+      "eval_runtime": 128.4775,
+      "eval_samples_per_second": 20.268,
+      "eval_steps_per_second": 2.537,
+      "eval_wer": 0.7228985161315988,
+      "step": 17000
     },
     {
+      "epoch": 99.4231884057971,
+      "grad_norm": 0.5763407945632935,
+      "learning_rate": 7.058823529411765e-08,
+      "loss": 0.7989,
+      "step": 17200
     },
     {
+      "epoch": 99.4231884057971,
+      "eval_loss": 0.8514899611473083,
+      "eval_runtime": 128.5442,
+      "eval_samples_per_second": 20.258,
+      "eval_steps_per_second": 2.536,
+      "eval_wer": 0.7236344830329793,
+      "step": 17200
     },
     {
+      "epoch": 99.4231884057971,
+      "step": 17200,
+      "total_flos": 3.3406327721118188e+19,
+      "train_loss": 1.118092892668968,
+      "train_runtime": 45286.7863,
+      "train_samples_per_second": 6.092,
+      "train_steps_per_second": 0.38
     }
   ],
+  "logging_steps": 200,
+  "max_steps": 17200,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 100,
+  "save_steps": 200,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 3.3406327721118188e+19,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }