End of training

Browse files

Files changed (7) hide show

README.md +5 -2
adapter.eng.safetensors +2 -2
all_results.json +9 -9
eval_results.json +5 -5
runs/Mar11_20-35-40_srvrocgpu011.uct.ac.za/events.out.tfevents.1741764214.srvrocgpu011.uct.ac.za.31183.1 +3 -0
train_results.json +4 -4
trainer_state.json +601 -601

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: apache-2.0
 base_model: facebook/wav2vec2-base-960h
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # wav2vec2-base-librispeech-model
-This model is a fine-tuned version of [facebook/wav2vec2-base-960h](https://huggingface.co/facebook/wav2vec2-base-960h) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.8515
-- Wer: 0.7230
 ## Model description

 license: apache-2.0
 base_model: facebook/wav2vec2-base-960h
 tags:
+- automatic-speech-recognition
+- libri10h
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # wav2vec2-base-librispeech-model
+This model is a fine-tuned version of [facebook/wav2vec2-base-960h](https://huggingface.co/facebook/wav2vec2-base-960h) on the LIBRI10H - ENG dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.8515
+- Wer: 0.7226
 ## Model description

adapter.eng.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5227271458e2148b60995be53604c884de9775ac1d560989c01006974d075768
-size 19101500

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d6d1cdf2d600a156e728c608d5a4e2e983b986c64d6d702eb30085c2a90208b
+size 19101788

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 99.4231884057971,
-    "eval_loss": 0.8513913154602051,
-    "eval_runtime": 128.9183,
     "eval_samples": 2604,
-    "eval_samples_per_second": 20.199,
-    "eval_steps_per_second": 2.529,
-    "eval_wer": 0.7245295779130365,
     "total_flos": 3.3406327721118188e+19,
-    "train_loss": 1.118092892668968,
-    "train_runtime": 45286.7863,
     "train_samples": 2759,
-    "train_samples_per_second": 6.092,
-    "train_steps_per_second": 0.38
 }

 {
     "epoch": 99.4231884057971,
+    "eval_loss": 0.8515061736106873,
+    "eval_runtime": 131.4192,
     "eval_samples": 2604,
+    "eval_samples_per_second": 19.814,
+    "eval_steps_per_second": 2.481,
+    "eval_wer": 0.7226001511715797,
     "total_flos": 3.3406327721118188e+19,
+    "train_loss": 1.1172501763632132,
+    "train_runtime": 45795.1729,
     "train_samples": 2759,
+    "train_samples_per_second": 6.025,
+    "train_steps_per_second": 0.376
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 99.4231884057971,
-    "eval_loss": 0.8513913154602051,
-    "eval_runtime": 128.9183,
     "eval_samples": 2604,
-    "eval_samples_per_second": 20.199,
-    "eval_steps_per_second": 2.529,
-    "eval_wer": 0.7245295779130365
 }

 {
     "epoch": 99.4231884057971,
+    "eval_loss": 0.8515061736106873,
+    "eval_runtime": 131.4192,
     "eval_samples": 2604,
+    "eval_samples_per_second": 19.814,
+    "eval_steps_per_second": 2.481,
+    "eval_wer": 0.7226001511715797
 }

runs/Mar11_20-35-40_srvrocgpu011.uct.ac.za/events.out.tfevents.1741764214.srvrocgpu011.uct.ac.za.31183.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:801fa5f12a4d0e798dae53184fb24d8efc3190ce186785a232c6eae194bab890
+size 412

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 99.4231884057971,
     "total_flos": 3.3406327721118188e+19,
-    "train_loss": 1.118092892668968,
-    "train_runtime": 45286.7863,
     "train_samples": 2759,
-    "train_samples_per_second": 6.092,
-    "train_steps_per_second": 0.38
 }

 {
     "epoch": 99.4231884057971,
     "total_flos": 3.3406327721118188e+19,
+    "train_loss": 1.1172501763632132,
+    "train_runtime": 45795.1729,
     "train_samples": 2759,
+    "train_samples_per_second": 6.025,
+    "train_steps_per_second": 0.376
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.8512468338012695,
-  "best_model_checkpoint": "/scratch/skscla001/speech/results/wav2vec2-base-librispeech-model/checkpoint-16800",
   "epoch": 99.4231884057971,
   "eval_steps": 200,
   "global_step": 17200,
@@ -10,1388 +10,1388 @@
   "log_history": [
     {
       "epoch": 1.1565217391304348,
-      "grad_norm": 1.2893730401992798,
       "learning_rate": 0.00029699999999999996,
       "loss": 4.7426,
       "step": 200
     },
     {
       "epoch": 1.1565217391304348,
-      "eval_loss": 2.8968212604522705,
-      "eval_runtime": 126.7808,
-      "eval_samples_per_second": 20.539,
-      "eval_steps_per_second": 2.571,
       "eval_wer": 1.0,
       "step": 200
     },
     {
       "epoch": 2.3130434782608695,
-      "grad_norm": 0.3036455512046814,
       "learning_rate": 0.0002965058823529411,
       "loss": 2.7493,
       "step": 400
     },
     {
       "epoch": 2.3130434782608695,
-      "eval_loss": 2.26717472076416,
-      "eval_runtime": 126.2768,
-      "eval_samples_per_second": 20.621,
-      "eval_steps_per_second": 2.582,
-      "eval_wer": 0.9989457771412659,
       "step": 400
     },
     {
       "epoch": 3.4695652173913043,
-      "grad_norm": 0.44915950298309326,
       "learning_rate": 0.0002929764705882353,
-      "loss": 2.0156,
       "step": 600
     },
     {
       "epoch": 3.4695652173913043,
-      "eval_loss": 1.6933485269546509,
-      "eval_runtime": 126.1204,
-      "eval_samples_per_second": 20.647,
-      "eval_steps_per_second": 2.585,
-      "eval_wer": 0.9759716752197956,
       "step": 600
     },
     {
       "epoch": 4.626086956521739,
-      "grad_norm": 0.3140698969364166,
       "learning_rate": 0.0002894470588235294,
-      "loss": 1.7839,
       "step": 800
     },
     {
       "epoch": 4.626086956521739,
-      "eval_loss": 1.5435950756072998,
-      "eval_runtime": 126.0194,
-      "eval_samples_per_second": 20.663,
-      "eval_steps_per_second": 2.587,
-      "eval_wer": 0.960735171261487,
       "step": 800
     },
     {
       "epoch": 5.782608695652174,
-      "grad_norm": 0.40944600105285645,
       "learning_rate": 0.0002859176470588235,
-      "loss": 1.6691,
       "step": 1000
     },
     {
       "epoch": 5.782608695652174,
-      "eval_loss": 1.4462971687316895,
-      "eval_runtime": 130.6554,
-      "eval_samples_per_second": 19.93,
-      "eval_steps_per_second": 2.495,
-      "eval_wer": 0.9393921311214545,
       "step": 1000
     },
     {
       "epoch": 6.939130434782609,
-      "grad_norm": 0.39339712262153625,
       "learning_rate": 0.00028238823529411764,
-      "loss": 1.592,
       "step": 1200
     },
     {
       "epoch": 6.939130434782609,
-      "eval_loss": 1.3824982643127441,
-      "eval_runtime": 125.9506,
-      "eval_samples_per_second": 20.675,
-      "eval_steps_per_second": 2.588,
-      "eval_wer": 0.9289493575207861,
       "step": 1200
     },
     {
       "epoch": 8.092753623188406,
-      "grad_norm": 0.4750897288322449,
       "learning_rate": 0.00027885882352941176,
-      "loss": 1.5384,
       "step": 1400
     },
     {
       "epoch": 8.092753623188406,
-      "eval_loss": 1.3446310758590698,
-      "eval_runtime": 126.0297,
-      "eval_samples_per_second": 20.662,
-      "eval_steps_per_second": 2.587,
-      "eval_wer": 0.9162986832159764,
       "step": 1400
     },
     {
       "epoch": 9.24927536231884,
-      "grad_norm": 0.9390007257461548,
       "learning_rate": 0.0002753294117647059,
-      "loss": 1.4929,
       "step": 1600
     },
     {
       "epoch": 9.24927536231884,
-      "eval_loss": 1.317173957824707,
-      "eval_runtime": 126.3023,
-      "eval_samples_per_second": 20.617,
-      "eval_steps_per_second": 2.581,
-      "eval_wer": 0.9207144846242591,
       "step": 1600
     },
     {
       "epoch": 10.405797101449275,
-      "grad_norm": 0.3777698576450348,
       "learning_rate": 0.0002718,
-      "loss": 1.4563,
       "step": 1800
     },
     {
       "epoch": 10.405797101449275,
-      "eval_loss": 1.2747116088867188,
-      "eval_runtime": 130.3532,
-      "eval_samples_per_second": 19.976,
-      "eval_steps_per_second": 2.501,
-      "eval_wer": 0.907427298404742,
       "step": 1800
     },
     {
       "epoch": 11.56231884057971,
-      "grad_norm": 0.4892979562282562,
       "learning_rate": 0.00026827058823529406,
-      "loss": 1.4278,
       "step": 2000
     },
     {
       "epoch": 11.56231884057971,
-      "eval_loss": 1.2533023357391357,
-      "eval_runtime": 126.6214,
-      "eval_samples_per_second": 20.565,
-      "eval_steps_per_second": 2.575,
-      "eval_wer": 0.9113657158769941,
       "step": 2000
     },
     {
       "epoch": 12.718840579710145,
-      "grad_norm": 0.4739660620689392,
       "learning_rate": 0.00026474117647058823,
-      "loss": 1.3945,
       "step": 2200
     },
     {
       "epoch": 12.718840579710145,
-      "eval_loss": 1.2253831624984741,
-      "eval_runtime": 126.6581,
-      "eval_samples_per_second": 20.559,
-      "eval_steps_per_second": 2.574,
-      "eval_wer": 0.8960297569320126,
       "step": 2200
     },
     {
       "epoch": 13.87536231884058,
-      "grad_norm": 0.4378398060798645,
       "learning_rate": 0.00026121176470588235,
-      "loss": 1.3772,
       "step": 2400
     },
     {
       "epoch": 13.87536231884058,
-      "eval_loss": 1.2075964212417603,
-      "eval_runtime": 126.6197,
-      "eval_samples_per_second": 20.566,
-      "eval_steps_per_second": 2.575,
-      "eval_wer": 0.9005450133269682,
       "step": 2400
     },
     {
       "epoch": 15.028985507246377,
-      "grad_norm": 0.5404449105262756,
       "learning_rate": 0.00025768235294117646,
-      "loss": 1.3473,
       "step": 2600
     },
     {
       "epoch": 15.028985507246377,
-      "eval_loss": 1.1940252780914307,
-      "eval_runtime": 126.7107,
-      "eval_samples_per_second": 20.551,
-      "eval_steps_per_second": 2.573,
-      "eval_wer": 0.8836973385845567,
       "step": 2600
     },
     {
       "epoch": 16.18550724637681,
-      "grad_norm": 0.4465963840484619,
       "learning_rate": 0.0002541529411764706,
-      "loss": 1.3281,
       "step": 2800
     },
     {
       "epoch": 16.18550724637681,
-      "eval_loss": 1.1721361875534058,
-      "eval_runtime": 126.7359,
-      "eval_samples_per_second": 20.547,
-      "eval_steps_per_second": 2.572,
-      "eval_wer": 0.8849305804193022,
       "step": 2800
     },
     {
       "epoch": 17.342028985507245,
-      "grad_norm": 0.36305734515190125,
       "learning_rate": 0.00025062352941176465,
-      "loss": 1.3126,
       "step": 3000
     },
     {
       "epoch": 17.342028985507245,
-      "eval_loss": 1.1684266328811646,
-      "eval_runtime": 126.6868,
-      "eval_samples_per_second": 20.555,
-      "eval_steps_per_second": 2.573,
-      "eval_wer": 0.8771929824561403,
       "step": 3000
     },
     {
       "epoch": 18.49855072463768,
-      "grad_norm": 0.8538926243782043,
       "learning_rate": 0.0002470941176470588,
-      "loss": 1.294,
       "step": 3200
     },
     {
       "epoch": 18.49855072463768,
-      "eval_loss": 1.1741454601287842,
-      "eval_runtime": 126.8469,
-      "eval_samples_per_second": 20.529,
-      "eval_steps_per_second": 2.57,
-      "eval_wer": 0.8795799021362931,
       "step": 3200
     },
     {
       "epoch": 19.655072463768114,
-      "grad_norm": 0.4263986051082611,
       "learning_rate": 0.00024356470588235294,
-      "loss": 1.277,
       "step": 3400
     },
     {
       "epoch": 19.655072463768114,
-      "eval_loss": 1.1416850090026855,
-      "eval_runtime": 126.7443,
-      "eval_samples_per_second": 20.545,
-      "eval_steps_per_second": 2.572,
-      "eval_wer": 0.8725384890798424,
       "step": 3400
     },
     {
       "epoch": 20.81159420289855,
-      "grad_norm": 0.5871867537498474,
       "learning_rate": 0.00024003529411764703,
-      "loss": 1.2668,
       "step": 3600
     },
     {
       "epoch": 20.81159420289855,
-      "eval_loss": 1.13175368309021,
-      "eval_runtime": 126.8413,
-      "eval_samples_per_second": 20.53,
-      "eval_steps_per_second": 2.57,
-      "eval_wer": 0.8663722799061145,
       "step": 3600
     },
     {
       "epoch": 21.968115942028987,
-      "grad_norm": 0.455477237701416,
       "learning_rate": 0.00023650588235294115,
-      "loss": 1.2456,
       "step": 3800
     },
     {
       "epoch": 21.968115942028987,
-      "eval_loss": 1.1195415258407593,
-      "eval_runtime": 127.194,
-      "eval_samples_per_second": 20.473,
-      "eval_steps_per_second": 2.563,
-      "eval_wer": 0.8677845407168715,
       "step": 3800
     },
     {
       "epoch": 23.121739130434783,
-      "grad_norm": 0.3989470601081848,
       "learning_rate": 0.0002329764705882353,
-      "loss": 1.2317,
       "step": 4000
     },
     {
       "epoch": 23.121739130434783,
-      "eval_loss": 1.1132415533065796,
-      "eval_runtime": 126.9937,
-      "eval_samples_per_second": 20.505,
-      "eval_steps_per_second": 2.567,
-      "eval_wer": 0.8625532084178701,
       "step": 4000
     },
     {
       "epoch": 24.278260869565216,
-      "grad_norm": 0.5162937045097351,
       "learning_rate": 0.00022944705882352938,
-      "loss": 1.2225,
       "step": 4200
     },
     {
       "epoch": 24.278260869565216,
-      "eval_loss": 1.1121087074279785,
-      "eval_runtime": 126.8632,
-      "eval_samples_per_second": 20.526,
-      "eval_steps_per_second": 2.57,
-      "eval_wer": 0.8715638302104467,
       "step": 4200
     },
     {
       "epoch": 25.434782608695652,
-      "grad_norm": 0.4300783574581146,
       "learning_rate": 0.00022591764705882353,
-      "loss": 1.2059,
       "step": 4400
     },
     {
       "epoch": 25.434782608695652,
-      "eval_loss": 1.1003350019454956,
-      "eval_runtime": 131.7283,
-      "eval_samples_per_second": 19.768,
-      "eval_steps_per_second": 2.475,
-      "eval_wer": 0.8622747344551855,
       "step": 4400
     },
     {
       "epoch": 26.591304347826085,
-      "grad_norm": 0.4021275043487549,
       "learning_rate": 0.00022238823529411762,
-      "loss": 1.1991,
       "step": 4600
     },
     {
       "epoch": 26.591304347826085,
-      "eval_loss": 1.0933383703231812,
-      "eval_runtime": 127.0907,
-      "eval_samples_per_second": 20.489,
-      "eval_steps_per_second": 2.565,
-      "eval_wer": 0.8598878147750328,
       "step": 4600
     },
     {
       "epoch": 27.747826086956522,
-      "grad_norm": 0.8139039874076843,
       "learning_rate": 0.00021885882352941174,
-      "loss": 1.1832,
       "step": 4800
     },
     {
       "epoch": 27.747826086956522,
-      "eval_loss": 1.089185118675232,
-      "eval_runtime": 127.3985,
-      "eval_samples_per_second": 20.44,
-      "eval_steps_per_second": 2.559,
-      "eval_wer": 0.8555913593507578,
       "step": 4800
     },
     {
       "epoch": 28.904347826086955,
-      "grad_norm": 0.42960914969444275,
       "learning_rate": 0.00021532941176470588,
-      "loss": 1.1732,
       "step": 5000
     },
     {
       "epoch": 28.904347826086955,
-      "eval_loss": 1.0722780227661133,
-      "eval_runtime": 127.3657,
-      "eval_samples_per_second": 20.445,
-      "eval_steps_per_second": 2.56,
-      "eval_wer": 0.8469387755102041,
       "step": 5000
     },
     {
       "epoch": 30.057971014492754,
-      "grad_norm": 0.4363812804222107,
       "learning_rate": 0.00021179999999999997,
-      "loss": 1.1588,
       "step": 5200
     },
     {
       "epoch": 30.057971014492754,
-      "eval_loss": 1.0763438940048218,
-      "eval_runtime": 127.5044,
-      "eval_samples_per_second": 20.423,
-      "eval_steps_per_second": 2.557,
-      "eval_wer": 0.8478537613875959,
       "step": 5200
     },
     {
       "epoch": 31.214492753623187,
-      "grad_norm": 0.49785545468330383,
       "learning_rate": 0.0002082705882352941,
-      "loss": 1.149,
       "step": 5400
     },
     {
       "epoch": 31.214492753623187,
-      "eval_loss": 1.0577690601348877,
-      "eval_runtime": 127.6923,
-      "eval_samples_per_second": 20.393,
       "eval_steps_per_second": 2.553,
-      "eval_wer": 0.8409515853124876,
       "step": 5400
     },
     {
       "epoch": 32.37101449275362,
-      "grad_norm": 0.3857053220272064,
       "learning_rate": 0.00020474117647058823,
-      "loss": 1.1398,
       "step": 5600
     },
     {
       "epoch": 32.37101449275362,
-      "eval_loss": 1.0509884357452393,
-      "eval_runtime": 127.2975,
-      "eval_samples_per_second": 20.456,
-      "eval_steps_per_second": 2.561,
-      "eval_wer": 0.8412101682778375,
       "step": 5600
     },
     {
       "epoch": 33.527536231884056,
-      "grad_norm": 0.4151206612586975,
       "learning_rate": 0.00020121176470588233,
-      "loss": 1.1297,
       "step": 5800
     },
     {
       "epoch": 33.527536231884056,
-      "eval_loss": 1.0429149866104126,
-      "eval_runtime": 127.4154,
-      "eval_samples_per_second": 20.437,
-      "eval_steps_per_second": 2.559,
-      "eval_wer": 0.8413494052591797,
       "step": 5800
     },
     {
       "epoch": 34.68405797101449,
-      "grad_norm": 0.46378350257873535,
       "learning_rate": 0.00019768235294117647,
-      "loss": 1.117,
       "step": 6000
     },
     {
       "epoch": 34.68405797101449,
-      "eval_loss": 1.0374654531478882,
-      "eval_runtime": 127.3947,
-      "eval_samples_per_second": 20.44,
-      "eval_steps_per_second": 2.559,
-      "eval_wer": 0.8321796554879262,
       "step": 6000
     },
     {
       "epoch": 35.84057971014493,
-      "grad_norm": 0.4410320222377777,
       "learning_rate": 0.00019415294117647056,
-      "loss": 1.1119,
       "step": 6200
     },
     {
       "epoch": 35.84057971014493,
-      "eval_loss": 1.0412153005599976,
-      "eval_runtime": 127.3041,
-      "eval_samples_per_second": 20.455,
-      "eval_steps_per_second": 2.561,
-      "eval_wer": 0.8316227075625572,
       "step": 6200
     },
     {
       "epoch": 36.99710144927536,
-      "grad_norm": 1.033341884613037,
       "learning_rate": 0.00019062352941176468,
-      "loss": 1.0986,
       "step": 6400
     },
     {
       "epoch": 36.99710144927536,
-      "eval_loss": 1.029122233390808,
-      "eval_runtime": 127.5003,
-      "eval_samples_per_second": 20.423,
-      "eval_steps_per_second": 2.557,
-      "eval_wer": 0.8341687552213868,
       "step": 6400
     },
     {
       "epoch": 38.15072463768116,
-      "grad_norm": 0.44958433508872986,
       "learning_rate": 0.00018709411764705882,
-      "loss": 1.0858,
       "step": 6600
     },
     {
       "epoch": 38.15072463768116,
-      "eval_loss": 1.0151913166046143,
-      "eval_runtime": 127.4524,
-      "eval_samples_per_second": 20.431,
-      "eval_steps_per_second": 2.558,
-      "eval_wer": 0.824103910570076,
       "step": 6600
     },
     {
       "epoch": 39.30724637681159,
-      "grad_norm": 0.42733389139175415,
       "learning_rate": 0.00018356470588235291,
-      "loss": 1.0781,
       "step": 6800
     },
     {
       "epoch": 39.30724637681159,
-      "eval_loss": 1.028800129890442,
-      "eval_runtime": 127.5392,
-      "eval_samples_per_second": 20.417,
-      "eval_steps_per_second": 2.556,
-      "eval_wer": 0.8245017305167681,
       "step": 6800
     },
     {
       "epoch": 40.46376811594203,
-      "grad_norm": 0.5106310248374939,
       "learning_rate": 0.00018003529411764703,
-      "loss": 1.0712,
       "step": 7000
     },
     {
       "epoch": 40.46376811594203,
-      "eval_loss": 1.009470820426941,
-      "eval_runtime": 127.3801,
-      "eval_samples_per_second": 20.443,
-      "eval_steps_per_second": 2.559,
-      "eval_wer": 0.8191112702390898,
       "step": 7000
     },
     {
       "epoch": 41.620289855072464,
-      "grad_norm": 0.4691919982433319,
       "learning_rate": 0.00017650588235294118,
-      "loss": 1.0646,
       "step": 7200
     },
     {
       "epoch": 41.620289855072464,
-      "eval_loss": 1.0001919269561768,
-      "eval_runtime": 127.5273,
-      "eval_samples_per_second": 20.419,
-      "eval_steps_per_second": 2.556,
-      "eval_wer": 0.8189521422604129,
       "step": 7200
     },
     {
       "epoch": 42.7768115942029,
-      "grad_norm": 0.4837665855884552,
       "learning_rate": 0.00017297647058823527,
-      "loss": 1.052,
       "step": 7400
     },
     {
       "epoch": 42.7768115942029,
-      "eval_loss": 0.9987174868583679,
-      "eval_runtime": 127.7719,
-      "eval_samples_per_second": 20.38,
-      "eval_steps_per_second": 2.551,
-      "eval_wer": 0.8281616740263357,
       "step": 7400
     },
     {
       "epoch": 43.93333333333333,
-      "grad_norm": 0.4914618134498596,
       "learning_rate": 0.00016944705882352941,
-      "loss": 1.0422,
       "step": 7600
     },
     {
       "epoch": 43.93333333333333,
-      "eval_loss": 0.9949682950973511,
-      "eval_runtime": 127.6961,
-      "eval_samples_per_second": 20.392,
-      "eval_steps_per_second": 2.553,
-      "eval_wer": 0.8155109997215261,
       "step": 7600
     },
     {
       "epoch": 45.08695652173913,
-      "grad_norm": 0.4811262786388397,
       "learning_rate": 0.0001659176470588235,
-      "loss": 1.0345,
       "step": 7800
     },
     {
       "epoch": 45.08695652173913,
-      "eval_loss": 0.9906212091445923,
-      "eval_runtime": 127.616,
-      "eval_samples_per_second": 20.405,
-      "eval_steps_per_second": 2.555,
-      "eval_wer": 0.8113139992839241,
       "step": 7800
     },
     {
       "epoch": 46.243478260869566,
-      "grad_norm": 0.7449145317077637,
       "learning_rate": 0.00016238823529411762,
-      "loss": 1.0209,
       "step": 8000
     },
     {
       "epoch": 46.243478260869566,
-      "eval_loss": 0.9777077436447144,
-      "eval_runtime": 127.811,
-      "eval_samples_per_second": 20.374,
-      "eval_steps_per_second": 2.551,
-      "eval_wer": 0.812129530174643,
       "step": 8000
     },
     {
       "epoch": 47.4,
-      "grad_norm": 0.48268821835517883,
       "learning_rate": 0.00015885882352941177,
-      "loss": 1.0217,
       "step": 8200
     },
     {
       "epoch": 47.4,
-      "eval_loss": 0.9648416638374329,
-      "eval_runtime": 127.7579,
-      "eval_samples_per_second": 20.382,
-      "eval_steps_per_second": 2.552,
-      "eval_wer": 0.8048295341528424,
       "step": 8200
     },
     {
       "epoch": 48.55652173913043,
-      "grad_norm": 0.5607514977455139,
       "learning_rate": 0.00015532941176470586,
-      "loss": 1.0067,
       "step": 8400
     },
     {
       "epoch": 48.55652173913043,
-      "eval_loss": 0.9864305853843689,
-      "eval_runtime": 127.8335,
-      "eval_samples_per_second": 20.37,
-      "eval_steps_per_second": 2.55,
-      "eval_wer": 0.8027210884353742,
       "step": 8400
     },
     {
       "epoch": 49.71304347826087,
-      "grad_norm": 0.6017518043518066,
       "learning_rate": 0.00015179999999999998,
-      "loss": 1.0033,
       "step": 8600
     },
     {
       "epoch": 49.71304347826087,
-      "eval_loss": 0.9633412957191467,
-      "eval_runtime": 127.7324,
-      "eval_samples_per_second": 20.386,
-      "eval_steps_per_second": 2.552,
-      "eval_wer": 0.7977284481043879,
       "step": 8600
     },
     {
       "epoch": 50.869565217391305,
-      "grad_norm": 0.5103667974472046,
       "learning_rate": 0.0001482705882352941,
-      "loss": 0.9925,
       "step": 8800
     },
     {
       "epoch": 50.869565217391305,
-      "eval_loss": 0.9522212147712708,
-      "eval_runtime": 127.8431,
-      "eval_samples_per_second": 20.369,
-      "eval_steps_per_second": 2.55,
-      "eval_wer": 0.7946254525201893,
       "step": 8800
     },
     {
       "epoch": 52.0231884057971,
-      "grad_norm": 0.5089967250823975,
       "learning_rate": 0.0001447411764705882,
       "loss": 0.9784,
       "step": 9000
     },
     {
       "epoch": 52.0231884057971,
-      "eval_loss": 0.9520332217216492,
-      "eval_runtime": 127.451,
-      "eval_samples_per_second": 20.431,
-      "eval_steps_per_second": 2.558,
-      "eval_wer": 0.7978875760830648,
       "step": 9000
     },
     {
       "epoch": 53.17971014492753,
-      "grad_norm": 0.4959864020347595,
       "learning_rate": 0.00014121176470588236,
-      "loss": 0.9757,
       "step": 9200
     },
     {
       "epoch": 53.17971014492753,
-      "eval_loss": 0.940946638584137,
-      "eval_runtime": 127.57,
-      "eval_samples_per_second": 20.412,
-      "eval_steps_per_second": 2.555,
-      "eval_wer": 0.78828022437045,
       "step": 9200
     },
     {
       "epoch": 54.33623188405797,
-      "grad_norm": 0.518679678440094,
       "learning_rate": 0.00013768235294117645,
-      "loss": 0.9648,
       "step": 9400
     },
     {
       "epoch": 54.33623188405797,
-      "eval_loss": 0.9465099573135376,
-      "eval_runtime": 127.6829,
-      "eval_samples_per_second": 20.394,
-      "eval_steps_per_second": 2.553,
-      "eval_wer": 0.788578589330469,
       "step": 9400
     },
     {
       "epoch": 55.492753623188406,
-      "grad_norm": 0.7649258375167847,
       "learning_rate": 0.00013415294117647057,
-      "loss": 0.9553,
       "step": 9600
     },
     {
       "epoch": 55.492753623188406,
-      "eval_loss": 0.9416138529777527,
-      "eval_runtime": 127.6278,
-      "eval_samples_per_second": 20.403,
-      "eval_steps_per_second": 2.554,
-      "eval_wer": 0.7877829494370848,
       "step": 9600
     },
     {
       "epoch": 56.64927536231884,
-      "grad_norm": 0.4904441237449646,
       "learning_rate": 0.00013062352941176468,
-      "loss": 0.955,
       "step": 9800
     },
     {
       "epoch": 56.64927536231884,
-      "eval_loss": 0.9271659255027771,
-      "eval_runtime": 127.4634,
-      "eval_samples_per_second": 20.429,
-      "eval_steps_per_second": 2.558,
-      "eval_wer": 0.7855153757409397,
       "step": 9800
     },
     {
       "epoch": 57.80579710144927,
-      "grad_norm": 0.46599653363227844,
       "learning_rate": 0.00012709411764705883,
-      "loss": 0.9442,
       "step": 10000
     },
     {
       "epoch": 57.80579710144927,
-      "eval_loss": 0.9268618822097778,
-      "eval_runtime": 127.2806,
-      "eval_samples_per_second": 20.459,
-      "eval_steps_per_second": 2.561,
-      "eval_wer": 0.7777976687751124,
       "step": 10000
     },
     {
       "epoch": 58.96231884057971,
-      "grad_norm": 0.5592873096466064,
       "learning_rate": 0.00012356470588235292,
-      "loss": 0.9346,
       "step": 10200
     },
     {
       "epoch": 58.96231884057971,
-      "eval_loss": 0.9154264330863953,
-      "eval_runtime": 127.5803,
-      "eval_samples_per_second": 20.411,
-      "eval_steps_per_second": 2.555,
-      "eval_wer": 0.7685085730198512,
       "step": 10200
     },
     {
       "epoch": 60.11594202898551,
-      "grad_norm": 0.4597800374031067,
       "learning_rate": 0.00012003529411764705,
-      "loss": 0.9271,
       "step": 10400
     },
     {
       "epoch": 60.11594202898551,
-      "eval_loss": 0.9182903170585632,
-      "eval_runtime": 127.6408,
-      "eval_samples_per_second": 20.401,
-      "eval_steps_per_second": 2.554,
-      "eval_wer": 0.7704777817559773,
       "step": 10400
     },
     {
       "epoch": 61.27246376811594,
-      "grad_norm": 0.5329666137695312,
       "learning_rate": 0.00011650588235294116,
-      "loss": 0.9165,
       "step": 10600
     },
     {
       "epoch": 61.27246376811594,
-      "eval_loss": 0.9233406186103821,
-      "eval_runtime": 128.0081,
-      "eval_samples_per_second": 20.342,
-      "eval_steps_per_second": 2.547,
-      "eval_wer": 0.7725862274734455,
       "step": 10600
     },
     {
       "epoch": 62.428985507246374,
-      "grad_norm": 0.546533465385437,
       "learning_rate": 0.00011297647058823529,
-      "loss": 0.9165,
       "step": 10800
     },
     {
       "epoch": 62.428985507246374,
-      "eval_loss": 0.9042327404022217,
-      "eval_runtime": 127.7124,
-      "eval_samples_per_second": 20.39,
-      "eval_steps_per_second": 2.553,
-      "eval_wer": 0.7694235588972431,
       "step": 10800
     },
     {
       "epoch": 63.585507246376814,
-      "grad_norm": 0.49292466044425964,
       "learning_rate": 0.0001094470588235294,
-      "loss": 0.9088,
       "step": 11000
     },
     {
       "epoch": 63.585507246376814,
-      "eval_loss": 0.9099429845809937,
-      "eval_runtime": 127.459,
-      "eval_samples_per_second": 20.43,
-      "eval_steps_per_second": 2.558,
-      "eval_wer": 0.7645900465449338,
       "step": 11000
     },
     {
       "epoch": 64.74202898550725,
-      "grad_norm": 0.7860192656517029,
       "learning_rate": 0.00010591764705882352,
-      "loss": 0.9018,
       "step": 11200
     },
     {
       "epoch": 64.74202898550725,
-      "eval_loss": 0.8967615365982056,
-      "eval_runtime": 127.4599,
-      "eval_samples_per_second": 20.43,
-      "eval_steps_per_second": 2.558,
-      "eval_wer": 0.7602140271313204,
       "step": 11200
     },
     {
       "epoch": 65.89855072463769,
-      "grad_norm": 0.4933035373687744,
       "learning_rate": 0.00010238823529411763,
-      "loss": 0.8985,
       "step": 11400
     },
     {
       "epoch": 65.89855072463769,
-      "eval_loss": 0.8918899297714233,
-      "eval_runtime": 127.4862,
-      "eval_samples_per_second": 20.426,
-      "eval_steps_per_second": 2.557,
-      "eval_wer": 0.7606118470780124,
       "step": 11400
     },
     {
       "epoch": 67.05217391304348,
-      "grad_norm": 0.5119895935058594,
       "learning_rate": 9.885882352941176e-05,
-      "loss": 0.8851,
       "step": 11600
     },
     {
       "epoch": 67.05217391304348,
-      "eval_loss": 0.8957463502883911,
-      "eval_runtime": 127.6383,
-      "eval_samples_per_second": 20.401,
-      "eval_steps_per_second": 2.554,
-      "eval_wer": 0.75442574690695,
       "step": 11600
     },
     {
       "epoch": 68.20869565217392,
-      "grad_norm": 0.61966872215271,
       "learning_rate": 9.532941176470588e-05,
-      "loss": 0.8834,
       "step": 11800
     },
     {
       "epoch": 68.20869565217392,
-      "eval_loss": 0.8949310183525085,
-      "eval_runtime": 127.6674,
-      "eval_samples_per_second": 20.397,
-      "eval_steps_per_second": 2.554,
-      "eval_wer": 0.7545848748856268,
       "step": 11800
     },
     {
       "epoch": 69.36521739130434,
-      "grad_norm": 0.5450541973114014,
       "learning_rate": 9.18e-05,
-      "loss": 0.8779,
       "step": 12000
     },
     {
       "epoch": 69.36521739130434,
-      "eval_loss": 0.8951545357704163,
-      "eval_runtime": 127.7527,
-      "eval_samples_per_second": 20.383,
-      "eval_steps_per_second": 2.552,
-      "eval_wer": 0.7552213868003341,
       "step": 12000
     },
     {
       "epoch": 70.52173913043478,
-      "grad_norm": 0.46215394139289856,
       "learning_rate": 8.82705882352941e-05,
-      "loss": 0.8708,
       "step": 12200
     },
     {
       "epoch": 70.52173913043478,
-      "eval_loss": 0.8882645964622498,
-      "eval_runtime": 127.6812,
-      "eval_samples_per_second": 20.395,
-      "eval_steps_per_second": 2.553,
-      "eval_wer": 0.75265544814417,
       "step": 12200
     },
     {
       "epoch": 71.67826086956522,
-      "grad_norm": 0.5442056059837341,
       "learning_rate": 8.474117647058823e-05,
-      "loss": 0.8669,
       "step": 12400
     },
     {
       "epoch": 71.67826086956522,
-      "eval_loss": 0.8810063600540161,
-      "eval_runtime": 127.6211,
-      "eval_samples_per_second": 20.404,
-      "eval_steps_per_second": 2.554,
-      "eval_wer": 0.7488761586505948,
       "step": 12400
     },
     {
       "epoch": 72.83478260869565,
-      "grad_norm": 0.540812611579895,
       "learning_rate": 8.121176470588235e-05,
-      "loss": 0.8616,
       "step": 12600
     },
     {
       "epoch": 72.83478260869565,
-      "eval_loss": 0.8785393834114075,
-      "eval_runtime": 127.672,
-      "eval_samples_per_second": 20.396,
-      "eval_steps_per_second": 2.553,
-      "eval_wer": 0.7446393762183235,
       "step": 12600
     },
     {
       "epoch": 73.99130434782609,
-      "grad_norm": 0.7264253497123718,
       "learning_rate": 7.768235294117647e-05,
-      "loss": 0.8572,
       "step": 12800
     },
     {
       "epoch": 73.99130434782609,
-      "eval_loss": 0.8806383013725281,
-      "eval_runtime": 127.5992,
-      "eval_samples_per_second": 20.408,
-      "eval_steps_per_second": 2.555,
-      "eval_wer": 0.7415761626287942,
       "step": 12800
     },
     {
       "epoch": 75.14492753623189,
-      "grad_norm": 0.5088544487953186,
       "learning_rate": 7.415294117647058e-05,
-      "loss": 0.8536,
       "step": 13000
     },
     {
       "epoch": 75.14492753623189,
-      "eval_loss": 0.8745167851448059,
-      "eval_runtime": 127.7753,
-      "eval_samples_per_second": 20.38,
-      "eval_steps_per_second": 2.551,
-      "eval_wer": 0.7391295699566376,
       "step": 13000
     },
     {
       "epoch": 76.30144927536232,
-      "grad_norm": 0.5131168961524963,
       "learning_rate": 7.06235294117647e-05,
-      "loss": 0.8453,
       "step": 13200
     },
     {
       "epoch": 76.30144927536232,
-      "eval_loss": 0.8805530071258545,
-      "eval_runtime": 127.9225,
-      "eval_samples_per_second": 20.356,
-      "eval_steps_per_second": 2.548,
-      "eval_wer": 0.7384731670445956,
       "step": 13200
     },
     {
       "epoch": 77.45797101449276,
-      "grad_norm": 0.6087790131568909,
       "learning_rate": 6.709411764705882e-05,
       "loss": 0.8435,
       "step": 13400
     },
     {
       "epoch": 77.45797101449276,
-      "eval_loss": 0.8695724606513977,
-      "eval_runtime": 132.7677,
-      "eval_samples_per_second": 19.613,
-      "eval_steps_per_second": 2.455,
-      "eval_wer": 0.7399053188526873,
       "step": 13400
     },
     {
       "epoch": 78.61449275362318,
-      "grad_norm": 0.49738621711730957,
       "learning_rate": 6.356470588235294e-05,
-      "loss": 0.8392,
       "step": 13600
     },
     {
       "epoch": 78.61449275362318,
-      "eval_loss": 0.8718934059143066,
-      "eval_runtime": 128.0532,
-      "eval_samples_per_second": 20.335,
-      "eval_steps_per_second": 2.546,
-      "eval_wer": 0.7387317500099455,
       "step": 13600
     },
     {
       "epoch": 79.77101449275362,
-      "grad_norm": 0.5539494156837463,
       "learning_rate": 6.003529411764706e-05,
-      "loss": 0.8361,
       "step": 13800
     },
     {
       "epoch": 79.77101449275362,
-      "eval_loss": 0.8683921694755554,
-      "eval_runtime": 128.202,
-      "eval_samples_per_second": 20.312,
-      "eval_steps_per_second": 2.543,
-      "eval_wer": 0.7372598162071846,
       "step": 13800
     },
     {
       "epoch": 80.92753623188406,
-      "grad_norm": 0.5560426712036133,
       "learning_rate": 5.650588235294117e-05,
-      "loss": 0.8339,
       "step": 14000
     },
     {
       "epoch": 80.92753623188406,
-      "eval_loss": 0.8655583262443542,
-      "eval_runtime": 128.1625,
-      "eval_samples_per_second": 20.318,
-      "eval_steps_per_second": 2.544,
-      "eval_wer": 0.7349325695190357,
       "step": 14000
     },
     {
       "epoch": 82.08115942028985,
-      "grad_norm": 0.5128791928291321,
       "learning_rate": 5.299411764705882e-05,
-      "loss": 0.8264,
       "step": 14200
     },
     {
       "epoch": 82.08115942028985,
-      "eval_loss": 0.8635972738265991,
-      "eval_runtime": 128.0931,
-      "eval_samples_per_second": 20.329,
-      "eval_steps_per_second": 2.545,
-      "eval_wer": 0.7316704459561603,
       "step": 14200
     },
     {
       "epoch": 83.23768115942029,
-      "grad_norm": 0.7810338139533997,
       "learning_rate": 4.946470588235294e-05,
-      "loss": 0.8184,
       "step": 14400
     },
     {
       "epoch": 83.23768115942029,
-      "eval_loss": 0.8625103831291199,
-      "eval_runtime": 128.3971,
-      "eval_samples_per_second": 20.281,
-      "eval_steps_per_second": 2.539,
-      "eval_wer": 0.732943469785575,
       "step": 14400
     },
     {
       "epoch": 84.39420289855073,
-      "grad_norm": 0.5399278998374939,
       "learning_rate": 4.593529411764705e-05,
-      "loss": 0.8246,
       "step": 14600
     },
     {
       "epoch": 84.39420289855073,
-      "eval_loss": 0.8625257611274719,
-      "eval_runtime": 128.2959,
-      "eval_samples_per_second": 20.297,
-      "eval_steps_per_second": 2.541,
-      "eval_wer": 0.7340971476309822,
       "step": 14600
     },
     {
       "epoch": 85.55072463768116,
-      "grad_norm": 0.4938839077949524,
       "learning_rate": 4.240588235294118e-05,
       "loss": 0.8176,
       "step": 14800
     },
     {
       "epoch": 85.55072463768116,
-      "eval_loss": 0.8633288741111755,
-      "eval_runtime": 128.0601,
-      "eval_samples_per_second": 20.334,
-      "eval_steps_per_second": 2.546,
-      "eval_wer": 0.732088156900187,
       "step": 14800
     },
     {
       "epoch": 86.7072463768116,
-      "grad_norm": 0.5640541911125183,
       "learning_rate": 3.887647058823529e-05,
-      "loss": 0.8167,
       "step": 15000
     },
     {
       "epoch": 86.7072463768116,
-      "eval_loss": 0.8610928654670715,
-      "eval_runtime": 128.3971,
-      "eval_samples_per_second": 20.281,
-      "eval_steps_per_second": 2.539,
-      "eval_wer": 0.7309344790547798,
       "step": 15000
     },
     {
       "epoch": 87.86376811594202,
-      "grad_norm": 0.5315191149711609,
       "learning_rate": 3.534705882352941e-05,
-      "loss": 0.8123,
       "step": 15200
     },
     {
       "epoch": 87.86376811594202,
-      "eval_loss": 0.8582242131233215,
-      "eval_runtime": 128.0796,
-      "eval_samples_per_second": 20.331,
-      "eval_steps_per_second": 2.545,
-      "eval_wer": 0.7285873413692963,
       "step": 15200
     },
     {
       "epoch": 89.01739130434783,
-      "grad_norm": 0.5748764276504517,
       "learning_rate": 3.1817647058823525e-05,
-      "loss": 0.8045,
       "step": 15400
     },
     {
       "epoch": 89.01739130434783,
-      "eval_loss": 0.8577102422714233,
-      "eval_runtime": 128.1955,
-      "eval_samples_per_second": 20.313,
-      "eval_steps_per_second": 2.543,
-      "eval_wer": 0.7275331185105621,
       "step": 15400
     },
     {
       "epoch": 90.17391304347827,
-      "grad_norm": 0.5497247576713562,
       "learning_rate": 2.8288235294117643e-05,
-      "loss": 0.8121,
       "step": 15600
     },
     {
       "epoch": 90.17391304347827,
-      "eval_loss": 0.8565927147865295,
-      "eval_runtime": 128.1806,
-      "eval_samples_per_second": 20.315,
-      "eval_steps_per_second": 2.543,
-      "eval_wer": 0.7265982416358356,
       "step": 15600
     },
     {
       "epoch": 91.33043478260869,
-      "grad_norm": 0.5754753947257996,
       "learning_rate": 2.475882352941176e-05,
-      "loss": 0.8061,
       "step": 15800
     },
     {
       "epoch": 91.33043478260869,
-      "eval_loss": 0.8549688458442688,
-      "eval_runtime": 128.2142,
-      "eval_samples_per_second": 20.31,
-      "eval_steps_per_second": 2.543,
-      "eval_wer": 0.7265783506385011,
       "step": 15800
     },
     {
       "epoch": 92.48695652173913,
-      "grad_norm": 0.7763922810554504,
       "learning_rate": 2.122941176470588e-05,
-      "loss": 0.7999,
       "step": 16000
     },
     {
       "epoch": 92.48695652173913,
-      "eval_loss": 0.8554069399833679,
-      "eval_runtime": 128.218,
-      "eval_samples_per_second": 20.309,
-      "eval_steps_per_second": 2.543,
-      "eval_wer": 0.725723037753113,
       "step": 16000
     },
     {
       "epoch": 93.64347826086957,
-      "grad_norm": 0.5108122825622559,
       "learning_rate": 1.7699999999999997e-05,
-      "loss": 0.7977,
       "step": 16200
     },
     {
       "epoch": 93.64347826086957,
-      "eval_loss": 0.8529220819473267,
-      "eval_runtime": 128.0979,
-      "eval_samples_per_second": 20.328,
-      "eval_steps_per_second": 2.545,
-      "eval_wer": 0.7248876158650595,
       "step": 16200
     },
     {
       "epoch": 94.8,
-      "grad_norm": 0.501833975315094,
       "learning_rate": 1.4188235294117647e-05,
-      "loss": 0.7999,
       "step": 16400
     },
     {
       "epoch": 94.8,
-      "eval_loss": 0.8523918390274048,
-      "eval_runtime": 128.3137,
-      "eval_samples_per_second": 20.294,
-      "eval_steps_per_second": 2.541,
-      "eval_wer": 0.7234753550543024,
       "step": 16400
     },
     {
       "epoch": 95.95652173913044,
-      "grad_norm": 0.6044087409973145,
       "learning_rate": 1.0658823529411765e-05,
-      "loss": 0.798,
       "step": 16600
     },
     {
       "epoch": 95.95652173913044,
-      "eval_loss": 0.852449893951416,
-      "eval_runtime": 129.1001,
-      "eval_samples_per_second": 20.17,
-      "eval_steps_per_second": 2.525,
-      "eval_wer": 0.7250865258384055,
       "step": 16600
     },
     {
       "epoch": 97.11014492753623,
-      "grad_norm": 0.5589261054992676,
       "learning_rate": 7.1294117647058815e-06,
-      "loss": 0.7932,
       "step": 16800
     },
     {
       "epoch": 97.11014492753623,
-      "eval_loss": 0.8512468338012695,
-      "eval_runtime": 128.4107,
-      "eval_samples_per_second": 20.279,
-      "eval_steps_per_second": 2.539,
-      "eval_wer": 0.7236941560249831,
       "step": 16800
     },
     {
       "epoch": 98.26666666666667,
-      "grad_norm": 0.4919562339782715,
       "learning_rate": 3.6e-06,
-      "loss": 0.793,
       "step": 17000
     },
     {
       "epoch": 98.26666666666667,
-      "eval_loss": 0.8516792058944702,
-      "eval_runtime": 128.4775,
-      "eval_samples_per_second": 20.268,
-      "eval_steps_per_second": 2.537,
-      "eval_wer": 0.7228985161315988,
       "step": 17000
     },
     {
       "epoch": 99.4231884057971,
-      "grad_norm": 0.5763407945632935,
       "learning_rate": 7.058823529411765e-08,
-      "loss": 0.7989,
       "step": 17200
     },
     {
       "epoch": 99.4231884057971,
-      "eval_loss": 0.8514899611473083,
-      "eval_runtime": 128.5442,
-      "eval_samples_per_second": 20.258,
-      "eval_steps_per_second": 2.536,
-      "eval_wer": 0.7236344830329793,
       "step": 17200
     },
     {
       "epoch": 99.4231884057971,
       "step": 17200,
       "total_flos": 3.3406327721118188e+19,
-      "train_loss": 1.118092892668968,
-      "train_runtime": 45286.7863,
-      "train_samples_per_second": 6.092,
-      "train_steps_per_second": 0.38
     }
   ],
   "logging_steps": 200,

 {
+  "best_metric": 0.8514918088912964,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/wav2vec2-base-librispeech-model/checkpoint-17200",
   "epoch": 99.4231884057971,
   "eval_steps": 200,
   "global_step": 17200,
   "log_history": [
     {
       "epoch": 1.1565217391304348,
+      "grad_norm": 1.2894129753112793,
       "learning_rate": 0.00029699999999999996,
       "loss": 4.7426,
       "step": 200
     },
     {
       "epoch": 1.1565217391304348,
+      "eval_loss": 2.8968138694763184,
+      "eval_runtime": 127.7821,
+      "eval_samples_per_second": 20.378,
+      "eval_steps_per_second": 2.551,
       "eval_wer": 1.0,
       "step": 200
     },
     {
       "epoch": 2.3130434782608695,
+      "grad_norm": 0.3344170153141022,
       "learning_rate": 0.0002965058823529411,
       "loss": 2.7493,
       "step": 400
     },
     {
       "epoch": 2.3130434782608695,
+      "eval_loss": 2.271225690841675,
+      "eval_runtime": 126.821,
+      "eval_samples_per_second": 20.533,
+      "eval_steps_per_second": 2.571,
+      "eval_wer": 0.998687194175916,
       "step": 400
     },
     {
       "epoch": 3.4695652173913043,
+      "grad_norm": 0.4589632451534271,
       "learning_rate": 0.0002929764705882353,
+      "loss": 2.0118,
       "step": 600
     },
     {
       "epoch": 3.4695652173913043,
+      "eval_loss": 1.6904748678207397,
+      "eval_runtime": 126.1402,
+      "eval_samples_per_second": 20.644,
+      "eval_steps_per_second": 2.584,
+      "eval_wer": 0.9768468791025182,
       "step": 600
     },
     {
       "epoch": 4.626086956521739,
+      "grad_norm": 0.3284680247306824,
       "learning_rate": 0.0002894470588235294,
+      "loss": 1.7815,
       "step": 800
     },
     {
       "epoch": 4.626086956521739,
+      "eval_loss": 1.54061758518219,
+      "eval_runtime": 131.8205,
+      "eval_samples_per_second": 19.754,
+      "eval_steps_per_second": 2.473,
+      "eval_wer": 0.9587858535226956,
       "step": 800
     },
     {
       "epoch": 5.782608695652174,
+      "grad_norm": 0.39838629961013794,
       "learning_rate": 0.0002859176470588235,
+      "loss": 1.667,
       "step": 1000
     },
     {
       "epoch": 5.782608695652174,
+      "eval_loss": 1.4410459995269775,
+      "eval_runtime": 127.4156,
+      "eval_samples_per_second": 20.437,
+      "eval_steps_per_second": 2.559,
+      "eval_wer": 0.9384771452440626,
       "step": 1000
     },
     {
       "epoch": 6.939130434782609,
+      "grad_norm": 0.41073665022850037,
       "learning_rate": 0.00028238823529411764,
+      "loss": 1.5898,
       "step": 1200
     },
     {
       "epoch": 6.939130434782609,
+      "eval_loss": 1.3798913955688477,
+      "eval_runtime": 127.1442,
+      "eval_samples_per_second": 20.481,
+      "eval_steps_per_second": 2.564,
+      "eval_wer": 0.9282332816167402,
       "step": 1200
     },
     {
       "epoch": 8.092753623188406,
+      "grad_norm": 0.4452091157436371,
       "learning_rate": 0.00027885882352941176,
+      "loss": 1.5366,
       "step": 1400
     },
     {
       "epoch": 8.092753623188406,
+      "eval_loss": 1.3415042161941528,
+      "eval_runtime": 126.9587,
+      "eval_samples_per_second": 20.511,
+      "eval_steps_per_second": 2.568,
+      "eval_wer": 0.9165174841866571,
       "step": 1400
     },
     {
       "epoch": 9.24927536231884,
+      "grad_norm": 0.893618643283844,
       "learning_rate": 0.0002753294117647059,
+      "loss": 1.4917,
       "step": 1600
     },
     {
       "epoch": 9.24927536231884,
+      "eval_loss": 1.3143993616104126,
+      "eval_runtime": 127.039,
+      "eval_samples_per_second": 20.498,
+      "eval_steps_per_second": 2.566,
+      "eval_wer": 0.9205354656482476,
       "step": 1600
     },
     {
       "epoch": 10.405797101449275,
+      "grad_norm": 0.3896653652191162,
       "learning_rate": 0.0002718,
+      "loss": 1.455,
       "step": 1800
     },
     {
       "epoch": 10.405797101449275,
+      "eval_loss": 1.2746105194091797,
+      "eval_runtime": 127.2229,
+      "eval_samples_per_second": 20.468,
+      "eval_steps_per_second": 2.562,
+      "eval_wer": 0.9067907864900346,
       "step": 1800
     },
     {
       "epoch": 11.56231884057971,
+      "grad_norm": 0.46033382415771484,
       "learning_rate": 0.00026827058823529406,
+      "loss": 1.4266,
       "step": 2000
     },
     {
       "epoch": 11.56231884057971,
+      "eval_loss": 1.2521367073059082,
+      "eval_runtime": 127.5795,
+      "eval_samples_per_second": 20.411,
+      "eval_steps_per_second": 2.555,
+      "eval_wer": 0.9102319290289215,
       "step": 2000
     },
     {
       "epoch": 12.718840579710145,
+      "grad_norm": 0.4809955358505249,
       "learning_rate": 0.00026474117647058823,
+      "loss": 1.3925,
       "step": 2200
     },
     {
       "epoch": 12.718840579710145,
+      "eval_loss": 1.2212536334991455,
+      "eval_runtime": 127.1582,
+      "eval_samples_per_second": 20.478,
+      "eval_steps_per_second": 2.564,
+      "eval_wer": 0.8971436527827505,
       "step": 2200
     },
     {
       "epoch": 13.87536231884058,
+      "grad_norm": 0.4258709251880646,
       "learning_rate": 0.00026121176470588235,
+      "loss": 1.3754,
       "step": 2400
     },
     {
       "epoch": 13.87536231884058,
+      "eval_loss": 1.2028323411941528,
+      "eval_runtime": 126.9929,
+      "eval_samples_per_second": 20.505,
+      "eval_steps_per_second": 2.567,
+      "eval_wer": 0.8938019652305367,
       "step": 2400
     },
     {
       "epoch": 15.028985507246377,
+      "grad_norm": 0.5979081392288208,
       "learning_rate": 0.00025768235294117646,
+      "loss": 1.3452,
       "step": 2600
     },
     {
       "epoch": 15.028985507246377,
+      "eval_loss": 1.193106770515442,
+      "eval_runtime": 127.1193,
+      "eval_samples_per_second": 20.485,
+      "eval_steps_per_second": 2.565,
+      "eval_wer": 0.8825834427338187,
       "step": 2600
     },
     {
       "epoch": 16.18550724637681,
+      "grad_norm": 0.415189266204834,
       "learning_rate": 0.0002541529411764706,
+      "loss": 1.3265,
       "step": 2800
     },
     {
       "epoch": 16.18550724637681,
+      "eval_loss": 1.168208360671997,
+      "eval_runtime": 127.0071,
+      "eval_samples_per_second": 20.503,
+      "eval_steps_per_second": 2.567,
+      "eval_wer": 0.8860444762700401,
       "step": 2800
     },
     {
       "epoch": 17.342028985507245,
+      "grad_norm": 0.3661479651927948,
       "learning_rate": 0.00025062352941176465,
+      "loss": 1.3106,
       "step": 3000
     },
     {
       "epoch": 17.342028985507245,
+      "eval_loss": 1.1645121574401855,
+      "eval_runtime": 127.0406,
+      "eval_samples_per_second": 20.497,
+      "eval_steps_per_second": 2.566,
+      "eval_wer": 0.8752038827226797,
       "step": 3000
     },
     {
       "epoch": 18.49855072463768,
+      "grad_norm": 0.831349790096283,
       "learning_rate": 0.0002470941176470588,
+      "loss": 1.2917,
       "step": 3200
     },
     {
       "epoch": 18.49855072463768,
+      "eval_loss": 1.1686357259750366,
+      "eval_runtime": 127.3366,
+      "eval_samples_per_second": 20.45,
+      "eval_steps_per_second": 2.56,
+      "eval_wer": 0.8779886223495246,
       "step": 3200
     },
     {
       "epoch": 19.655072463768114,
+      "grad_norm": 0.4396457076072693,
       "learning_rate": 0.00024356470588235294,
+      "loss": 1.2745,
       "step": 3400
     },
     {
       "epoch": 19.655072463768114,
+      "eval_loss": 1.1385252475738525,
+      "eval_runtime": 127.3458,
+      "eval_samples_per_second": 20.448,
+      "eval_steps_per_second": 2.56,
+      "eval_wer": 0.8670485738154912,
       "step": 3400
     },
     {
       "epoch": 20.81159420289855,
+      "grad_norm": 0.5819875597953796,
       "learning_rate": 0.00024003529411764703,
+      "loss": 1.2639,
       "step": 3600
     },
     {
       "epoch": 20.81159420289855,
+      "eval_loss": 1.1300982236862183,
+      "eval_runtime": 127.3185,
+      "eval_samples_per_second": 20.453,
+      "eval_steps_per_second": 2.561,
+      "eval_wer": 0.8666109718741297,
       "step": 3600
     },
     {
       "epoch": 21.968115942028987,
+      "grad_norm": 0.4509641230106354,
       "learning_rate": 0.00023650588235294115,
+      "loss": 1.2432,
       "step": 3800
     },
     {
       "epoch": 21.968115942028987,
+      "eval_loss": 1.1173290014266968,
+      "eval_runtime": 127.5924,
+      "eval_samples_per_second": 20.409,
+      "eval_steps_per_second": 2.555,
+      "eval_wer": 0.8669690098261527,
       "step": 3800
     },
     {
       "epoch": 23.121739130434783,
+      "grad_norm": 0.3901135325431824,
       "learning_rate": 0.0002329764705882353,
+      "loss": 1.2294,
       "step": 4000
     },
     {
       "epoch": 23.121739130434783,
+      "eval_loss": 1.1098414659500122,
+      "eval_runtime": 127.6057,
+      "eval_samples_per_second": 20.407,
+      "eval_steps_per_second": 2.555,
+      "eval_wer": 0.8619564784978319,
       "step": 4000
     },
     {
       "epoch": 24.278260869565216,
+      "grad_norm": 0.5170231461524963,
       "learning_rate": 0.00022944705882352938,
+      "loss": 1.2203,
       "step": 4200
     },
     {
       "epoch": 24.278260869565216,
+      "eval_loss": 1.1076903343200684,
+      "eval_runtime": 127.7278,
+      "eval_samples_per_second": 20.387,
+      "eval_steps_per_second": 2.552,
+      "eval_wer": 0.8710864462744162,
       "step": 4200
     },
     {
       "epoch": 25.434782608695652,
+      "grad_norm": 0.43240106105804443,
       "learning_rate": 0.00022591764705882353,
+      "loss": 1.2037,
       "step": 4400
     },
     {
       "epoch": 25.434782608695652,
+      "eval_loss": 1.096359133720398,
+      "eval_runtime": 127.673,
+      "eval_samples_per_second": 20.396,
+      "eval_steps_per_second": 2.553,
+      "eval_wer": 0.8625929904125393,
       "step": 4400
     },
     {
       "epoch": 26.591304347826085,
+      "grad_norm": 0.40014615654945374,
       "learning_rate": 0.00022238823529411762,
+      "loss": 1.1965,
       "step": 4600
     },
     {
       "epoch": 26.591304347826085,
+      "eval_loss": 1.091011881828308,
+      "eval_runtime": 127.6577,
+      "eval_samples_per_second": 20.398,
+      "eval_steps_per_second": 2.554,
+      "eval_wer": 0.8580976250149183,
       "step": 4600
     },
     {
       "epoch": 27.747826086956522,
+      "grad_norm": 0.8588981628417969,
       "learning_rate": 0.00021885882352941174,
+      "loss": 1.181,
       "step": 4800
     },
     {
       "epoch": 27.747826086956522,
+      "eval_loss": 1.084170937538147,
+      "eval_runtime": 127.8024,
+      "eval_samples_per_second": 20.375,
+      "eval_steps_per_second": 2.551,
+      "eval_wer": 0.8532641126626089,
       "step": 4800
     },
     {
       "epoch": 28.904347826086955,
+      "grad_norm": 0.4440598785877228,
       "learning_rate": 0.00021532941176470588,
+      "loss": 1.1711,
       "step": 5000
     },
     {
       "epoch": 28.904347826086955,
+      "eval_loss": 1.0691804885864258,
+      "eval_runtime": 127.5978,
+      "eval_samples_per_second": 20.408,
+      "eval_steps_per_second": 2.555,
+      "eval_wer": 0.8465011735688427,
       "step": 5000
     },
     {
       "epoch": 30.057971014492754,
+      "grad_norm": 0.435140997171402,
       "learning_rate": 0.00021179999999999997,
+      "loss": 1.1573,
       "step": 5200
     },
     {
       "epoch": 30.057971014492754,
+      "eval_loss": 1.0723620653152466,
+      "eval_runtime": 133.3452,
+      "eval_samples_per_second": 19.528,
+      "eval_steps_per_second": 2.445,
+      "eval_wer": 0.8464017185821697,
       "step": 5200
     },
     {
       "epoch": 31.214492753623187,
+      "grad_norm": 0.5071683526039124,
       "learning_rate": 0.0002082705882352941,
+      "loss": 1.1472,
       "step": 5400
     },
     {
       "epoch": 31.214492753623187,
+      "eval_loss": 1.0529308319091797,
+      "eval_runtime": 127.6762,
+      "eval_samples_per_second": 20.395,
       "eval_steps_per_second": 2.553,
+      "eval_wer": 0.8404145283844532,
       "step": 5400
     },
     {
       "epoch": 32.37101449275362,
+      "grad_norm": 0.381583571434021,
       "learning_rate": 0.00020474117647058823,
+      "loss": 1.1375,
       "step": 5600
     },
     {
       "epoch": 32.37101449275362,
+      "eval_loss": 1.0505813360214233,
+      "eval_runtime": 127.9023,
+      "eval_samples_per_second": 20.359,
+      "eval_steps_per_second": 2.549,
+      "eval_wer": 0.8402554004057764,
       "step": 5600
     },
     {
       "epoch": 33.527536231884056,
+      "grad_norm": 0.4180471897125244,
       "learning_rate": 0.00020121176470588233,
+      "loss": 1.1276,
       "step": 5800
     },
     {
       "epoch": 33.527536231884056,
+      "eval_loss": 1.0432393550872803,
+      "eval_runtime": 127.7286,
+      "eval_samples_per_second": 20.387,
+      "eval_steps_per_second": 2.552,
+      "eval_wer": 0.839817798464415,
       "step": 5800
     },
     {
       "epoch": 34.68405797101449,
+      "grad_norm": 0.4830577075481415,
       "learning_rate": 0.00019768235294117647,
+      "loss": 1.1149,
       "step": 6000
     },
     {
       "epoch": 34.68405797101449,
+      "eval_loss": 1.0371085405349731,
+      "eval_runtime": 127.9927,
+      "eval_samples_per_second": 20.345,
+      "eval_steps_per_second": 2.547,
+      "eval_wer": 0.8330150773759797,
       "step": 6000
     },
     {
       "epoch": 35.84057971014493,
+      "grad_norm": 0.4170786142349243,
       "learning_rate": 0.00019415294117647056,
+      "loss": 1.1099,
       "step": 6200
     },
     {
       "epoch": 35.84057971014493,
+      "eval_loss": 1.0371705293655396,
+      "eval_runtime": 128.0525,
+      "eval_samples_per_second": 20.335,
+      "eval_steps_per_second": 2.546,
+      "eval_wer": 0.8340891912320484,
       "step": 6200
     },
     {
       "epoch": 36.99710144927536,
+      "grad_norm": 1.0729575157165527,
       "learning_rate": 0.00019062352941176468,
+      "loss": 1.0959,
       "step": 6400
     },
     {
       "epoch": 36.99710144927536,
+      "eval_loss": 1.0295618772506714,
+      "eval_runtime": 128.0568,
+      "eval_samples_per_second": 20.335,
+      "eval_steps_per_second": 2.546,
+      "eval_wer": 0.8369534948482317,
       "step": 6400
     },
     {
       "epoch": 38.15072463768116,
+      "grad_norm": 0.44851154088974,
       "learning_rate": 0.00018709411764705882,
+      "loss": 1.0838,
       "step": 6600
     },
     {
       "epoch": 38.15072463768116,
+      "eval_loss": 1.0135877132415771,
+      "eval_runtime": 128.1825,
+      "eval_samples_per_second": 20.315,
+      "eval_steps_per_second": 2.543,
+      "eval_wer": 0.8232485976846879,
       "step": 6600
     },
     {
       "epoch": 39.30724637681159,
+      "grad_norm": 0.44436436891555786,
       "learning_rate": 0.00018356470588235291,
+      "loss": 1.0761,
       "step": 6800
     },
     {
       "epoch": 39.30724637681159,
+      "eval_loss": 1.0354554653167725,
+      "eval_runtime": 127.9672,
+      "eval_samples_per_second": 20.349,
+      "eval_steps_per_second": 2.548,
+      "eval_wer": 0.8287782949437085,
       "step": 6800
     },
     {
       "epoch": 40.46376811594203,
+      "grad_norm": 0.5356501936912537,
       "learning_rate": 0.00018003529411764703,
+      "loss": 1.069,
       "step": 7000
     },
     {
       "epoch": 40.46376811594203,
+      "eval_loss": 1.0072308778762817,
+      "eval_runtime": 128.0877,
+      "eval_samples_per_second": 20.33,
+      "eval_steps_per_second": 2.545,
+      "eval_wer": 0.8211003699725504,
       "step": 7000
     },
     {
       "epoch": 41.620289855072464,
+      "grad_norm": 0.44935235381126404,
       "learning_rate": 0.00017650588235294118,
+      "loss": 1.0624,
       "step": 7200
     },
     {
       "epoch": 41.620289855072464,
+      "eval_loss": 1.0019198656082153,
+      "eval_runtime": 128.3344,
+      "eval_samples_per_second": 20.291,
+      "eval_steps_per_second": 2.54,
+      "eval_wer": 0.8216573178979194,
       "step": 7200
     },
     {
       "epoch": 42.7768115942029,
+      "grad_norm": 0.5230256915092468,
       "learning_rate": 0.00017297647058823527,
+      "loss": 1.0502,
       "step": 7400
     },
     {
       "epoch": 42.7768115942029,
+      "eval_loss": 1.0021299123764038,
+      "eval_runtime": 128.3833,
+      "eval_samples_per_second": 20.283,
+      "eval_steps_per_second": 2.539,
+      "eval_wer": 0.8328559493973028,
       "step": 7400
     },
     {
       "epoch": 43.93333333333333,
+      "grad_norm": 0.5322907567024231,
       "learning_rate": 0.00016944705882352941,
+      "loss": 1.0423,
       "step": 7600
     },
     {
       "epoch": 43.93333333333333,
+      "eval_loss": 0.9959840774536133,
+      "eval_runtime": 128.179,
+      "eval_samples_per_second": 20.315,
+      "eval_steps_per_second": 2.543,
+      "eval_wer": 0.8152723077535108,
       "step": 7600
     },
     {
       "epoch": 45.08695652173913,
+      "grad_norm": 0.4864259958267212,
       "learning_rate": 0.0001659176470588235,
+      "loss": 1.0334,
       "step": 7800
     },
     {
       "epoch": 45.08695652173913,
+      "eval_loss": 0.9902531504631042,
+      "eval_runtime": 128.4294,
+      "eval_samples_per_second": 20.276,
+      "eval_steps_per_second": 2.538,
+      "eval_wer": 0.8133826630067231,
       "step": 7800
     },
     {
       "epoch": 46.243478260869566,
+      "grad_norm": 0.7626239657402039,
       "learning_rate": 0.00016238823529411762,
+      "loss": 1.0203,
       "step": 8000
     },
     {
       "epoch": 46.243478260869566,
+      "eval_loss": 0.9787291288375854,
+      "eval_runtime": 128.4884,
+      "eval_samples_per_second": 20.266,
+      "eval_steps_per_second": 2.537,
+      "eval_wer": 0.811572582249274,
       "step": 8000
     },
     {
       "epoch": 47.4,
+      "grad_norm": 0.4770081043243408,
       "learning_rate": 0.00015885882352941177,
+      "loss": 1.0212,
       "step": 8200
     },
     {
       "epoch": 47.4,
+      "eval_loss": 0.9690199494361877,
+      "eval_runtime": 128.4277,
+      "eval_samples_per_second": 20.276,
+      "eval_steps_per_second": 2.538,
+      "eval_wer": 0.802880216414051,
       "step": 8200
     },
     {
       "epoch": 48.55652173913043,
+      "grad_norm": 0.5174329876899719,
       "learning_rate": 0.00015532941176470586,
+      "loss": 1.0062,
       "step": 8400
     },
     {
       "epoch": 48.55652173913043,
+      "eval_loss": 0.9864068627357483,
+      "eval_runtime": 128.5885,
+      "eval_samples_per_second": 20.251,
+      "eval_steps_per_second": 2.535,
+      "eval_wer": 0.8029995623980586,
       "step": 8400
     },
     {
       "epoch": 49.71304347826087,
+      "grad_norm": 0.628575325012207,
       "learning_rate": 0.00015179999999999998,
+      "loss": 1.0029,
       "step": 8600
     },
     {
       "epoch": 49.71304347826087,
+      "eval_loss": 0.965828537940979,
+      "eval_runtime": 128.611,
+      "eval_samples_per_second": 20.247,
+      "eval_steps_per_second": 2.535,
+      "eval_wer": 0.8000159127978677,
       "step": 8600
     },
     {
       "epoch": 50.869565217391305,
+      "grad_norm": 0.512400209903717,
       "learning_rate": 0.0001482705882352941,
+      "loss": 0.9922,
       "step": 8800
     },
     {
       "epoch": 50.869565217391305,
+      "eval_loss": 0.9551593065261841,
+      "eval_runtime": 128.6546,
+      "eval_samples_per_second": 20.24,
+      "eval_steps_per_second": 2.534,
+      "eval_wer": 0.7964156422803039,
       "step": 8800
     },
     {
       "epoch": 52.0231884057971,
+      "grad_norm": 0.5017286539077759,
       "learning_rate": 0.0001447411764705882,
       "loss": 0.9784,
       "step": 9000
     },
     {
       "epoch": 52.0231884057971,
+      "eval_loss": 0.9562975168228149,
+      "eval_runtime": 128.6669,
+      "eval_samples_per_second": 20.238,
+      "eval_steps_per_second": 2.534,
+      "eval_wer": 0.7978080120937264,
       "step": 9000
     },
     {
       "epoch": 53.17971014492753,
+      "grad_norm": 0.5114548206329346,
       "learning_rate": 0.00014121176470588236,
+      "loss": 0.9761,
       "step": 9200
     },
     {
       "epoch": 53.17971014492753,
+      "eval_loss": 0.9441680908203125,
+      "eval_runtime": 128.6496,
+      "eval_samples_per_second": 20.241,
+      "eval_steps_per_second": 2.534,
+      "eval_wer": 0.7898118311652146,
       "step": 9200
     },
     {
       "epoch": 54.33623188405797,
+      "grad_norm": 0.5005738735198975,
       "learning_rate": 0.00013768235294117645,
+      "loss": 0.9649,
       "step": 9400
     },
     {
       "epoch": 54.33623188405797,
+      "eval_loss": 0.9494587779045105,
+      "eval_runtime": 128.5953,
+      "eval_samples_per_second": 20.25,
+      "eval_steps_per_second": 2.535,
+      "eval_wer": 0.7898317221625493,
       "step": 9400
     },
     {
       "epoch": 55.492753623188406,
+      "grad_norm": 0.7633522152900696,
       "learning_rate": 0.00013415294117647057,
+      "loss": 0.9567,
       "step": 9600
     },
     {
       "epoch": 55.492753623188406,
+      "eval_loss": 0.9448326826095581,
+      "eval_runtime": 128.7309,
+      "eval_samples_per_second": 20.228,
+      "eval_steps_per_second": 2.532,
+      "eval_wer": 0.792676134781398,
       "step": 9600
     },
     {
       "epoch": 56.64927536231884,
+      "grad_norm": 0.5112641453742981,
       "learning_rate": 0.00013062352941176468,
+      "loss": 0.9556,
       "step": 9800
     },
     {
       "epoch": 56.64927536231884,
+      "eval_loss": 0.930349588394165,
+      "eval_runtime": 128.7424,
+      "eval_samples_per_second": 20.226,
+      "eval_steps_per_second": 2.532,
+      "eval_wer": 0.7851374467915821,
       "step": 9800
     },
     {
       "epoch": 57.80579710144927,
+      "grad_norm": 0.46061235666275024,
       "learning_rate": 0.00012709411764705883,
+      "loss": 0.9454,
       "step": 10000
     },
     {
       "epoch": 57.80579710144927,
+      "eval_loss": 0.9303532838821411,
+      "eval_runtime": 128.7544,
+      "eval_samples_per_second": 20.225,
+      "eval_steps_per_second": 2.532,
+      "eval_wer": 0.7783943986951506,
       "step": 10000
     },
     {
       "epoch": 58.96231884057971,
+      "grad_norm": 0.5678063035011292,
       "learning_rate": 0.00012356470588235292,
+      "loss": 0.9356,
       "step": 10200
     },
     {
       "epoch": 58.96231884057971,
+      "eval_loss": 0.9202280640602112,
+      "eval_runtime": 128.797,
+      "eval_samples_per_second": 20.218,
+      "eval_steps_per_second": 2.531,
+      "eval_wer": 0.7718303695747305,
       "step": 10200
     },
     {
       "epoch": 60.11594202898551,
+      "grad_norm": 0.4535027742385864,
       "learning_rate": 0.00012003529411764705,
+      "loss": 0.927,
       "step": 10400
     },
     {
       "epoch": 60.11594202898551,
+      "eval_loss": 0.9264362454414368,
+      "eval_runtime": 128.7883,
+      "eval_samples_per_second": 20.219,
+      "eval_steps_per_second": 2.531,
+      "eval_wer": 0.7730238294148069,
       "step": 10400
     },
     {
       "epoch": 61.27246376811594,
+      "grad_norm": 0.5285719633102417,
       "learning_rate": 0.00011650588235294116,
+      "loss": 0.9172,
       "step": 10600
     },
     {
       "epoch": 61.27246376811594,
+      "eval_loss": 0.9252079129219055,
+      "eval_runtime": 128.9172,
+      "eval_samples_per_second": 20.199,
+      "eval_steps_per_second": 2.529,
+      "eval_wer": 0.7736006683375104,
       "step": 10600
     },
     {
       "epoch": 62.428985507246374,
+      "grad_norm": 0.5567119121551514,
       "learning_rate": 0.00011297647058823529,
+      "loss": 0.9177,
       "step": 10800
     },
     {
       "epoch": 62.428985507246374,
+      "eval_loss": 0.9086942076683044,
+      "eval_runtime": 128.9307,
+      "eval_samples_per_second": 20.197,
+      "eval_steps_per_second": 2.528,
+      "eval_wer": 0.7682102080598321,
       "step": 10800
     },
     {
       "epoch": 63.585507246376814,
+      "grad_norm": 0.48296016454696655,
       "learning_rate": 0.0001094470588235294,
+      "loss": 0.9107,
       "step": 11000
     },
     {
       "epoch": 63.585507246376814,
+      "eval_loss": 0.911865770816803,
+      "eval_runtime": 128.9178,
+      "eval_samples_per_second": 20.199,
+      "eval_steps_per_second": 2.529,
+      "eval_wer": 0.7663006723157099,
       "step": 11000
     },
     {
       "epoch": 64.74202898550725,
+      "grad_norm": 0.813925564289093,
       "learning_rate": 0.00010591764705882352,
+      "loss": 0.9017,
       "step": 11200
     },
     {
       "epoch": 64.74202898550725,
+      "eval_loss": 0.9014148116111755,
+      "eval_runtime": 128.8475,
+      "eval_samples_per_second": 20.21,
+      "eval_steps_per_second": 2.53,
+      "eval_wer": 0.760890321040697,
       "step": 11200
     },
     {
       "epoch": 65.89855072463769,
+      "grad_norm": 0.5046563148498535,
       "learning_rate": 0.00010238823529411763,
+      "loss": 0.899,
       "step": 11400
     },
     {
       "epoch": 65.89855072463769,
+      "eval_loss": 0.8962476253509521,
+      "eval_runtime": 128.9757,
+      "eval_samples_per_second": 20.19,
+      "eval_steps_per_second": 2.528,
+      "eval_wer": 0.7597366431952898,
       "step": 11400
     },
     {
       "epoch": 67.05217391304348,
+      "grad_norm": 0.5046080946922302,
       "learning_rate": 9.885882352941176e-05,
+      "loss": 0.8854,
       "step": 11600
     },
     {
       "epoch": 67.05217391304348,
+      "eval_loss": 0.8975692987442017,
+      "eval_runtime": 129.5423,
+      "eval_samples_per_second": 20.102,
+      "eval_steps_per_second": 2.517,
+      "eval_wer": 0.7532521780642082,
       "step": 11600
     },
     {
       "epoch": 68.20869565217392,
+      "grad_norm": 0.6193573474884033,
       "learning_rate": 9.532941176470588e-05,
+      "loss": 0.8841,
       "step": 11800
     },
     {
       "epoch": 68.20869565217392,
+      "eval_loss": 0.8951582908630371,
+      "eval_runtime": 129.0232,
+      "eval_samples_per_second": 20.182,
+      "eval_steps_per_second": 2.527,
+      "eval_wer": 0.755380514779011,
       "step": 11800
     },
     {
       "epoch": 69.36521739130434,
+      "grad_norm": 0.5326569676399231,
       "learning_rate": 9.18e-05,
+      "loss": 0.8792,
       "step": 12000
     },
     {
       "epoch": 69.36521739130434,
+      "eval_loss": 0.8951340317726135,
+      "eval_runtime": 128.9952,
+      "eval_samples_per_second": 20.187,
+      "eval_steps_per_second": 2.527,
+      "eval_wer": 0.7534709790348888,
       "step": 12000
     },
     {
       "epoch": 70.52173913043478,
+      "grad_norm": 0.47887784242630005,
       "learning_rate": 8.82705882352941e-05,
+      "loss": 0.8697,
       "step": 12200
     },
     {
       "epoch": 70.52173913043478,
+      "eval_loss": 0.8912975192070007,
+      "eval_runtime": 129.1402,
+      "eval_samples_per_second": 20.164,
+      "eval_steps_per_second": 2.524,
+      "eval_wer": 0.7513227513227513,
       "step": 12200
     },
     {
       "epoch": 71.67826086956522,
+      "grad_norm": 0.5348592400550842,
       "learning_rate": 8.474117647058823e-05,
+      "loss": 0.8677,
       "step": 12400
     },
     {
       "epoch": 71.67826086956522,
+      "eval_loss": 0.8820046186447144,
+      "eval_runtime": 129.1569,
+      "eval_samples_per_second": 20.162,
+      "eval_steps_per_second": 2.524,
+      "eval_wer": 0.7496320165493098,
       "step": 12400
     },
     {
       "epoch": 72.83478260869565,
+      "grad_norm": 0.507841944694519,
       "learning_rate": 8.121176470588235e-05,
+      "loss": 0.862,
       "step": 12600
     },
     {
       "epoch": 72.83478260869565,
+      "eval_loss": 0.8834201097488403,
+      "eval_runtime": 129.1489,
+      "eval_samples_per_second": 20.163,
+      "eval_steps_per_second": 2.524,
+      "eval_wer": 0.7446592672156582,
       "step": 12600
     },
     {
       "epoch": 73.99130434782609,
+      "grad_norm": 0.7582190036773682,
       "learning_rate": 7.768235294117647e-05,
+      "loss": 0.8573,
       "step": 12800
     },
     {
       "epoch": 73.99130434782609,
+      "eval_loss": 0.8823952674865723,
+      "eval_runtime": 129.2373,
+      "eval_samples_per_second": 20.149,
+      "eval_steps_per_second": 2.522,
+      "eval_wer": 0.7437044993435971,
       "step": 12800
     },
     {
       "epoch": 75.14492753623189,
+      "grad_norm": 0.5389032363891602,
       "learning_rate": 7.415294117647058e-05,
+      "loss": 0.8527,
       "step": 13000
     },
     {
       "epoch": 75.14492753623189,
+      "eval_loss": 0.8746750354766846,
+      "eval_runtime": 129.2983,
+      "eval_samples_per_second": 20.139,
+      "eval_steps_per_second": 2.521,
+      "eval_wer": 0.7387516410072801,
       "step": 13000
     },
     {
       "epoch": 76.30144927536232,
+      "grad_norm": 0.5191702842712402,
       "learning_rate": 7.06235294117647e-05,
+      "loss": 0.8451,
       "step": 13200
     },
     {
       "epoch": 76.30144927536232,
+      "eval_loss": 0.8806008100509644,
+      "eval_runtime": 129.3573,
+      "eval_samples_per_second": 20.13,
+      "eval_steps_per_second": 2.52,
+      "eval_wer": 0.7399053188526873,
       "step": 13200
     },
     {
       "epoch": 77.45797101449276,
+      "grad_norm": 0.5819474458694458,
       "learning_rate": 6.709411764705882e-05,
       "loss": 0.8435,
       "step": 13400
     },
     {
       "epoch": 77.45797101449276,
+      "eval_loss": 0.8713163137435913,
+      "eval_runtime": 129.2981,
+      "eval_samples_per_second": 20.14,
+      "eval_steps_per_second": 2.521,
+      "eval_wer": 0.7400644468313641,
       "step": 13400
     },
     {
       "epoch": 78.61449275362318,
+      "grad_norm": 0.5077270865440369,
       "learning_rate": 6.356470588235294e-05,
+      "loss": 0.8393,
       "step": 13600
     },
     {
       "epoch": 78.61449275362318,
+      "eval_loss": 0.8733929395675659,
+      "eval_runtime": 129.3529,
+      "eval_samples_per_second": 20.131,
+      "eval_steps_per_second": 2.52,
+      "eval_wer": 0.7386521860206071,
       "step": 13600
     },
     {
       "epoch": 79.77101449275362,
+      "grad_norm": 0.5823322534561157,
       "learning_rate": 6.003529411764706e-05,
+      "loss": 0.8353,
       "step": 13800
     },
     {
       "epoch": 79.77101449275362,
+      "eval_loss": 0.8702186346054077,
+      "eval_runtime": 129.4516,
+      "eval_samples_per_second": 20.116,
+      "eval_steps_per_second": 2.518,
+      "eval_wer": 0.7366829772844811,
       "step": 13800
     },
     {
       "epoch": 80.92753623188406,
+      "grad_norm": 0.5790678858757019,
       "learning_rate": 5.650588235294117e-05,
+      "loss": 0.834,
       "step": 14000
     },
     {
       "epoch": 80.92753623188406,
+      "eval_loss": 0.8660680651664734,
+      "eval_runtime": 129.3194,
+      "eval_samples_per_second": 20.136,
+      "eval_steps_per_second": 2.521,
+      "eval_wer": 0.7334805267136094,
       "step": 14000
     },
     {
       "epoch": 82.08115942028985,
+      "grad_norm": 0.4909045994281769,
       "learning_rate": 5.299411764705882e-05,
+      "loss": 0.8265,
       "step": 14200
     },
     {
       "epoch": 82.08115942028985,
+      "eval_loss": 0.8641631007194519,
+      "eval_runtime": 129.3575,
+      "eval_samples_per_second": 20.13,
+      "eval_steps_per_second": 2.52,
+      "eval_wer": 0.7312129530174643,
       "step": 14200
     },
     {
       "epoch": 83.23768115942029,
+      "grad_norm": 0.7918466329574585,
       "learning_rate": 4.946470588235294e-05,
+      "loss": 0.8183,
       "step": 14400
     },
     {
       "epoch": 83.23768115942029,
+      "eval_loss": 0.8637834191322327,
+      "eval_runtime": 129.5477,
+      "eval_samples_per_second": 20.101,
+      "eval_steps_per_second": 2.516,
+      "eval_wer": 0.733400962724271,
       "step": 14400
     },
     {
       "epoch": 84.39420289855073,
+      "grad_norm": 0.5342910289764404,
       "learning_rate": 4.593529411764705e-05,
+      "loss": 0.8238,
       "step": 14600
     },
     {
       "epoch": 84.39420289855073,
+      "eval_loss": 0.8643026351928711,
+      "eval_runtime": 129.5572,
+      "eval_samples_per_second": 20.099,
+      "eval_steps_per_second": 2.516,
+      "eval_wer": 0.7310538250387875,
       "step": 14600
     },
     {
       "epoch": 85.55072463768116,
+      "grad_norm": 0.4855327904224396,
       "learning_rate": 4.240588235294118e-05,
       "loss": 0.8176,
       "step": 14800
     },
     {
       "epoch": 85.55072463768116,
+      "eval_loss": 0.8639850616455078,
+      "eval_runtime": 129.6515,
+      "eval_samples_per_second": 20.085,
+      "eval_steps_per_second": 2.514,
+      "eval_wer": 0.7308946970601106,
       "step": 14800
     },
     {
       "epoch": 86.7072463768116,
+      "grad_norm": 0.5488927364349365,
       "learning_rate": 3.887647058823529e-05,
+      "loss": 0.8183,
       "step": 15000
     },
     {
       "epoch": 86.7072463768116,
+      "eval_loss": 0.8602821826934814,
+      "eval_runtime": 129.637,
+      "eval_samples_per_second": 20.087,
+      "eval_steps_per_second": 2.515,
+      "eval_wer": 0.7294028722600151,
       "step": 15000
     },
     {
       "epoch": 87.86376811594202,
+      "grad_norm": 0.5371025800704956,
       "learning_rate": 3.534705882352941e-05,
+      "loss": 0.8121,
       "step": 15200
     },
     {
       "epoch": 87.86376811594202,
+      "eval_loss": 0.8586457371711731,
+      "eval_runtime": 130.1392,
+      "eval_samples_per_second": 20.009,
+      "eval_steps_per_second": 2.505,
+      "eval_wer": 0.7269960615825277,
       "step": 15200
     },
     {
       "epoch": 89.01739130434783,
+      "grad_norm": 0.5630968809127808,
       "learning_rate": 3.1817647058823525e-05,
+      "loss": 0.8033,
       "step": 15400
     },
     {
       "epoch": 89.01739130434783,
+      "eval_loss": 0.8584564924240112,
+      "eval_runtime": 129.7214,
+      "eval_samples_per_second": 20.074,
+      "eval_steps_per_second": 2.513,
+      "eval_wer": 0.7264590046544934,
       "step": 15400
     },
     {
       "epoch": 90.17391304347827,
+      "grad_norm": 0.5413855314254761,
       "learning_rate": 2.8288235294117643e-05,
+      "loss": 0.8116,
       "step": 15600
     },
     {
       "epoch": 90.17391304347827,
+      "eval_loss": 0.8559712767601013,
+      "eval_runtime": 129.7326,
+      "eval_samples_per_second": 20.072,
+      "eval_steps_per_second": 2.513,
+      "eval_wer": 0.7254047817957593,
       "step": 15600
     },
     {
       "epoch": 91.33043478260869,
+      "grad_norm": 0.5642918944358826,
       "learning_rate": 2.475882352941176e-05,
+      "loss": 0.8058,
       "step": 15800
     },
     {
       "epoch": 91.33043478260869,
+      "eval_loss": 0.8553411364555359,
+      "eval_runtime": 129.7535,
+      "eval_samples_per_second": 20.069,
+      "eval_steps_per_second": 2.512,
+      "eval_wer": 0.7261606396944743,
       "step": 15800
     },
     {
       "epoch": 92.48695652173913,
+      "grad_norm": 0.7495045065879822,
       "learning_rate": 2.122941176470588e-05,
+      "loss": 0.7992,
       "step": 16000
     },
     {
       "epoch": 92.48695652173913,
+      "eval_loss": 0.854764461517334,
+      "eval_runtime": 129.7705,
+      "eval_samples_per_second": 20.066,
+      "eval_steps_per_second": 2.512,
+      "eval_wer": 0.7263396586704858,
       "step": 16000
     },
     {
       "epoch": 93.64347826086957,
+      "grad_norm": 0.5202896595001221,
       "learning_rate": 1.7699999999999997e-05,
+      "loss": 0.7979,
       "step": 16200
     },
     {
       "epoch": 93.64347826086957,
+      "eval_loss": 0.8527706265449524,
+      "eval_runtime": 129.7564,
+      "eval_samples_per_second": 20.068,
+      "eval_steps_per_second": 2.512,
+      "eval_wer": 0.7235748100409755,
       "step": 16200
     },
     {
       "epoch": 94.8,
+      "grad_norm": 0.5076733231544495,
       "learning_rate": 1.4188235294117647e-05,
+      "loss": 0.7979,
       "step": 16400
     },
     {
       "epoch": 94.8,
+      "eval_loss": 0.8528936505317688,
+      "eval_runtime": 129.9107,
+      "eval_samples_per_second": 20.045,
+      "eval_steps_per_second": 2.509,
+      "eval_wer": 0.7234952460516371,
       "step": 16400
     },
     {
       "epoch": 95.95652173913044,
+      "grad_norm": 0.5990000367164612,
       "learning_rate": 1.0658823529411765e-05,
+      "loss": 0.7978,
       "step": 16600
     },
     {
       "epoch": 95.95652173913044,
+      "eval_loss": 0.8526215553283691,
+      "eval_runtime": 130.1031,
+      "eval_samples_per_second": 20.015,
+      "eval_steps_per_second": 2.506,
+      "eval_wer": 0.7242312129530175,
       "step": 16600
     },
     {
       "epoch": 97.11014492753623,
+      "grad_norm": 0.5280841588973999,
       "learning_rate": 7.1294117647058815e-06,
+      "loss": 0.7934,
       "step": 16800
     },
     {
       "epoch": 97.11014492753623,
+      "eval_loss": 0.8518908619880676,
+      "eval_runtime": 130.115,
+      "eval_samples_per_second": 20.013,
+      "eval_steps_per_second": 2.505,
+      "eval_wer": 0.7238135020089908,
       "step": 16800
     },
     {
       "epoch": 98.26666666666667,
+      "grad_norm": 0.49593880772590637,
       "learning_rate": 3.6e-06,
+      "loss": 0.7915,
       "step": 17000
     },
     {
       "epoch": 98.26666666666667,
+      "eval_loss": 0.8519703149795532,
+      "eval_runtime": 130.0289,
+      "eval_samples_per_second": 20.026,
+      "eval_steps_per_second": 2.507,
+      "eval_wer": 0.7232963360782909,
       "step": 17000
     },
     {
       "epoch": 99.4231884057971,
+      "grad_norm": 0.5583031177520752,
       "learning_rate": 7.058823529411765e-08,
+      "loss": 0.7996,
       "step": 17200
     },
     {
       "epoch": 99.4231884057971,
+      "eval_loss": 0.8514918088912964,
+      "eval_runtime": 130.2005,
+      "eval_samples_per_second": 20.0,
+      "eval_steps_per_second": 2.504,
+      "eval_wer": 0.723037753112941,
       "step": 17200
     },
     {
       "epoch": 99.4231884057971,
       "step": 17200,
       "total_flos": 3.3406327721118188e+19,
+      "train_loss": 1.1172501763632132,
+      "train_runtime": 45795.1729,
+      "train_samples_per_second": 6.025,
+      "train_steps_per_second": 0.376
     }
   ],
   "logging_steps": 200,