Initial model upload

Browse files

Files changed (8) hide show

config.json +60 -0
generation_config.json +7 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +2246 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 3072,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.2",
+  "use_cache": true,
+  "vocab_size": 32128
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.53.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1179071893c012f0ce2e0ef4559fb593df541240876131a940d8cd0c25b4714f
+size 891644712

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adb55039dbd0359f249f63ccf6125e32e50860a50691e23723966a95b1239581
+size 1783444794

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c21b84d59605d01072d1bfd057b994626bcfcfd04f6f039f7ef79ba82de59bd7
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bfe2ada38a28d1c9deff408ded137027e21df99e4a3d4de7cc8c4dbd7023a8f5
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2246 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.0,
+  "eval_steps": 200,
+  "global_step": 2925,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03076923076923077,
+      "grad_norm": 24.726886749267578,
+      "learning_rate": 1.8e-06,
+      "loss": 11.4221,
+      "step": 10
+    },
+    {
+      "epoch": 0.06153846153846154,
+      "grad_norm": 17.795185089111328,
+      "learning_rate": 3.8e-06,
+      "loss": 10.4941,
+      "step": 20
+    },
+    {
+      "epoch": 0.09230769230769231,
+      "grad_norm": 14.8720703125,
+      "learning_rate": 5.8e-06,
+      "loss": 10.943,
+      "step": 30
+    },
+    {
+      "epoch": 0.12307692307692308,
+      "grad_norm": 26.370025634765625,
+      "learning_rate": 7.8e-06,
+      "loss": 9.7676,
+      "step": 40
+    },
+    {
+      "epoch": 0.15384615384615385,
+      "grad_norm": 25.46526527404785,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 8.0724,
+      "step": 50
+    },
+    {
+      "epoch": 0.18461538461538463,
+      "grad_norm": 31.001745223999023,
+      "learning_rate": 1.18e-05,
+      "loss": 6.9668,
+      "step": 60
+    },
+    {
+      "epoch": 0.2153846153846154,
+      "grad_norm": 9.090025901794434,
+      "learning_rate": 1.3800000000000002e-05,
+      "loss": 5.0298,
+      "step": 70
+    },
+    {
+      "epoch": 0.24615384615384617,
+      "grad_norm": 4.529256820678711,
+      "learning_rate": 1.58e-05,
+      "loss": 3.5286,
+      "step": 80
+    },
+    {
+      "epoch": 0.27692307692307694,
+      "grad_norm": 2.912689685821533,
+      "learning_rate": 1.78e-05,
+      "loss": 2.9783,
+      "step": 90
+    },
+    {
+      "epoch": 0.3076923076923077,
+      "grad_norm": 2.04130220413208,
+      "learning_rate": 1.9800000000000004e-05,
+      "loss": 2.5693,
+      "step": 100
+    },
+    {
+      "epoch": 0.3384615384615385,
+      "grad_norm": 1.7645025253295898,
+      "learning_rate": 2.18e-05,
+      "loss": 2.3032,
+      "step": 110
+    },
+    {
+      "epoch": 0.36923076923076925,
+      "grad_norm": 1.4153923988342285,
+      "learning_rate": 2.38e-05,
+      "loss": 2.1182,
+      "step": 120
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 2.1566500663757324,
+      "learning_rate": 2.58e-05,
+      "loss": 2.2848,
+      "step": 130
+    },
+    {
+      "epoch": 0.4307692307692308,
+      "grad_norm": 1.7678470611572266,
+      "learning_rate": 2.7800000000000005e-05,
+      "loss": 2.2928,
+      "step": 140
+    },
+    {
+      "epoch": 0.46153846153846156,
+      "grad_norm": 1.717806100845337,
+      "learning_rate": 2.98e-05,
+      "loss": 2.0866,
+      "step": 150
+    },
+    {
+      "epoch": 0.49230769230769234,
+      "grad_norm": 1.8488136529922485,
+      "learning_rate": 3.18e-05,
+      "loss": 2.2323,
+      "step": 160
+    },
+    {
+      "epoch": 0.5230769230769231,
+      "grad_norm": 1.8968263864517212,
+      "learning_rate": 3.38e-05,
+      "loss": 2.2183,
+      "step": 170
+    },
+    {
+      "epoch": 0.5538461538461539,
+      "grad_norm": 1.398100733757019,
+      "learning_rate": 3.58e-05,
+      "loss": 1.8395,
+      "step": 180
+    },
+    {
+      "epoch": 0.5846153846153846,
+      "grad_norm": 1.5084631443023682,
+      "learning_rate": 3.7800000000000004e-05,
+      "loss": 1.9694,
+      "step": 190
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "grad_norm": 1.1019172668457031,
+      "learning_rate": 3.9800000000000005e-05,
+      "loss": 1.9702,
+      "step": 200
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "eval_gen_len": 186.9088,
+      "eval_loss": 1.8701356649398804,
+      "eval_rouge1": 0.5735,
+      "eval_rouge2": 0.2231,
+      "eval_rougeL": 0.4346,
+      "eval_runtime": 33.3119,
+      "eval_samples_per_second": 8.225,
+      "eval_steps_per_second": 2.071,
+      "step": 200
+    },
+    {
+      "epoch": 0.6461538461538462,
+      "grad_norm": 1.5155857801437378,
+      "learning_rate": 4.18e-05,
+      "loss": 2.0705,
+      "step": 210
+    },
+    {
+      "epoch": 0.676923076923077,
+      "grad_norm": 1.3338611125946045,
+      "learning_rate": 4.38e-05,
+      "loss": 2.051,
+      "step": 220
+    },
+    {
+      "epoch": 0.7076923076923077,
+      "grad_norm": 1.2012193202972412,
+      "learning_rate": 4.58e-05,
+      "loss": 1.9834,
+      "step": 230
+    },
+    {
+      "epoch": 0.7384615384615385,
+      "grad_norm": 1.527007818222046,
+      "learning_rate": 4.78e-05,
+      "loss": 2.0451,
+      "step": 240
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 1.2146987915039062,
+      "learning_rate": 4.9800000000000004e-05,
+      "loss": 1.974,
+      "step": 250
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.7576699256896973,
+      "learning_rate": 5.1800000000000005e-05,
+      "loss": 2.0347,
+      "step": 260
+    },
+    {
+      "epoch": 0.8307692307692308,
+      "grad_norm": 1.17750084400177,
+      "learning_rate": 5.380000000000001e-05,
+      "loss": 1.9763,
+      "step": 270
+    },
+    {
+      "epoch": 0.8615384615384616,
+      "grad_norm": 1.3267815113067627,
+      "learning_rate": 5.580000000000001e-05,
+      "loss": 1.842,
+      "step": 280
+    },
+    {
+      "epoch": 0.8923076923076924,
+      "grad_norm": 1.0520875453948975,
+      "learning_rate": 5.7799999999999995e-05,
+      "loss": 2.0525,
+      "step": 290
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "grad_norm": 1.4701600074768066,
+      "learning_rate": 5.9800000000000003e-05,
+      "loss": 1.7418,
+      "step": 300
+    },
+    {
+      "epoch": 0.9538461538461539,
+      "grad_norm": 1.062267780303955,
+      "learning_rate": 6.18e-05,
+      "loss": 1.9685,
+      "step": 310
+    },
+    {
+      "epoch": 0.9846153846153847,
+      "grad_norm": 1.2724727392196655,
+      "learning_rate": 6.38e-05,
+      "loss": 1.7972,
+      "step": 320
+    },
+    {
+      "epoch": 1.0153846153846153,
+      "grad_norm": 1.2834393978118896,
+      "learning_rate": 6.58e-05,
+      "loss": 1.8395,
+      "step": 330
+    },
+    {
+      "epoch": 1.0461538461538462,
+      "grad_norm": 0.9657095074653625,
+      "learning_rate": 6.780000000000001e-05,
+      "loss": 1.836,
+      "step": 340
+    },
+    {
+      "epoch": 1.0769230769230769,
+      "grad_norm": 1.0390011072158813,
+      "learning_rate": 6.98e-05,
+      "loss": 1.9328,
+      "step": 350
+    },
+    {
+      "epoch": 1.1076923076923078,
+      "grad_norm": 1.2896322011947632,
+      "learning_rate": 7.18e-05,
+      "loss": 1.8227,
+      "step": 360
+    },
+    {
+      "epoch": 1.1384615384615384,
+      "grad_norm": 1.53290593624115,
+      "learning_rate": 7.38e-05,
+      "loss": 1.9214,
+      "step": 370
+    },
+    {
+      "epoch": 1.1692307692307693,
+      "grad_norm": 1.0145893096923828,
+      "learning_rate": 7.58e-05,
+      "loss": 1.8295,
+      "step": 380
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 1.2127511501312256,
+      "learning_rate": 7.780000000000001e-05,
+      "loss": 1.7774,
+      "step": 390
+    },
+    {
+      "epoch": 1.2307692307692308,
+      "grad_norm": 1.1971853971481323,
+      "learning_rate": 7.98e-05,
+      "loss": 1.9926,
+      "step": 400
+    },
+    {
+      "epoch": 1.2307692307692308,
+      "eval_gen_len": 187.0146,
+      "eval_loss": 1.7412512302398682,
+      "eval_rouge1": 0.5961,
+      "eval_rouge2": 0.2459,
+      "eval_rougeL": 0.4577,
+      "eval_runtime": 33.1213,
+      "eval_samples_per_second": 8.273,
+      "eval_steps_per_second": 2.083,
+      "step": 400
+    },
+    {
+      "epoch": 1.2615384615384615,
+      "grad_norm": 1.107351303100586,
+      "learning_rate": 8.18e-05,
+      "loss": 1.8515,
+      "step": 410
+    },
+    {
+      "epoch": 1.2923076923076924,
+      "grad_norm": 1.1407504081726074,
+      "learning_rate": 8.38e-05,
+      "loss": 1.7011,
+      "step": 420
+    },
+    {
+      "epoch": 1.323076923076923,
+      "grad_norm": 1.418338656425476,
+      "learning_rate": 8.58e-05,
+      "loss": 1.6384,
+      "step": 430
+    },
+    {
+      "epoch": 1.353846153846154,
+      "grad_norm": 1.3715286254882812,
+      "learning_rate": 8.78e-05,
+      "loss": 1.8502,
+      "step": 440
+    },
+    {
+      "epoch": 1.3846153846153846,
+      "grad_norm": 0.9774390459060669,
+      "learning_rate": 8.98e-05,
+      "loss": 1.8264,
+      "step": 450
+    },
+    {
+      "epoch": 1.4153846153846155,
+      "grad_norm": 1.4778176546096802,
+      "learning_rate": 9.180000000000001e-05,
+      "loss": 1.694,
+      "step": 460
+    },
+    {
+      "epoch": 1.4461538461538461,
+      "grad_norm": 1.2721563577651978,
+      "learning_rate": 9.38e-05,
+      "loss": 1.8213,
+      "step": 470
+    },
+    {
+      "epoch": 1.476923076923077,
+      "grad_norm": 0.94813472032547,
+      "learning_rate": 9.58e-05,
+      "loss": 1.6636,
+      "step": 480
+    },
+    {
+      "epoch": 1.5076923076923077,
+      "grad_norm": 1.0905983448028564,
+      "learning_rate": 9.78e-05,
+      "loss": 1.7712,
+      "step": 490
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 1.1593286991119385,
+      "learning_rate": 9.98e-05,
+      "loss": 1.808,
+      "step": 500
+    },
+    {
+      "epoch": 1.5692307692307692,
+      "grad_norm": 1.0593713521957397,
+      "learning_rate": 9.967272727272727e-05,
+      "loss": 1.82,
+      "step": 510
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.941973865032196,
+      "learning_rate": 9.930909090909092e-05,
+      "loss": 1.7341,
+      "step": 520
+    },
+    {
+      "epoch": 1.6307692307692307,
+      "grad_norm": 0.80891352891922,
+      "learning_rate": 9.894545454545455e-05,
+      "loss": 1.6166,
+      "step": 530
+    },
+    {
+      "epoch": 1.6615384615384614,
+      "grad_norm": 1.0325396060943604,
+      "learning_rate": 9.858181818181819e-05,
+      "loss": 1.8333,
+      "step": 540
+    },
+    {
+      "epoch": 1.6923076923076923,
+      "grad_norm": 1.3042590618133545,
+      "learning_rate": 9.821818181818182e-05,
+      "loss": 1.6287,
+      "step": 550
+    },
+    {
+      "epoch": 1.7230769230769232,
+      "grad_norm": 1.475900650024414,
+      "learning_rate": 9.785454545454545e-05,
+      "loss": 1.6019,
+      "step": 560
+    },
+    {
+      "epoch": 1.7538461538461538,
+      "grad_norm": 1.1589939594268799,
+      "learning_rate": 9.74909090909091e-05,
+      "loss": 1.6904,
+      "step": 570
+    },
+    {
+      "epoch": 1.7846153846153845,
+      "grad_norm": 1.2714788913726807,
+      "learning_rate": 9.712727272727274e-05,
+      "loss": 1.7928,
+      "step": 580
+    },
+    {
+      "epoch": 1.8153846153846154,
+      "grad_norm": 1.2037074565887451,
+      "learning_rate": 9.676363636363637e-05,
+      "loss": 1.8325,
+      "step": 590
+    },
+    {
+      "epoch": 1.8461538461538463,
+      "grad_norm": 1.1115801334381104,
+      "learning_rate": 9.64e-05,
+      "loss": 1.7673,
+      "step": 600
+    },
+    {
+      "epoch": 1.8461538461538463,
+      "eval_gen_len": 187.0146,
+      "eval_loss": 1.69492506980896,
+      "eval_rouge1": 0.6004,
+      "eval_rouge2": 0.2505,
+      "eval_rougeL": 0.4658,
+      "eval_runtime": 33.2205,
+      "eval_samples_per_second": 8.248,
+      "eval_steps_per_second": 2.077,
+      "step": 600
+    },
+    {
+      "epoch": 1.876923076923077,
+      "grad_norm": 1.2008461952209473,
+      "learning_rate": 9.603636363636364e-05,
+      "loss": 1.7674,
+      "step": 610
+    },
+    {
+      "epoch": 1.9076923076923076,
+      "grad_norm": 1.1482900381088257,
+      "learning_rate": 9.567272727272729e-05,
+      "loss": 1.7932,
+      "step": 620
+    },
+    {
+      "epoch": 1.9384615384615385,
+      "grad_norm": 1.0144352912902832,
+      "learning_rate": 9.530909090909092e-05,
+      "loss": 1.6315,
+      "step": 630
+    },
+    {
+      "epoch": 1.9692307692307693,
+      "grad_norm": 0.9276631474494934,
+      "learning_rate": 9.494545454545455e-05,
+      "loss": 1.8373,
+      "step": 640
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.0593888759613037,
+      "learning_rate": 9.458181818181819e-05,
+      "loss": 1.7967,
+      "step": 650
+    },
+    {
+      "epoch": 2.0307692307692307,
+      "grad_norm": 1.1406164169311523,
+      "learning_rate": 9.421818181818183e-05,
+      "loss": 1.7668,
+      "step": 660
+    },
+    {
+      "epoch": 2.0615384615384613,
+      "grad_norm": 0.9809508919715881,
+      "learning_rate": 9.385454545454546e-05,
+      "loss": 1.6602,
+      "step": 670
+    },
+    {
+      "epoch": 2.0923076923076924,
+      "grad_norm": 1.1698426008224487,
+      "learning_rate": 9.349090909090909e-05,
+      "loss": 1.6775,
+      "step": 680
+    },
+    {
+      "epoch": 2.123076923076923,
+      "grad_norm": 1.1539372205734253,
+      "learning_rate": 9.312727272727274e-05,
+      "loss": 1.533,
+      "step": 690
+    },
+    {
+      "epoch": 2.1538461538461537,
+      "grad_norm": 1.0783981084823608,
+      "learning_rate": 9.276363636363637e-05,
+      "loss": 1.5243,
+      "step": 700
+    },
+    {
+      "epoch": 2.184615384615385,
+      "grad_norm": 1.262705683708191,
+      "learning_rate": 9.240000000000001e-05,
+      "loss": 1.6625,
+      "step": 710
+    },
+    {
+      "epoch": 2.2153846153846155,
+      "grad_norm": 1.1545718908309937,
+      "learning_rate": 9.203636363636364e-05,
+      "loss": 1.9172,
+      "step": 720
+    },
+    {
+      "epoch": 2.246153846153846,
+      "grad_norm": 0.9896947741508484,
+      "learning_rate": 9.167272727272728e-05,
+      "loss": 1.5449,
+      "step": 730
+    },
+    {
+      "epoch": 2.276923076923077,
+      "grad_norm": 1.063262701034546,
+      "learning_rate": 9.130909090909091e-05,
+      "loss": 1.5318,
+      "step": 740
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 1.0846728086471558,
+      "learning_rate": 9.094545454545454e-05,
+      "loss": 1.5875,
+      "step": 750
+    },
+    {
+      "epoch": 2.3384615384615386,
+      "grad_norm": 1.0437549352645874,
+      "learning_rate": 9.058181818181819e-05,
+      "loss": 1.5724,
+      "step": 760
+    },
+    {
+      "epoch": 2.3692307692307693,
+      "grad_norm": 1.050115942955017,
+      "learning_rate": 9.021818181818183e-05,
+      "loss": 1.662,
+      "step": 770
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.9663347601890564,
+      "learning_rate": 8.985454545454546e-05,
+      "loss": 1.6284,
+      "step": 780
+    },
+    {
+      "epoch": 2.430769230769231,
+      "grad_norm": 1.1656932830810547,
+      "learning_rate": 8.949090909090909e-05,
+      "loss": 1.5995,
+      "step": 790
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "grad_norm": 1.073716402053833,
+      "learning_rate": 8.912727272727273e-05,
+      "loss": 1.4811,
+      "step": 800
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "eval_gen_len": 187.0146,
+      "eval_loss": 1.6769312620162964,
+      "eval_rouge1": 0.6042,
+      "eval_rouge2": 0.2561,
+      "eval_rougeL": 0.4686,
+      "eval_runtime": 33.5273,
+      "eval_samples_per_second": 8.172,
+      "eval_steps_per_second": 2.058,
+      "step": 800
+    },
+    {
+      "epoch": 2.4923076923076923,
+      "grad_norm": 0.9764583110809326,
+      "learning_rate": 8.876363636363638e-05,
+      "loss": 1.5478,
+      "step": 810
+    },
+    {
+      "epoch": 2.523076923076923,
+      "grad_norm": 0.9336417317390442,
+      "learning_rate": 8.840000000000001e-05,
+      "loss": 1.5138,
+      "step": 820
+    },
+    {
+      "epoch": 2.5538461538461537,
+      "grad_norm": 0.9714758992195129,
+      "learning_rate": 8.803636363636364e-05,
+      "loss": 1.5506,
+      "step": 830
+    },
+    {
+      "epoch": 2.5846153846153848,
+      "grad_norm": 0.9208464622497559,
+      "learning_rate": 8.767272727272727e-05,
+      "loss": 1.4944,
+      "step": 840
+    },
+    {
+      "epoch": 2.6153846153846154,
+      "grad_norm": 1.0252026319503784,
+      "learning_rate": 8.730909090909092e-05,
+      "loss": 1.6991,
+      "step": 850
+    },
+    {
+      "epoch": 2.646153846153846,
+      "grad_norm": 1.0464015007019043,
+      "learning_rate": 8.694545454545455e-05,
+      "loss": 1.679,
+      "step": 860
+    },
+    {
+      "epoch": 2.676923076923077,
+      "grad_norm": 1.3673149347305298,
+      "learning_rate": 8.658181818181818e-05,
+      "loss": 1.5021,
+      "step": 870
+    },
+    {
+      "epoch": 2.707692307692308,
+      "grad_norm": 1.1350778341293335,
+      "learning_rate": 8.621818181818181e-05,
+      "loss": 1.5898,
+      "step": 880
+    },
+    {
+      "epoch": 2.7384615384615385,
+      "grad_norm": 0.9916401505470276,
+      "learning_rate": 8.585454545454546e-05,
+      "loss": 1.6542,
+      "step": 890
+    },
+    {
+      "epoch": 2.769230769230769,
+      "grad_norm": 0.9967766404151917,
+      "learning_rate": 8.54909090909091e-05,
+      "loss": 1.7056,
+      "step": 900
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 1.2031991481781006,
+      "learning_rate": 8.512727272727273e-05,
+      "loss": 1.6856,
+      "step": 910
+    },
+    {
+      "epoch": 2.830769230769231,
+      "grad_norm": 1.0159794092178345,
+      "learning_rate": 8.476363636363636e-05,
+      "loss": 1.5293,
+      "step": 920
+    },
+    {
+      "epoch": 2.8615384615384616,
+      "grad_norm": 1.3572866916656494,
+      "learning_rate": 8.44e-05,
+      "loss": 1.6191,
+      "step": 930
+    },
+    {
+      "epoch": 2.8923076923076922,
+      "grad_norm": 1.2567291259765625,
+      "learning_rate": 8.403636363636364e-05,
+      "loss": 1.7504,
+      "step": 940
+    },
+    {
+      "epoch": 2.9230769230769234,
+      "grad_norm": 1.2280553579330444,
+      "learning_rate": 8.367272727272728e-05,
+      "loss": 1.6523,
+      "step": 950
+    },
+    {
+      "epoch": 2.953846153846154,
+      "grad_norm": 1.0409953594207764,
+      "learning_rate": 8.330909090909091e-05,
+      "loss": 1.5903,
+      "step": 960
+    },
+    {
+      "epoch": 2.9846153846153847,
+      "grad_norm": 1.10386061668396,
+      "learning_rate": 8.294545454545455e-05,
+      "loss": 1.5235,
+      "step": 970
+    },
+    {
+      "epoch": 3.0153846153846153,
+      "grad_norm": 1.0341882705688477,
+      "learning_rate": 8.258181818181818e-05,
+      "loss": 1.6025,
+      "step": 980
+    },
+    {
+      "epoch": 3.046153846153846,
+      "grad_norm": 1.3020343780517578,
+      "learning_rate": 8.221818181818183e-05,
+      "loss": 1.4696,
+      "step": 990
+    },
+    {
+      "epoch": 3.076923076923077,
+      "grad_norm": 1.104643702507019,
+      "learning_rate": 8.185454545454546e-05,
+      "loss": 1.4009,
+      "step": 1000
+    },
+    {
+      "epoch": 3.076923076923077,
+      "eval_gen_len": 187.0146,
+      "eval_loss": 1.6721168756484985,
+      "eval_rouge1": 0.6044,
+      "eval_rouge2": 0.2558,
+      "eval_rougeL": 0.4692,
+      "eval_runtime": 34.4765,
+      "eval_samples_per_second": 7.947,
+      "eval_steps_per_second": 2.001,
+      "step": 1000
+    },
+    {
+      "epoch": 3.1076923076923078,
+      "grad_norm": 1.1327263116836548,
+      "learning_rate": 8.14909090909091e-05,
+      "loss": 1.5893,
+      "step": 1010
+    },
+    {
+      "epoch": 3.1384615384615384,
+      "grad_norm": 1.168095350265503,
+      "learning_rate": 8.112727272727273e-05,
+      "loss": 1.4248,
+      "step": 1020
+    },
+    {
+      "epoch": 3.169230769230769,
+      "grad_norm": 0.9978489279747009,
+      "learning_rate": 8.076363636363636e-05,
+      "loss": 1.5407,
+      "step": 1030
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 1.0370062589645386,
+      "learning_rate": 8.04e-05,
+      "loss": 1.4867,
+      "step": 1040
+    },
+    {
+      "epoch": 3.230769230769231,
+      "grad_norm": 0.9647369384765625,
+      "learning_rate": 8.003636363636365e-05,
+      "loss": 1.4806,
+      "step": 1050
+    },
+    {
+      "epoch": 3.2615384615384615,
+      "grad_norm": 1.3316948413848877,
+      "learning_rate": 7.967272727272728e-05,
+      "loss": 1.4612,
+      "step": 1060
+    },
+    {
+      "epoch": 3.292307692307692,
+      "grad_norm": 1.37971830368042,
+      "learning_rate": 7.93090909090909e-05,
+      "loss": 1.5745,
+      "step": 1070
+    },
+    {
+      "epoch": 3.3230769230769233,
+      "grad_norm": 1.1220242977142334,
+      "learning_rate": 7.894545454545455e-05,
+      "loss": 1.3228,
+      "step": 1080
+    },
+    {
+      "epoch": 3.353846153846154,
+      "grad_norm": 1.0595531463623047,
+      "learning_rate": 7.85818181818182e-05,
+      "loss": 1.4618,
+      "step": 1090
+    },
+    {
+      "epoch": 3.3846153846153846,
+      "grad_norm": 1.3739666938781738,
+      "learning_rate": 7.821818181818182e-05,
+      "loss": 1.4973,
+      "step": 1100
+    },
+    {
+      "epoch": 3.4153846153846152,
+      "grad_norm": 1.2643866539001465,
+      "learning_rate": 7.785454545454545e-05,
+      "loss": 1.533,
+      "step": 1110
+    },
+    {
+      "epoch": 3.4461538461538463,
+      "grad_norm": 1.232230544090271,
+      "learning_rate": 7.74909090909091e-05,
+      "loss": 1.4867,
+      "step": 1120
+    },
+    {
+      "epoch": 3.476923076923077,
+      "grad_norm": 0.9712868332862854,
+      "learning_rate": 7.712727272727273e-05,
+      "loss": 1.4916,
+      "step": 1130
+    },
+    {
+      "epoch": 3.5076923076923077,
+      "grad_norm": 1.3414063453674316,
+      "learning_rate": 7.676363636363637e-05,
+      "loss": 1.5992,
+      "step": 1140
+    },
+    {
+      "epoch": 3.5384615384615383,
+      "grad_norm": 1.0222588777542114,
+      "learning_rate": 7.64e-05,
+      "loss": 1.5378,
+      "step": 1150
+    },
+    {
+      "epoch": 3.569230769230769,
+      "grad_norm": 1.1905276775360107,
+      "learning_rate": 7.603636363636364e-05,
+      "loss": 1.4324,
+      "step": 1160
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 1.2846956253051758,
+      "learning_rate": 7.567272727272727e-05,
+      "loss": 1.4927,
+      "step": 1170
+    },
+    {
+      "epoch": 3.6307692307692307,
+      "grad_norm": 1.165310025215149,
+      "learning_rate": 7.530909090909092e-05,
+      "loss": 1.4277,
+      "step": 1180
+    },
+    {
+      "epoch": 3.6615384615384614,
+      "grad_norm": 1.063883900642395,
+      "learning_rate": 7.494545454545455e-05,
+      "loss": 1.5226,
+      "step": 1190
+    },
+    {
+      "epoch": 3.6923076923076925,
+      "grad_norm": 1.3430577516555786,
+      "learning_rate": 7.458181818181819e-05,
+      "loss": 1.5315,
+      "step": 1200
+    },
+    {
+      "epoch": 3.6923076923076925,
+      "eval_gen_len": 187.0146,
+      "eval_loss": 1.6592342853546143,
+      "eval_rouge1": 0.6057,
+      "eval_rouge2": 0.2572,
+      "eval_rougeL": 0.4709,
+      "eval_runtime": 33.3732,
+      "eval_samples_per_second": 8.21,
+      "eval_steps_per_second": 2.068,
+      "step": 1200
+    },
+    {
+      "epoch": 3.723076923076923,
+      "grad_norm": 1.2028673887252808,
+      "learning_rate": 7.421818181818182e-05,
+      "loss": 1.5135,
+      "step": 1210
+    },
+    {
+      "epoch": 3.753846153846154,
+      "grad_norm": 0.9091282486915588,
+      "learning_rate": 7.385454545454545e-05,
+      "loss": 1.3876,
+      "step": 1220
+    },
+    {
+      "epoch": 3.7846153846153845,
+      "grad_norm": 0.9549902677536011,
+      "learning_rate": 7.34909090909091e-05,
+      "loss": 1.7408,
+      "step": 1230
+    },
+    {
+      "epoch": 3.815384615384615,
+      "grad_norm": 1.109423279762268,
+      "learning_rate": 7.312727272727274e-05,
+      "loss": 1.3897,
+      "step": 1240
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 1.1412984132766724,
+      "learning_rate": 7.276363636363637e-05,
+      "loss": 1.5034,
+      "step": 1250
+    },
+    {
+      "epoch": 3.876923076923077,
+      "grad_norm": 1.176283359527588,
+      "learning_rate": 7.24e-05,
+      "loss": 1.5426,
+      "step": 1260
+    },
+    {
+      "epoch": 3.9076923076923076,
+      "grad_norm": 1.3558485507965088,
+      "learning_rate": 7.203636363636364e-05,
+      "loss": 1.5287,
+      "step": 1270
+    },
+    {
+      "epoch": 3.9384615384615387,
+      "grad_norm": 1.23688805103302,
+      "learning_rate": 7.167272727272729e-05,
+      "loss": 1.5794,
+      "step": 1280
+    },
+    {
+      "epoch": 3.9692307692307693,
+      "grad_norm": 1.248528242111206,
+      "learning_rate": 7.130909090909092e-05,
+      "loss": 1.5166,
+      "step": 1290
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.8396208882331848,
+      "learning_rate": 7.094545454545455e-05,
+      "loss": 1.4648,
+      "step": 1300
+    },
+    {
+      "epoch": 4.030769230769231,
+      "grad_norm": 1.0756162405014038,
+      "learning_rate": 7.058181818181819e-05,
+      "loss": 1.4147,
+      "step": 1310
+    },
+    {
+      "epoch": 4.061538461538461,
+      "grad_norm": 1.1731723546981812,
+      "learning_rate": 7.021818181818182e-05,
+      "loss": 1.3732,
+      "step": 1320
+    },
+    {
+      "epoch": 4.092307692307692,
+      "grad_norm": 1.2993149757385254,
+      "learning_rate": 6.985454545454546e-05,
+      "loss": 1.4118,
+      "step": 1330
+    },
+    {
+      "epoch": 4.123076923076923,
+      "grad_norm": 1.1648204326629639,
+      "learning_rate": 6.949090909090909e-05,
+      "loss": 1.4258,
+      "step": 1340
+    },
+    {
+      "epoch": 4.153846153846154,
+      "grad_norm": 1.1242045164108276,
+      "learning_rate": 6.912727272727274e-05,
+      "loss": 1.3598,
+      "step": 1350
+    },
+    {
+      "epoch": 4.184615384615385,
+      "grad_norm": 1.53397536277771,
+      "learning_rate": 6.876363636363637e-05,
+      "loss": 1.3431,
+      "step": 1360
+    },
+    {
+      "epoch": 4.2153846153846155,
+      "grad_norm": 1.3859331607818604,
+      "learning_rate": 6.840000000000001e-05,
+      "loss": 1.5014,
+      "step": 1370
+    },
+    {
+      "epoch": 4.246153846153846,
+      "grad_norm": 1.0821737051010132,
+      "learning_rate": 6.803636363636364e-05,
+      "loss": 1.2638,
+      "step": 1380
+    },
+    {
+      "epoch": 4.276923076923077,
+      "grad_norm": 1.2648742198944092,
+      "learning_rate": 6.767272727272728e-05,
+      "loss": 1.4567,
+      "step": 1390
+    },
+    {
+      "epoch": 4.3076923076923075,
+      "grad_norm": 1.1357372999191284,
+      "learning_rate": 6.730909090909091e-05,
+      "loss": 1.4706,
+      "step": 1400
+    },
+    {
+      "epoch": 4.3076923076923075,
+      "eval_gen_len": 187.0146,
+      "eval_loss": 1.6691502332687378,
+      "eval_rouge1": 0.6061,
+      "eval_rouge2": 0.2593,
+      "eval_rougeL": 0.4719,
+      "eval_runtime": 33.439,
+      "eval_samples_per_second": 8.194,
+      "eval_steps_per_second": 2.063,
+      "step": 1400
+    },
+    {
+      "epoch": 4.338461538461538,
+      "grad_norm": 1.4324264526367188,
+      "learning_rate": 6.694545454545454e-05,
+      "loss": 1.4032,
+      "step": 1410
+    },
+    {
+      "epoch": 4.36923076923077,
+      "grad_norm": 1.3646095991134644,
+      "learning_rate": 6.658181818181819e-05,
+      "loss": 1.3943,
+      "step": 1420
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 0.9991398453712463,
+      "learning_rate": 6.621818181818183e-05,
+      "loss": 1.5292,
+      "step": 1430
+    },
+    {
+      "epoch": 4.430769230769231,
+      "grad_norm": 1.1873986721038818,
+      "learning_rate": 6.585454545454546e-05,
+      "loss": 1.4813,
+      "step": 1440
+    },
+    {
+      "epoch": 4.461538461538462,
+      "grad_norm": 1.0080267190933228,
+      "learning_rate": 6.549090909090909e-05,
+      "loss": 1.4951,
+      "step": 1450
+    },
+    {
+      "epoch": 4.492307692307692,
+      "grad_norm": 1.5542734861373901,
+      "learning_rate": 6.512727272727272e-05,
+      "loss": 1.5603,
+      "step": 1460
+    },
+    {
+      "epoch": 4.523076923076923,
+      "grad_norm": 1.2610498666763306,
+      "learning_rate": 6.476363636363638e-05,
+      "loss": 1.3286,
+      "step": 1470
+    },
+    {
+      "epoch": 4.553846153846154,
+      "grad_norm": 1.0882760286331177,
+      "learning_rate": 6.440000000000001e-05,
+      "loss": 1.309,
+      "step": 1480
+    },
+    {
+      "epoch": 4.584615384615384,
+      "grad_norm": 1.1589834690093994,
+      "learning_rate": 6.403636363636364e-05,
+      "loss": 1.414,
+      "step": 1490
+    },
+    {
+      "epoch": 4.615384615384615,
+      "grad_norm": 1.3731642961502075,
+      "learning_rate": 6.367272727272727e-05,
+      "loss": 1.4529,
+      "step": 1500
+    },
+    {
+      "epoch": 4.6461538461538465,
+      "grad_norm": 1.3053221702575684,
+      "learning_rate": 6.330909090909091e-05,
+      "loss": 1.4623,
+      "step": 1510
+    },
+    {
+      "epoch": 4.676923076923077,
+      "grad_norm": 1.2154396772384644,
+      "learning_rate": 6.294545454545455e-05,
+      "loss": 1.4766,
+      "step": 1520
+    },
+    {
+      "epoch": 4.707692307692308,
+      "grad_norm": 1.0947812795639038,
+      "learning_rate": 6.258181818181818e-05,
+      "loss": 1.3212,
+      "step": 1530
+    },
+    {
+      "epoch": 4.7384615384615385,
+      "grad_norm": 1.005462646484375,
+      "learning_rate": 6.221818181818181e-05,
+      "loss": 1.3956,
+      "step": 1540
+    },
+    {
+      "epoch": 4.769230769230769,
+      "grad_norm": 1.196108341217041,
+      "learning_rate": 6.185454545454546e-05,
+      "loss": 1.4048,
+      "step": 1550
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 1.355747103691101,
+      "learning_rate": 6.14909090909091e-05,
+      "loss": 1.3474,
+      "step": 1560
+    },
+    {
+      "epoch": 4.8307692307692305,
+      "grad_norm": 1.177310585975647,
+      "learning_rate": 6.112727272727273e-05,
+      "loss": 1.3038,
+      "step": 1570
+    },
+    {
+      "epoch": 4.861538461538462,
+      "grad_norm": 1.273474097251892,
+      "learning_rate": 6.076363636363637e-05,
+      "loss": 1.3858,
+      "step": 1580
+    },
+    {
+      "epoch": 4.892307692307693,
+      "grad_norm": 1.2601613998413086,
+      "learning_rate": 6.04e-05,
+      "loss": 1.2742,
+      "step": 1590
+    },
+    {
+      "epoch": 4.923076923076923,
+      "grad_norm": 1.052040696144104,
+      "learning_rate": 6.0036363636363634e-05,
+      "loss": 1.5551,
+      "step": 1600
+    },
+    {
+      "epoch": 4.923076923076923,
+      "eval_gen_len": 187.0146,
+      "eval_loss": 1.6678508520126343,
+      "eval_rouge1": 0.6061,
+      "eval_rouge2": 0.2582,
+      "eval_rougeL": 0.4724,
+      "eval_runtime": 33.608,
+      "eval_samples_per_second": 8.153,
+      "eval_steps_per_second": 2.053,
+      "step": 1600
+    },
+    {
+      "epoch": 4.953846153846154,
+      "grad_norm": 1.4437050819396973,
+      "learning_rate": 5.967272727272728e-05,
+      "loss": 1.3613,
+      "step": 1610
+    },
+    {
+      "epoch": 4.984615384615385,
+      "grad_norm": 1.398398518562317,
+      "learning_rate": 5.9309090909090915e-05,
+      "loss": 1.3861,
+      "step": 1620
+    },
+    {
+      "epoch": 5.015384615384615,
+      "grad_norm": 1.1901689767837524,
+      "learning_rate": 5.894545454545455e-05,
+      "loss": 1.4525,
+      "step": 1630
+    },
+    {
+      "epoch": 5.046153846153846,
+      "grad_norm": 1.2631349563598633,
+      "learning_rate": 5.858181818181818e-05,
+      "loss": 1.3698,
+      "step": 1640
+    },
+    {
+      "epoch": 5.076923076923077,
+      "grad_norm": 1.3628337383270264,
+      "learning_rate": 5.821818181818182e-05,
+      "loss": 1.1917,
+      "step": 1650
+    },
+    {
+      "epoch": 5.107692307692307,
+      "grad_norm": 1.2330440282821655,
+      "learning_rate": 5.785454545454546e-05,
+      "loss": 1.3692,
+      "step": 1660
+    },
+    {
+      "epoch": 5.138461538461539,
+      "grad_norm": 1.069877028465271,
+      "learning_rate": 5.74909090909091e-05,
+      "loss": 1.2439,
+      "step": 1670
+    },
+    {
+      "epoch": 5.1692307692307695,
+      "grad_norm": 1.1694751977920532,
+      "learning_rate": 5.712727272727273e-05,
+      "loss": 1.1194,
+      "step": 1680
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 1.424668312072754,
+      "learning_rate": 5.6763636363636365e-05,
+      "loss": 1.456,
+      "step": 1690
+    },
+    {
+      "epoch": 5.230769230769231,
+      "grad_norm": 1.1166226863861084,
+      "learning_rate": 5.6399999999999995e-05,
+      "loss": 1.3011,
+      "step": 1700
+    },
+    {
+      "epoch": 5.2615384615384615,
+      "grad_norm": 1.196712851524353,
+      "learning_rate": 5.6036363636363646e-05,
+      "loss": 1.3272,
+      "step": 1710
+    },
+    {
+      "epoch": 5.292307692307692,
+      "grad_norm": 1.105592131614685,
+      "learning_rate": 5.5672727272727276e-05,
+      "loss": 1.3831,
+      "step": 1720
+    },
+    {
+      "epoch": 5.323076923076923,
+      "grad_norm": 1.3789408206939697,
+      "learning_rate": 5.530909090909091e-05,
+      "loss": 1.3924,
+      "step": 1730
+    },
+    {
+      "epoch": 5.3538461538461535,
+      "grad_norm": 1.1058343648910522,
+      "learning_rate": 5.494545454545454e-05,
+      "loss": 1.1278,
+      "step": 1740
+    },
+    {
+      "epoch": 5.384615384615385,
+      "grad_norm": 1.0470004081726074,
+      "learning_rate": 5.458181818181819e-05,
+      "loss": 1.2675,
+      "step": 1750
+    },
+    {
+      "epoch": 5.415384615384616,
+      "grad_norm": 1.5735996961593628,
+      "learning_rate": 5.421818181818182e-05,
+      "loss": 1.368,
+      "step": 1760
+    },
+    {
+      "epoch": 5.446153846153846,
+      "grad_norm": 1.053110122680664,
+      "learning_rate": 5.385454545454546e-05,
+      "loss": 1.4409,
+      "step": 1770
+    },
+    {
+      "epoch": 5.476923076923077,
+      "grad_norm": 1.2032136917114258,
+      "learning_rate": 5.349090909090909e-05,
+      "loss": 1.3919,
+      "step": 1780
+    },
+    {
+      "epoch": 5.507692307692308,
+      "grad_norm": 1.3398489952087402,
+      "learning_rate": 5.3127272727272726e-05,
+      "loss": 1.3891,
+      "step": 1790
+    },
+    {
+      "epoch": 5.538461538461538,
+      "grad_norm": 1.1674134731292725,
+      "learning_rate": 5.276363636363637e-05,
+      "loss": 1.4167,
+      "step": 1800
+    },
+    {
+      "epoch": 5.538461538461538,
+      "eval_gen_len": 187.0146,
+      "eval_loss": 1.6820106506347656,
+      "eval_rouge1": 0.6051,
+      "eval_rouge2": 0.256,
+      "eval_rougeL": 0.4705,
+      "eval_runtime": 34.3835,
+      "eval_samples_per_second": 7.969,
+      "eval_steps_per_second": 2.007,
+      "step": 1800
+    },
+    {
+      "epoch": 5.569230769230769,
+      "grad_norm": 1.3142492771148682,
+      "learning_rate": 5.2400000000000007e-05,
+      "loss": 1.2869,
+      "step": 1810
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 1.3149932622909546,
+      "learning_rate": 5.2036363636363637e-05,
+      "loss": 1.3653,
+      "step": 1820
+    },
+    {
+      "epoch": 5.63076923076923,
+      "grad_norm": 1.1139847040176392,
+      "learning_rate": 5.167272727272727e-05,
+      "loss": 1.3807,
+      "step": 1830
+    },
+    {
+      "epoch": 5.661538461538462,
+      "grad_norm": 1.302495002746582,
+      "learning_rate": 5.130909090909091e-05,
+      "loss": 1.3826,
+      "step": 1840
+    },
+    {
+      "epoch": 5.6923076923076925,
+      "grad_norm": 1.2617419958114624,
+      "learning_rate": 5.0945454545454554e-05,
+      "loss": 1.283,
+      "step": 1850
+    },
+    {
+      "epoch": 5.723076923076923,
+      "grad_norm": 1.252189040184021,
+      "learning_rate": 5.0581818181818184e-05,
+      "loss": 1.3425,
+      "step": 1860
+    },
+    {
+      "epoch": 5.753846153846154,
+      "grad_norm": 1.0823620557785034,
+      "learning_rate": 5.021818181818182e-05,
+      "loss": 1.4646,
+      "step": 1870
+    },
+    {
+      "epoch": 5.7846153846153845,
+      "grad_norm": 1.39573335647583,
+      "learning_rate": 4.985454545454546e-05,
+      "loss": 1.2957,
+      "step": 1880
+    },
+    {
+      "epoch": 5.815384615384615,
+      "grad_norm": 1.217499852180481,
+      "learning_rate": 4.9490909090909094e-05,
+      "loss": 1.3232,
+      "step": 1890
+    },
+    {
+      "epoch": 5.846153846153846,
+      "grad_norm": 1.3049825429916382,
+      "learning_rate": 4.912727272727273e-05,
+      "loss": 1.333,
+      "step": 1900
+    },
+    {
+      "epoch": 5.876923076923077,
+      "grad_norm": 1.265807032585144,
+      "learning_rate": 4.876363636363637e-05,
+      "loss": 1.2635,
+      "step": 1910
+    },
+    {
+      "epoch": 5.907692307692308,
+      "grad_norm": 1.4045813083648682,
+      "learning_rate": 4.8400000000000004e-05,
+      "loss": 1.3453,
+      "step": 1920
+    },
+    {
+      "epoch": 5.938461538461539,
+      "grad_norm": 1.4151256084442139,
+      "learning_rate": 4.803636363636364e-05,
+      "loss": 1.2274,
+      "step": 1930
+    },
+    {
+      "epoch": 5.969230769230769,
+      "grad_norm": 1.30918288230896,
+      "learning_rate": 4.767272727272728e-05,
+      "loss": 1.3835,
+      "step": 1940
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.1394106149673462,
+      "learning_rate": 4.7309090909090914e-05,
+      "loss": 1.4773,
+      "step": 1950
+    },
+    {
+      "epoch": 6.030769230769231,
+      "grad_norm": 1.0991594791412354,
+      "learning_rate": 4.694545454545455e-05,
+      "loss": 1.1885,
+      "step": 1960
+    },
+    {
+      "epoch": 6.061538461538461,
+      "grad_norm": 1.2676807641983032,
+      "learning_rate": 4.658181818181818e-05,
+      "loss": 1.2931,
+      "step": 1970
+    },
+    {
+      "epoch": 6.092307692307692,
+      "grad_norm": 1.2844555377960205,
+      "learning_rate": 4.6218181818181825e-05,
+      "loss": 1.2758,
+      "step": 1980
+    },
+    {
+      "epoch": 6.123076923076923,
+      "grad_norm": 1.2364481687545776,
+      "learning_rate": 4.5854545454545455e-05,
+      "loss": 1.1871,
+      "step": 1990
+    },
+    {
+      "epoch": 6.153846153846154,
+      "grad_norm": 1.4142909049987793,
+      "learning_rate": 4.54909090909091e-05,
+      "loss": 1.2976,
+      "step": 2000
+    },
+    {
+      "epoch": 6.153846153846154,
+      "eval_gen_len": 187.0146,
+      "eval_loss": 1.6960315704345703,
+      "eval_rouge1": 0.6074,
+      "eval_rouge2": 0.2564,
+      "eval_rougeL": 0.4698,
+      "eval_runtime": 33.4283,
+      "eval_samples_per_second": 8.197,
+      "eval_steps_per_second": 2.064,
+      "step": 2000
+    },
+    {
+      "epoch": 6.184615384615385,
+      "grad_norm": 1.234192132949829,
+      "learning_rate": 4.512727272727273e-05,
+      "loss": 1.3096,
+      "step": 2010
+    },
+    {
+      "epoch": 6.2153846153846155,
+      "grad_norm": 1.1222543716430664,
+      "learning_rate": 4.4763636363636365e-05,
+      "loss": 1.2937,
+      "step": 2020
+    },
+    {
+      "epoch": 6.246153846153846,
+      "grad_norm": 1.0864425897598267,
+      "learning_rate": 4.44e-05,
+      "loss": 1.278,
+      "step": 2030
+    },
+    {
+      "epoch": 6.276923076923077,
+      "grad_norm": 1.3431516885757446,
+      "learning_rate": 4.403636363636364e-05,
+      "loss": 1.2601,
+      "step": 2040
+    },
+    {
+      "epoch": 6.3076923076923075,
+      "grad_norm": 1.2604031562805176,
+      "learning_rate": 4.3672727272727275e-05,
+      "loss": 1.3587,
+      "step": 2050
+    },
+    {
+      "epoch": 6.338461538461538,
+      "grad_norm": 1.4237326383590698,
+      "learning_rate": 4.330909090909091e-05,
+      "loss": 1.3936,
+      "step": 2060
+    },
+    {
+      "epoch": 6.36923076923077,
+      "grad_norm": 1.2190274000167847,
+      "learning_rate": 4.294545454545455e-05,
+      "loss": 1.2805,
+      "step": 2070
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 1.3023786544799805,
+      "learning_rate": 4.2581818181818186e-05,
+      "loss": 1.2676,
+      "step": 2080
+    },
+    {
+      "epoch": 6.430769230769231,
+      "grad_norm": 1.2170274257659912,
+      "learning_rate": 4.2218181818181816e-05,
+      "loss": 1.3696,
+      "step": 2090
+    },
+    {
+      "epoch": 6.461538461538462,
+      "grad_norm": 1.613784670829773,
+      "learning_rate": 4.185454545454546e-05,
+      "loss": 1.28,
+      "step": 2100
+    },
+    {
+      "epoch": 6.492307692307692,
+      "grad_norm": 1.2165530920028687,
+      "learning_rate": 4.149090909090909e-05,
+      "loss": 1.2933,
+      "step": 2110
+    },
+    {
+      "epoch": 6.523076923076923,
+      "grad_norm": 1.2213079929351807,
+      "learning_rate": 4.112727272727273e-05,
+      "loss": 1.2062,
+      "step": 2120
+    },
+    {
+      "epoch": 6.553846153846154,
+      "grad_norm": 1.5889174938201904,
+      "learning_rate": 4.076363636363636e-05,
+      "loss": 1.2481,
+      "step": 2130
+    },
+    {
+      "epoch": 6.584615384615384,
+      "grad_norm": 1.2638423442840576,
+      "learning_rate": 4.0400000000000006e-05,
+      "loss": 1.29,
+      "step": 2140
+    },
+    {
+      "epoch": 6.615384615384615,
+      "grad_norm": 1.0796576738357544,
+      "learning_rate": 4.0036363636363636e-05,
+      "loss": 1.1189,
+      "step": 2150
+    },
+    {
+      "epoch": 6.6461538461538465,
+      "grad_norm": 1.5910948514938354,
+      "learning_rate": 3.967272727272727e-05,
+      "loss": 1.2767,
+      "step": 2160
+    },
+    {
+      "epoch": 6.676923076923077,
+      "grad_norm": 1.3346668481826782,
+      "learning_rate": 3.930909090909091e-05,
+      "loss": 1.2212,
+      "step": 2170
+    },
+    {
+      "epoch": 6.707692307692308,
+      "grad_norm": 1.1277836561203003,
+      "learning_rate": 3.8945454545454547e-05,
+      "loss": 1.2392,
+      "step": 2180
+    },
+    {
+      "epoch": 6.7384615384615385,
+      "grad_norm": 1.1212108135223389,
+      "learning_rate": 3.858181818181818e-05,
+      "loss": 1.3223,
+      "step": 2190
+    },
+    {
+      "epoch": 6.769230769230769,
+      "grad_norm": 1.2175902128219604,
+      "learning_rate": 3.821818181818182e-05,
+      "loss": 1.3124,
+      "step": 2200
+    },
+    {
+      "epoch": 6.769230769230769,
+      "eval_gen_len": 187.0146,
+      "eval_loss": 1.6920864582061768,
+      "eval_rouge1": 0.606,
+      "eval_rouge2": 0.2554,
+      "eval_rougeL": 0.4694,
+      "eval_runtime": 34.3853,
+      "eval_samples_per_second": 7.969,
+      "eval_steps_per_second": 2.007,
+      "step": 2200
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 1.163404107093811,
+      "learning_rate": 3.785454545454546e-05,
+      "loss": 1.4557,
+      "step": 2210
+    },
+    {
+      "epoch": 6.8307692307692305,
+      "grad_norm": 1.5031542778015137,
+      "learning_rate": 3.7490909090909094e-05,
+      "loss": 1.1773,
+      "step": 2220
+    },
+    {
+      "epoch": 6.861538461538462,
+      "grad_norm": 1.0126748085021973,
+      "learning_rate": 3.712727272727273e-05,
+      "loss": 1.3922,
+      "step": 2230
+    },
+    {
+      "epoch": 6.892307692307693,
+      "grad_norm": 1.0135952234268188,
+      "learning_rate": 3.676363636363637e-05,
+      "loss": 1.2028,
+      "step": 2240
+    },
+    {
+      "epoch": 6.923076923076923,
+      "grad_norm": 1.16098153591156,
+      "learning_rate": 3.6400000000000004e-05,
+      "loss": 1.4111,
+      "step": 2250
+    },
+    {
+      "epoch": 6.953846153846154,
+      "grad_norm": 1.488234519958496,
+      "learning_rate": 3.603636363636364e-05,
+      "loss": 1.3131,
+      "step": 2260
+    },
+    {
+      "epoch": 6.984615384615385,
+      "grad_norm": 1.129989743232727,
+      "learning_rate": 3.567272727272728e-05,
+      "loss": 1.1701,
+      "step": 2270
+    },
+    {
+      "epoch": 7.015384615384615,
+      "grad_norm": 1.218468189239502,
+      "learning_rate": 3.530909090909091e-05,
+      "loss": 1.2604,
+      "step": 2280
+    },
+    {
+      "epoch": 7.046153846153846,
+      "grad_norm": 1.2339926958084106,
+      "learning_rate": 3.494545454545455e-05,
+      "loss": 1.0932,
+      "step": 2290
+    },
+    {
+      "epoch": 7.076923076923077,
+      "grad_norm": 1.4972765445709229,
+      "learning_rate": 3.458181818181818e-05,
+      "loss": 1.1137,
+      "step": 2300
+    },
+    {
+      "epoch": 7.107692307692307,
+      "grad_norm": 1.1884584426879883,
+      "learning_rate": 3.4218181818181824e-05,
+      "loss": 1.1522,
+      "step": 2310
+    },
+    {
+      "epoch": 7.138461538461539,
+      "grad_norm": 1.4934840202331543,
+      "learning_rate": 3.3854545454545454e-05,
+      "loss": 1.3121,
+      "step": 2320
+    },
+    {
+      "epoch": 7.1692307692307695,
+      "grad_norm": 1.1432678699493408,
+      "learning_rate": 3.34909090909091e-05,
+      "loss": 1.1549,
+      "step": 2330
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 1.1708807945251465,
+      "learning_rate": 3.312727272727273e-05,
+      "loss": 1.1692,
+      "step": 2340
+    },
+    {
+      "epoch": 7.230769230769231,
+      "grad_norm": 1.3824517726898193,
+      "learning_rate": 3.2763636363636365e-05,
+      "loss": 1.208,
+      "step": 2350
+    },
+    {
+      "epoch": 7.2615384615384615,
+      "grad_norm": 1.1225407123565674,
+      "learning_rate": 3.24e-05,
+      "loss": 1.1542,
+      "step": 2360
+    },
+    {
+      "epoch": 7.292307692307692,
+      "grad_norm": 1.2445507049560547,
+      "learning_rate": 3.203636363636364e-05,
+      "loss": 1.2265,
+      "step": 2370
+    },
+    {
+      "epoch": 7.323076923076923,
+      "grad_norm": 1.256062626838684,
+      "learning_rate": 3.1672727272727275e-05,
+      "loss": 1.1822,
+      "step": 2380
+    },
+    {
+      "epoch": 7.3538461538461535,
+      "grad_norm": 1.3986501693725586,
+      "learning_rate": 3.130909090909091e-05,
+      "loss": 1.262,
+      "step": 2390
+    },
+    {
+      "epoch": 7.384615384615385,
+      "grad_norm": 1.1086236238479614,
+      "learning_rate": 3.094545454545455e-05,
+      "loss": 1.2275,
+      "step": 2400
+    },
+    {
+      "epoch": 7.384615384615385,
+      "eval_gen_len": 187.0146,
+      "eval_loss": 1.6998823881149292,
+      "eval_rouge1": 0.6055,
+      "eval_rouge2": 0.2541,
+      "eval_rougeL": 0.4684,
+      "eval_runtime": 33.5145,
+      "eval_samples_per_second": 8.176,
+      "eval_steps_per_second": 2.059,
+      "step": 2400
+    },
+    {
+      "epoch": 7.415384615384616,
+      "grad_norm": 1.5682780742645264,
+      "learning_rate": 3.0581818181818185e-05,
+      "loss": 1.3442,
+      "step": 2410
+    },
+    {
+      "epoch": 7.446153846153846,
+      "grad_norm": 1.034818410873413,
+      "learning_rate": 3.021818181818182e-05,
+      "loss": 1.2158,
+      "step": 2420
+    },
+    {
+      "epoch": 7.476923076923077,
+      "grad_norm": 1.2816352844238281,
+      "learning_rate": 2.985454545454546e-05,
+      "loss": 1.1646,
+      "step": 2430
+    },
+    {
+      "epoch": 7.507692307692308,
+      "grad_norm": 1.252765417098999,
+      "learning_rate": 2.9490909090909092e-05,
+      "loss": 1.1985,
+      "step": 2440
+    },
+    {
+      "epoch": 7.538461538461538,
+      "grad_norm": 1.4074809551239014,
+      "learning_rate": 2.9127272727272732e-05,
+      "loss": 1.3245,
+      "step": 2450
+    },
+    {
+      "epoch": 7.569230769230769,
+      "grad_norm": 1.3757801055908203,
+      "learning_rate": 2.8763636363636366e-05,
+      "loss": 1.2856,
+      "step": 2460
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 1.355635643005371,
+      "learning_rate": 2.84e-05,
+      "loss": 1.229,
+      "step": 2470
+    },
+    {
+      "epoch": 7.63076923076923,
+      "grad_norm": 1.185659646987915,
+      "learning_rate": 2.803636363636364e-05,
+      "loss": 1.2444,
+      "step": 2480
+    },
+    {
+      "epoch": 7.661538461538462,
+      "grad_norm": 1.4726060628890991,
+      "learning_rate": 2.7672727272727273e-05,
+      "loss": 1.2877,
+      "step": 2490
+    },
+    {
+      "epoch": 7.6923076923076925,
+      "grad_norm": 1.525718092918396,
+      "learning_rate": 2.7309090909090913e-05,
+      "loss": 1.2993,
+      "step": 2500
+    },
+    {
+      "epoch": 7.723076923076923,
+      "grad_norm": 1.2432451248168945,
+      "learning_rate": 2.6945454545454546e-05,
+      "loss": 1.2803,
+      "step": 2510
+    },
+    {
+      "epoch": 7.753846153846154,
+      "grad_norm": 1.2237839698791504,
+      "learning_rate": 2.6581818181818186e-05,
+      "loss": 1.2785,
+      "step": 2520
+    },
+    {
+      "epoch": 7.7846153846153845,
+      "grad_norm": 1.5360924005508423,
+      "learning_rate": 2.621818181818182e-05,
+      "loss": 1.3164,
+      "step": 2530
+    },
+    {
+      "epoch": 7.815384615384615,
+      "grad_norm": 1.4242442846298218,
+      "learning_rate": 2.5854545454545453e-05,
+      "loss": 1.1864,
+      "step": 2540
+    },
+    {
+      "epoch": 7.846153846153846,
+      "grad_norm": 1.0664770603179932,
+      "learning_rate": 2.5490909090909093e-05,
+      "loss": 1.2769,
+      "step": 2550
+    },
+    {
+      "epoch": 7.876923076923077,
+      "grad_norm": 1.3427962064743042,
+      "learning_rate": 2.5127272727272727e-05,
+      "loss": 1.183,
+      "step": 2560
+    },
+    {
+      "epoch": 7.907692307692308,
+      "grad_norm": 1.2692787647247314,
+      "learning_rate": 2.4763636363636363e-05,
+      "loss": 1.3775,
+      "step": 2570
+    },
+    {
+      "epoch": 7.938461538461539,
+      "grad_norm": 1.3220490217208862,
+      "learning_rate": 2.44e-05,
+      "loss": 1.1557,
+      "step": 2580
+    },
+    {
+      "epoch": 7.969230769230769,
+      "grad_norm": 1.31517493724823,
+      "learning_rate": 2.4036363636363637e-05,
+      "loss": 1.3144,
+      "step": 2590
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1.145848274230957,
+      "learning_rate": 2.3672727272727274e-05,
+      "loss": 1.4194,
+      "step": 2600
+    },
+    {
+      "epoch": 8.0,
+      "eval_gen_len": 187.0146,
+      "eval_loss": 1.6980103254318237,
+      "eval_rouge1": 0.6066,
+      "eval_rouge2": 0.2565,
+      "eval_rougeL": 0.4699,
+      "eval_runtime": 33.5275,
+      "eval_samples_per_second": 8.172,
+      "eval_steps_per_second": 2.058,
+      "step": 2600
+    },
+    {
+      "epoch": 8.03076923076923,
+      "grad_norm": 1.3528770208358765,
+      "learning_rate": 2.330909090909091e-05,
+      "loss": 1.2504,
+      "step": 2610
+    },
+    {
+      "epoch": 8.061538461538461,
+      "grad_norm": 1.1651642322540283,
+      "learning_rate": 2.2945454545454547e-05,
+      "loss": 1.0993,
+      "step": 2620
+    },
+    {
+      "epoch": 8.092307692307692,
+      "grad_norm": 1.1845202445983887,
+      "learning_rate": 2.258181818181818e-05,
+      "loss": 1.1356,
+      "step": 2630
+    },
+    {
+      "epoch": 8.123076923076923,
+      "grad_norm": 1.2000699043273926,
+      "learning_rate": 2.2218181818181817e-05,
+      "loss": 1.206,
+      "step": 2640
+    },
+    {
+      "epoch": 8.153846153846153,
+      "grad_norm": 1.449044108390808,
+      "learning_rate": 2.1854545454545454e-05,
+      "loss": 1.2059,
+      "step": 2650
+    },
+    {
+      "epoch": 8.184615384615384,
+      "grad_norm": 1.2176152467727661,
+      "learning_rate": 2.149090909090909e-05,
+      "loss": 1.1849,
+      "step": 2660
+    },
+    {
+      "epoch": 8.215384615384615,
+      "grad_norm": 1.4765113592147827,
+      "learning_rate": 2.1127272727272728e-05,
+      "loss": 1.3351,
+      "step": 2670
+    },
+    {
+      "epoch": 8.246153846153845,
+      "grad_norm": 1.5038341283798218,
+      "learning_rate": 2.0763636363636364e-05,
+      "loss": 1.2766,
+      "step": 2680
+    },
+    {
+      "epoch": 8.276923076923078,
+      "grad_norm": 1.3483731746673584,
+      "learning_rate": 2.04e-05,
+      "loss": 1.1067,
+      "step": 2690
+    },
+    {
+      "epoch": 8.307692307692308,
+      "grad_norm": 1.025032639503479,
+      "learning_rate": 2.0036363636363638e-05,
+      "loss": 1.2155,
+      "step": 2700
+    },
+    {
+      "epoch": 8.338461538461539,
+      "grad_norm": 1.3824971914291382,
+      "learning_rate": 1.9672727272727275e-05,
+      "loss": 1.1767,
+      "step": 2710
+    },
+    {
+      "epoch": 8.36923076923077,
+      "grad_norm": 1.2280523777008057,
+      "learning_rate": 1.930909090909091e-05,
+      "loss": 1.2881,
+      "step": 2720
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 1.2223644256591797,
+      "learning_rate": 1.8945454545454548e-05,
+      "loss": 1.1898,
+      "step": 2730
+    },
+    {
+      "epoch": 8.430769230769231,
+      "grad_norm": 1.349334955215454,
+      "learning_rate": 1.8581818181818185e-05,
+      "loss": 1.2984,
+      "step": 2740
+    },
+    {
+      "epoch": 8.461538461538462,
+      "grad_norm": 1.2894556522369385,
+      "learning_rate": 1.8218181818181822e-05,
+      "loss": 1.3458,
+      "step": 2750
+    },
+    {
+      "epoch": 8.492307692307692,
+      "grad_norm": 1.6086795330047607,
+      "learning_rate": 1.7854545454545455e-05,
+      "loss": 1.2394,
+      "step": 2760
+    },
+    {
+      "epoch": 8.523076923076923,
+      "grad_norm": 1.4955778121948242,
+      "learning_rate": 1.7490909090909092e-05,
+      "loss": 1.1506,
+      "step": 2770
+    },
+    {
+      "epoch": 8.553846153846154,
+      "grad_norm": 1.4156781435012817,
+      "learning_rate": 1.712727272727273e-05,
+      "loss": 1.1746,
+      "step": 2780
+    },
+    {
+      "epoch": 8.584615384615384,
+      "grad_norm": 1.2073826789855957,
+      "learning_rate": 1.6763636363636365e-05,
+      "loss": 1.1301,
+      "step": 2790
+    },
+    {
+      "epoch": 8.615384615384615,
+      "grad_norm": 1.574342966079712,
+      "learning_rate": 1.6400000000000002e-05,
+      "loss": 1.3976,
+      "step": 2800
+    },
+    {
+      "epoch": 8.615384615384615,
+      "eval_gen_len": 187.0146,
+      "eval_loss": 1.7040081024169922,
+      "eval_rouge1": 0.6049,
+      "eval_rouge2": 0.2551,
+      "eval_rougeL": 0.469,
+      "eval_runtime": 34.1499,
+      "eval_samples_per_second": 8.023,
+      "eval_steps_per_second": 2.021,
+      "step": 2800
+    },
+    {
+      "epoch": 8.646153846153846,
+      "grad_norm": 1.207323670387268,
+      "learning_rate": 1.603636363636364e-05,
+      "loss": 1.2123,
+      "step": 2810
+    },
+    {
+      "epoch": 8.676923076923076,
+      "grad_norm": 1.346170425415039,
+      "learning_rate": 1.5672727272727272e-05,
+      "loss": 1.1284,
+      "step": 2820
+    },
+    {
+      "epoch": 8.707692307692307,
+      "grad_norm": 1.3920952081680298,
+      "learning_rate": 1.530909090909091e-05,
+      "loss": 1.1961,
+      "step": 2830
+    },
+    {
+      "epoch": 8.73846153846154,
+      "grad_norm": 1.4912207126617432,
+      "learning_rate": 1.4945454545454546e-05,
+      "loss": 1.2558,
+      "step": 2840
+    },
+    {
+      "epoch": 8.76923076923077,
+      "grad_norm": 0.9997207522392273,
+      "learning_rate": 1.4581818181818183e-05,
+      "loss": 1.1842,
+      "step": 2850
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 1.207138180732727,
+      "learning_rate": 1.421818181818182e-05,
+      "loss": 1.2588,
+      "step": 2860
+    },
+    {
+      "epoch": 8.830769230769231,
+      "grad_norm": 1.398917555809021,
+      "learning_rate": 1.3854545454545456e-05,
+      "loss": 1.2445,
+      "step": 2870
+    },
+    {
+      "epoch": 8.861538461538462,
+      "grad_norm": 1.3793071508407593,
+      "learning_rate": 1.3490909090909093e-05,
+      "loss": 1.164,
+      "step": 2880
+    },
+    {
+      "epoch": 8.892307692307693,
+      "grad_norm": 1.2650920152664185,
+      "learning_rate": 1.3127272727272726e-05,
+      "loss": 1.2235,
+      "step": 2890
+    },
+    {
+      "epoch": 8.923076923076923,
+      "grad_norm": 1.3319740295410156,
+      "learning_rate": 1.2763636363636363e-05,
+      "loss": 1.1818,
+      "step": 2900
+    },
+    {
+      "epoch": 8.953846153846154,
+      "grad_norm": 1.395668387413025,
+      "learning_rate": 1.24e-05,
+      "loss": 1.2237,
+      "step": 2910
+    },
+    {
+      "epoch": 8.984615384615385,
+      "grad_norm": 1.1730422973632812,
+      "learning_rate": 1.2036363636363637e-05,
+      "loss": 1.0141,
+      "step": 2920
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 3250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7124807319552000.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8dff354338ed1884db2b62929f25f690c2b444c83fcc581cc89e6c23bc8d7f2f
+size 5240