Training in progress, step 400, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +91 -91
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5091c0a893b1e96cb02d978b9a43f47e89c90a649c41eaff9803fd9e4020d31
 size 4939116424

 version https://git-lfs.github.com/spec/v1
+oid sha256:a30c35cbc8785b8b002f6322557cf314425af21ab83b7f51c23859ba004e393f
 size 4939116424

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d061c229e9d4d5e97f4c0501b759b727c2b1d5cdd0e2e3f75f85205d4b68b62
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c1c4622df49ffc72bcf3fda3e087cdd3fcdd3a1d56d2ecbbbba441054dbfaf2
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a14a66efc4efb7405e139a6853cad6eab928cc89da1bb6f08dbf189017c7ff28
 size 3590619888

 version https://git-lfs.github.com/spec/v1
+oid sha256:a848c3958efbb12660e0c66dfca39e33220fd5a19d9bef3eb49a4609fc0f8aab
 size 3590619888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:225528eb4dd5c3ce51c0b08b0824156d1b66bc98683d54515581ca4149267ff2
 size 13688025904

 version https://git-lfs.github.com/spec/v1
+oid sha256:f707da0832c7ea8058a9b33d5b470abf8956d8086c479507d9e0898791f31e49
 size 13688025904

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -11,305 +11,305 @@
     {
       "epoch": 0.0001479946721918011,
       "eval_loss": 2.158451557159424,
-      "eval_runtime": 161.7202,
-      "eval_samples_per_second": 9.288,
-      "eval_steps_per_second": 4.644,
       "step": 1
     },
     {
       "epoch": 0.001479946721918011,
-      "grad_norm": 17.375,
       "learning_rate": 1.6000000000000003e-05,
-      "loss": 1.8766,
       "step": 10
     },
     {
       "epoch": 0.002959893443836022,
-      "grad_norm": 11.3125,
       "learning_rate": 3.2000000000000005e-05,
-      "loss": 1.8985,
       "step": 20
     },
     {
       "epoch": 0.0044398401657540325,
-      "grad_norm": 21.5,
       "learning_rate": 4.8e-05,
-      "loss": 1.7006,
       "step": 30
     },
     {
       "epoch": 0.005919786887672044,
-      "grad_norm": 21.625,
       "learning_rate": 6.400000000000001e-05,
-      "loss": 1.7853,
       "step": 40
     },
     {
       "epoch": 0.007399733609590055,
-      "grad_norm": 26.75,
       "learning_rate": 8e-05,
-      "loss": 1.3404,
       "step": 50
     },
     {
       "epoch": 0.008879680331508065,
-      "grad_norm": 7.1875,
       "learning_rate": 9.6e-05,
-      "loss": 1.9642,
       "step": 60
     },
     {
       "epoch": 0.010359627053426078,
-      "grad_norm": 19.125,
       "learning_rate": 0.00011200000000000001,
-      "loss": 2.0714,
       "step": 70
     },
     {
       "epoch": 0.011839573775344088,
-      "grad_norm": 22.125,
       "learning_rate": 0.00012800000000000002,
-      "loss": 1.6413,
       "step": 80
     },
     {
       "epoch": 0.0133195204972621,
-      "grad_norm": 27.75,
       "learning_rate": 0.000144,
-      "loss": 2.1683,
       "step": 90
     },
     {
       "epoch": 0.01479946721918011,
-      "grad_norm": 77.0,
       "learning_rate": 0.00016,
-      "loss": 2.0759,
       "step": 100
     },
     {
       "epoch": 0.01627941394109812,
-      "grad_norm": 264.0,
       "learning_rate": 0.00017600000000000002,
-      "loss": 2.4559,
       "step": 110
     },
     {
       "epoch": 0.01775936066301613,
-      "grad_norm": 12.625,
       "learning_rate": 0.000192,
-      "loss": 2.4551,
       "step": 120
     },
     {
       "epoch": 0.01923930738493414,
-      "grad_norm": 17.625,
       "learning_rate": 0.0001999978128380225,
-      "loss": 2.6614,
       "step": 130
     },
     {
       "epoch": 0.020719254106852155,
-      "grad_norm": 54.25,
       "learning_rate": 0.0001999803161162393,
-      "loss": 2.7413,
       "step": 140
     },
     {
       "epoch": 0.022199200828770166,
-      "grad_norm": 120.0,
       "learning_rate": 0.00019994532573409262,
-      "loss": 3.8586,
       "step": 150
     },
     {
       "epoch": 0.023679147550688177,
-      "grad_norm": 14.5,
       "learning_rate": 0.00019989284781388617,
-      "loss": 3.0433,
       "step": 160
     },
     {
       "epoch": 0.025159094272606188,
-      "grad_norm": 55.5,
       "learning_rate": 0.00019982289153773646,
-      "loss": 3.2773,
       "step": 170
     },
     {
       "epoch": 0.0266390409945242,
-      "grad_norm": 12.625,
       "learning_rate": 0.00019973546914596623,
-      "loss": 3.6984,
       "step": 180
     },
     {
       "epoch": 0.02811898771644221,
-      "grad_norm": 83.5,
       "learning_rate": 0.00019963059593496268,
-      "loss": 3.1995,
       "step": 190
     },
     {
       "epoch": 0.02959893443836022,
-      "grad_norm": 246.0,
       "learning_rate": 0.00019950829025450114,
-      "loss": 5.2174,
       "step": 200
     },
     {
       "epoch": 0.02959893443836022,
-      "eval_loss": 7.763393402099609,
-      "eval_runtime": 169.6503,
-      "eval_samples_per_second": 8.854,
-      "eval_steps_per_second": 4.427,
       "step": 200
     },
     {
       "epoch": 0.03107888116027823,
-      "grad_norm": 20.375,
       "learning_rate": 0.0001993685735045343,
-      "loss": 4.5554,
       "step": 210
     },
     {
       "epoch": 0.03255882788219624,
-      "grad_norm": 13.25,
       "learning_rate": 0.0001992114701314478,
-      "loss": 3.3164,
       "step": 220
     },
     {
       "epoch": 0.03403877460411425,
-      "grad_norm": 14.8125,
       "learning_rate": 0.000199037007623783,
-      "loss": 3.6277,
       "step": 230
     },
     {
       "epoch": 0.03551872132603226,
-      "grad_norm": 55.5,
       "learning_rate": 0.00019884521650742715,
-      "loss": 3.7657,
       "step": 240
     },
     {
       "epoch": 0.036998668047950274,
-      "grad_norm": 18.625,
       "learning_rate": 0.00019863613034027224,
-      "loss": 3.7949,
       "step": 250
     },
     {
       "epoch": 0.03847861476986828,
-      "grad_norm": 18.5,
       "learning_rate": 0.0001984097857063434,
-      "loss": 3.7278,
       "step": 260
     },
     {
       "epoch": 0.039958561491786296,
-      "grad_norm": 17.0,
       "learning_rate": 0.0001981662222093976,
-      "loss": 3.439,
       "step": 270
     },
     {
       "epoch": 0.04143850821370431,
-      "grad_norm": 38.75,
       "learning_rate": 0.00019790548246599447,
-      "loss": 3.1188,
       "step": 280
     },
     {
       "epoch": 0.04291845493562232,
-      "grad_norm": 22.625,
       "learning_rate": 0.00019762761209803927,
-      "loss": 3.7141,
       "step": 290
     },
     {
       "epoch": 0.04439840165754033,
-      "grad_norm": 159.0,
       "learning_rate": 0.0001973326597248006,
-      "loss": 5.2496,
       "step": 300
     },
     {
       "epoch": 0.04587834837945834,
-      "grad_norm": 10.125,
       "learning_rate": 0.00019702067695440332,
-      "loss": 4.0533,
       "step": 310
     },
     {
       "epoch": 0.04735829510137635,
-      "grad_norm": 15.25,
       "learning_rate": 0.00019669171837479873,
-      "loss": 3.5448,
       "step": 320
     },
     {
       "epoch": 0.04883824182329436,
-      "grad_norm": 12.5625,
       "learning_rate": 0.00019634584154421317,
-      "loss": 3.8324,
       "step": 330
     },
     {
       "epoch": 0.050318188545212375,
-      "grad_norm": 36.25,
       "learning_rate": 0.00019598310698107702,
-      "loss": 3.5487,
       "step": 340
     },
     {
       "epoch": 0.05179813526713038,
-      "grad_norm": 32.0,
       "learning_rate": 0.00019560357815343577,
-      "loss": 4.1912,
       "step": 350
     },
     {
       "epoch": 0.0532780819890484,
-      "grad_norm": 10.25,
       "learning_rate": 0.00019520732146784491,
-      "loss": 4.2146,
       "step": 360
     },
     {
       "epoch": 0.054758028710966404,
-      "grad_norm": 21.0,
       "learning_rate": 0.0001947944062577507,
-      "loss": 3.8099,
       "step": 370
     },
     {
       "epoch": 0.05623797543288442,
-      "grad_norm": 26.625,
       "learning_rate": 0.00019436490477135878,
-      "loss": 3.92,
       "step": 380
     },
     {
       "epoch": 0.057717922154802426,
-      "grad_norm": 12.5625,
       "learning_rate": 0.00019391889215899299,
-      "loss": 4.44,
       "step": 390
     },
     {
       "epoch": 0.05919786887672044,
-      "grad_norm": 29.75,
       "learning_rate": 0.0001934564464599461,
-      "loss": 3.639,
       "step": 400
     },
     {
       "epoch": 0.05919786887672044,
-      "eval_loss": 4.839008808135986,
-      "eval_runtime": 162.1793,
-      "eval_samples_per_second": 9.261,
-      "eval_steps_per_second": 4.631,
       "step": 400
     }
   ],

     {
       "epoch": 0.0001479946721918011,
       "eval_loss": 2.158451557159424,
+      "eval_runtime": 117.4597,
+      "eval_samples_per_second": 12.787,
+      "eval_steps_per_second": 6.394,
       "step": 1
     },
     {
       "epoch": 0.001479946721918011,
+      "grad_norm": 17.875,
       "learning_rate": 1.6000000000000003e-05,
+      "loss": 1.876,
       "step": 10
     },
     {
       "epoch": 0.002959893443836022,
+      "grad_norm": 11.9375,
       "learning_rate": 3.2000000000000005e-05,
+      "loss": 1.8982,
       "step": 20
     },
     {
       "epoch": 0.0044398401657540325,
+      "grad_norm": 22.125,
       "learning_rate": 4.8e-05,
+      "loss": 1.6963,
       "step": 30
     },
     {
       "epoch": 0.005919786887672044,
+      "grad_norm": 21.25,
       "learning_rate": 6.400000000000001e-05,
+      "loss": 1.7986,
       "step": 40
     },
     {
       "epoch": 0.007399733609590055,
+      "grad_norm": 26.375,
       "learning_rate": 8e-05,
+      "loss": 1.3725,
       "step": 50
     },
     {
       "epoch": 0.008879680331508065,
+      "grad_norm": 6.9375,
       "learning_rate": 9.6e-05,
+      "loss": 1.9612,
       "step": 60
     },
     {
       "epoch": 0.010359627053426078,
+      "grad_norm": 19.625,
       "learning_rate": 0.00011200000000000001,
+      "loss": 2.0516,
       "step": 70
     },
     {
       "epoch": 0.011839573775344088,
+      "grad_norm": 16.875,
       "learning_rate": 0.00012800000000000002,
+      "loss": 1.5824,
       "step": 80
     },
     {
       "epoch": 0.0133195204972621,
+      "grad_norm": 21.5,
       "learning_rate": 0.000144,
+      "loss": 2.2526,
       "step": 90
     },
     {
       "epoch": 0.01479946721918011,
+      "grad_norm": 85.5,
       "learning_rate": 0.00016,
+      "loss": 2.2656,
       "step": 100
     },
     {
       "epoch": 0.01627941394109812,
+      "grad_norm": 58.25,
       "learning_rate": 0.00017600000000000002,
+      "loss": 2.3181,
       "step": 110
     },
     {
       "epoch": 0.01775936066301613,
+      "grad_norm": 14.25,
       "learning_rate": 0.000192,
+      "loss": 2.4921,
       "step": 120
     },
     {
       "epoch": 0.01923930738493414,
+      "grad_norm": 15.5625,
       "learning_rate": 0.0001999978128380225,
+      "loss": 2.5357,
       "step": 130
     },
     {
       "epoch": 0.020719254106852155,
+      "grad_norm": 23.75,
       "learning_rate": 0.0001999803161162393,
+      "loss": 2.8389,
       "step": 140
     },
     {
       "epoch": 0.022199200828770166,
+      "grad_norm": 115.5,
       "learning_rate": 0.00019994532573409262,
+      "loss": 3.7381,
       "step": 150
     },
     {
       "epoch": 0.023679147550688177,
+      "grad_norm": 17.25,
       "learning_rate": 0.00019989284781388617,
+      "loss": 3.1991,
       "step": 160
     },
     {
       "epoch": 0.025159094272606188,
+      "grad_norm": 19.0,
       "learning_rate": 0.00019982289153773646,
+      "loss": 3.3157,
       "step": 170
     },
     {
       "epoch": 0.0266390409945242,
+      "grad_norm": 11.3125,
       "learning_rate": 0.00019973546914596623,
+      "loss": 3.309,
       "step": 180
     },
     {
       "epoch": 0.02811898771644221,
+      "grad_norm": 105.0,
       "learning_rate": 0.00019963059593496268,
+      "loss": 3.2528,
       "step": 190
     },
     {
       "epoch": 0.02959893443836022,
+      "grad_norm": 137.0,
       "learning_rate": 0.00019950829025450114,
+      "loss": 4.8144,
       "step": 200
     },
     {
       "epoch": 0.02959893443836022,
+      "eval_loss": 4.562154293060303,
+      "eval_runtime": 115.3725,
+      "eval_samples_per_second": 13.019,
+      "eval_steps_per_second": 6.509,
       "step": 200
     },
     {
       "epoch": 0.03107888116027823,
+      "grad_norm": 14.625,
       "learning_rate": 0.0001993685735045343,
+      "loss": 3.9662,
       "step": 210
     },
     {
       "epoch": 0.03255882788219624,
+      "grad_norm": 18.0,
       "learning_rate": 0.0001992114701314478,
+      "loss": 3.1902,
       "step": 220
     },
     {
       "epoch": 0.03403877460411425,
+      "grad_norm": 24.625,
       "learning_rate": 0.000199037007623783,
+      "loss": 3.4792,
       "step": 230
     },
     {
       "epoch": 0.03551872132603226,
+      "grad_norm": 46.0,
       "learning_rate": 0.00019884521650742715,
+      "loss": 3.7192,
       "step": 240
     },
     {
       "epoch": 0.036998668047950274,
+      "grad_norm": 28.0,
       "learning_rate": 0.00019863613034027224,
+      "loss": 3.6487,
       "step": 250
     },
     {
       "epoch": 0.03847861476986828,
+      "grad_norm": 139.0,
       "learning_rate": 0.0001984097857063434,
+      "loss": 4.3462,
       "step": 260
     },
     {
       "epoch": 0.039958561491786296,
+      "grad_norm": 13.875,
       "learning_rate": 0.0001981662222093976,
+      "loss": 3.3132,
       "step": 270
     },
     {
       "epoch": 0.04143850821370431,
+      "grad_norm": 29.5,
       "learning_rate": 0.00019790548246599447,
+      "loss": 3.3523,
       "step": 280
     },
     {
       "epoch": 0.04291845493562232,
+      "grad_norm": 43.75,
       "learning_rate": 0.00019762761209803927,
+      "loss": 3.8529,
       "step": 290
     },
     {
       "epoch": 0.04439840165754033,
+      "grad_norm": 234.0,
       "learning_rate": 0.0001973326597248006,
+      "loss": 4.7306,
       "step": 300
     },
     {
       "epoch": 0.04587834837945834,
+      "grad_norm": 17.625,
       "learning_rate": 0.00019702067695440332,
+      "loss": 4.0088,
       "step": 310
     },
     {
       "epoch": 0.04735829510137635,
+      "grad_norm": 10.0625,
       "learning_rate": 0.00019669171837479873,
+      "loss": 3.4104,
       "step": 320
     },
     {
       "epoch": 0.04883824182329436,
+      "grad_norm": 12.6875,
       "learning_rate": 0.00019634584154421317,
+      "loss": 3.6337,
       "step": 330
     },
     {
       "epoch": 0.050318188545212375,
+      "grad_norm": 16.75,
       "learning_rate": 0.00019598310698107702,
+      "loss": 3.6344,
       "step": 340
     },
     {
       "epoch": 0.05179813526713038,
+      "grad_norm": 21.625,
       "learning_rate": 0.00019560357815343577,
+      "loss": 3.8887,
       "step": 350
     },
     {
       "epoch": 0.0532780819890484,
+      "grad_norm": 8.5625,
       "learning_rate": 0.00019520732146784491,
+      "loss": 3.9023,
       "step": 360
     },
     {
       "epoch": 0.054758028710966404,
+      "grad_norm": 10.625,
       "learning_rate": 0.0001947944062577507,
+      "loss": 3.7002,
       "step": 370
     },
     {
       "epoch": 0.05623797543288442,
+      "grad_norm": 34.25,
       "learning_rate": 0.00019436490477135878,
+      "loss": 3.7505,
       "step": 380
     },
     {
       "epoch": 0.057717922154802426,
+      "grad_norm": 17.75,
       "learning_rate": 0.00019391889215899299,
+      "loss": 3.9776,
       "step": 390
     },
     {
       "epoch": 0.05919786887672044,
+      "grad_norm": 41.25,
       "learning_rate": 0.0001934564464599461,
+      "loss": 3.6903,
       "step": 400
     },
     {
       "epoch": 0.05919786887672044,
+      "eval_loss": 5.192676544189453,
+      "eval_runtime": 115.1721,
+      "eval_samples_per_second": 13.041,
+      "eval_steps_per_second": 6.521,
       "step": 400
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6df7b223289e39c6c6c7e2dd31221e01709ab3598ca49f26f218999f02b35204
 size 6840

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8953c8f78e882c2468a8fd9123e7e01d1ba2fa70223c087509fa59b852ab047
 size 6840