Training in progress, step 200, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +3 -0
last-checkpoint/rng_state_3.pth +3 -0
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +127 -65
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:861ef298194ce5f5a95b7fb9f3de924006083ce8f6c72fe8d11804878d22cf8d
 size 4874664552

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b69510103c86ab6c7d79f2705fcd3bc77def1938ff647a7523546cfaa6d7eb1
 size 4874664552

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37c1108f60a343761b5ac77501f9ccf49e589e8a6d041d69da488eae8b26115a
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:99f48df3f5accdfbdae4f827024db4d1dabfa7cf1d3dd237e8d4c6cbab835ee5
 size 4932751008

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:273aefb95ae0322c1ea6456d07840a68e51e7b149e3a956ddfd8f8329c4d22f2
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:464a609182441fb88482d5a7a508cf91905e87e8d57b74fbf74ed4610d98783e
 size 4330865200

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0ef8a492aafc49d33deb349f2977b2c19503213b78477921a2921a786f30786
 size 1086998656

 version https://git-lfs.github.com/spec/v1
+oid sha256:58e53b04f20e02489ca57de06513f0a94a759f82223847010fa4abd53f07e10b
 size 1086998656

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c60b475db0734986c42539b6a749e4d2824c9876d9e2050469711b4b0de5a01f
 size 15465450874

 version https://git-lfs.github.com/spec/v1
+oid sha256:c86931acc77817b6206577a3a39862adf7debd3891af1002261268d4e9e1acef
 size 15465450874

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f105b50093489fd740a8f6602ddfe873d388d5a0db4242d627bbb8ba93713d73
-size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:69a04a1208f7a0d6f51f37a136b5c2e55bf3f53b3d0fd57164c5b83ca47a2645
+size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ac67ce68566e593180659981e408823cfcf7642579fefd1cbac723e565bb9c8
-size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:080a7e72d6be938a9418e60003db90412af8a61e6434f9e9f1b598cca861dbcd
+size 15024

last-checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3d114a75d37be476b865187eb2b3d29d9343b131614a08f42be0014f110ce6f
+size 15024

last-checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fc5a0f78838743362c5d5378dff81ea2f7d0039da53a423f1759e861bc6b233
+size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43a0c31b135429597fb4601695aee5de28b0f5fb6a2c4e45d278a9e4001d0c26
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:86aa1c590799d718328ad7b7198db3fa4678198705c85eb25b7f257d9e38e2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,113 +1,175 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5235602094240838,
-  "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.005235602094240838,
-      "eval_loss": 2.384796619415283,
-      "eval_runtime": 62.0394,
-      "eval_samples_per_second": 24.194,
-      "eval_steps_per_second": 6.061,
       "step": 1
     },
     {
-      "epoch": 0.05235602094240838,
-      "grad_norm": 5.15625,
-      "learning_rate": 3.6363636363636364e-05,
-      "loss": 1.9242,
       "step": 10
     },
     {
-      "epoch": 0.10471204188481675,
-      "grad_norm": 4.59375,
-      "learning_rate": 7.272727272727273e-05,
-      "loss": 1.845,
       "step": 20
     },
     {
-      "epoch": 0.15706806282722513,
-      "grad_norm": 3.484375,
-      "learning_rate": 0.00010909090909090909,
-      "loss": 1.8311,
       "step": 30
     },
     {
-      "epoch": 0.2094240837696335,
-      "grad_norm": 3.390625,
-      "learning_rate": 0.00014545454545454546,
-      "loss": 2.0034,
       "step": 40
     },
     {
-      "epoch": 0.2617801047120419,
-      "grad_norm": 3.59375,
-      "learning_rate": 0.00018181818181818183,
-      "loss": 2.2024,
-      "step": 50
-    },
-    {
-      "epoch": 0.2617801047120419,
-      "eval_loss": 2.1606948375701904,
-      "eval_runtime": 60.3553,
-      "eval_samples_per_second": 24.869,
-      "eval_steps_per_second": 6.23,
       "step": 50
     },
     {
-      "epoch": 0.31413612565445026,
-      "grad_norm": 3.71875,
-      "learning_rate": 0.00019998870284726968,
-      "loss": 2.4031,
       "step": 60
     },
     {
-      "epoch": 0.36649214659685864,
-      "grad_norm": 3.359375,
-      "learning_rate": 0.00019989834093992945,
-      "loss": 2.5623,
       "step": 70
     },
     {
-      "epoch": 0.418848167539267,
-      "grad_norm": 3.578125,
-      "learning_rate": 0.00019971769878721743,
-      "loss": 2.734,
       "step": 80
     },
     {
-      "epoch": 0.4712041884816754,
-      "grad_norm": 3.21875,
-      "learning_rate": 0.00019944693963927092,
-      "loss": 2.7436,
       "step": 90
     },
     {
-      "epoch": 0.5235602094240838,
-      "grad_norm": 5.75,
-      "learning_rate": 0.00019908630818686338,
-      "loss": 2.8422,
       "step": 100
     },
     {
-      "epoch": 0.5235602094240838,
-      "eval_loss": 2.754179000854492,
-      "eval_runtime": 57.9266,
-      "eval_samples_per_second": 25.912,
-      "eval_steps_per_second": 6.491,
-      "step": 100
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 6,
-  "save_steps": 50,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -120,7 +182,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.474614315384832e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.1052631578947367,
+  "eval_steps": 200,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.010526315789473684,
+      "eval_loss": 2.373548746109009,
+      "eval_runtime": 30.8211,
+      "eval_samples_per_second": 48.7,
+      "eval_steps_per_second": 6.1,
       "step": 1
     },
     {
+      "epoch": 0.10526315789473684,
+      "grad_norm": 4.1875,
+      "learning_rate": 8e-05,
+      "loss": 1.916,
       "step": 10
     },
     {
+      "epoch": 0.21052631578947367,
+      "grad_norm": 3.21875,
+      "learning_rate": 0.00016,
+      "loss": 1.8779,
       "step": 20
     },
     {
+      "epoch": 0.3157894736842105,
+      "grad_norm": 2.515625,
+      "learning_rate": 0.00019994532573409262,
+      "loss": 2.1362,
       "step": 30
     },
     {
+      "epoch": 0.42105263157894735,
+      "grad_norm": 2.296875,
+      "learning_rate": 0.00019950829025450114,
+      "loss": 2.3736,
       "step": 40
     },
     {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 3.15625,
+      "learning_rate": 0.00019863613034027224,
+      "loss": 2.4914,
       "step": 50
     },
     {
+      "epoch": 0.631578947368421,
+      "grad_norm": 2.46875,
+      "learning_rate": 0.0001973326597248006,
+      "loss": 2.5562,
       "step": 60
     },
     {
+      "epoch": 0.7368421052631579,
+      "grad_norm": 3.953125,
+      "learning_rate": 0.00019560357815343577,
+      "loss": 2.7778,
       "step": 70
     },
     {
+      "epoch": 0.8421052631578947,
+      "grad_norm": 4.5625,
+      "learning_rate": 0.0001934564464599461,
+      "loss": 2.6995,
       "step": 80
     },
     {
+      "epoch": 0.9473684210526315,
+      "grad_norm": 17.0,
+      "learning_rate": 0.00019090065350491626,
+      "loss": 2.619,
       "step": 90
     },
     {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 2.65625,
+      "learning_rate": 0.0001879473751206489,
+      "loss": 1.9637,
       "step": 100
     },
     {
+      "epoch": 1.1578947368421053,
+      "grad_norm": 2.15625,
+      "learning_rate": 0.00018460952524209355,
+      "loss": 1.1648,
+      "step": 110
+    },
+    {
+      "epoch": 1.263157894736842,
+      "grad_norm": 1.8125,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 1.2698,
+      "step": 120
+    },
+    {
+      "epoch": 1.368421052631579,
+      "grad_norm": 2.265625,
+      "learning_rate": 0.00017684011108568592,
+      "loss": 1.2703,
+      "step": 130
+    },
+    {
+      "epoch": 1.4736842105263157,
+      "grad_norm": 2.1875,
+      "learning_rate": 0.00017244252047910892,
+      "loss": 1.3674,
+      "step": 140
+    },
+    {
+      "epoch": 1.5789473684210527,
+      "grad_norm": 2.0625,
+      "learning_rate": 0.00016772815716257412,
+      "loss": 1.3329,
+      "step": 150
+    },
+    {
+      "epoch": 1.6842105263157894,
+      "grad_norm": 2.90625,
+      "learning_rate": 0.0001627176358473537,
+      "loss": 1.3702,
+      "step": 160
+    },
+    {
+      "epoch": 1.7894736842105263,
+      "grad_norm": 2.078125,
+      "learning_rate": 0.00015743286626829437,
+      "loss": 1.3481,
+      "step": 170
+    },
+    {
+      "epoch": 1.8947368421052633,
+      "grad_norm": 2.1875,
+      "learning_rate": 0.00015189695737812152,
+      "loss": 1.4838,
+      "step": 180
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.046875,
+      "learning_rate": 0.0001461341162978688,
+      "loss": 1.3654,
+      "step": 190
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "grad_norm": 1.4765625,
+      "learning_rate": 0.00014016954246529696,
+      "loss": 0.517,
+      "step": 200
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "eval_loss": 3.045600652694702,
+      "eval_runtime": 29.0213,
+      "eval_samples_per_second": 51.721,
+      "eval_steps_per_second": 6.478,
+      "step": 200
     }
   ],
   "logging_steps": 10,
+  "max_steps": 500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 6,
+  "save_steps": 200,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 1.3898457261539328e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32a7a8613e5fa3317cdc198f56f6d0577b15eb3e0cf0efd4aa72ac710a8260e0
 size 6968

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d11551a59df892a04244070ff3f59b02e2dcaa3eb1aab844864a42113437689
 size 6968