Training in progress, step 20, checkpoint

Browse files

Files changed (11) hide show

last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +18 -144
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f1bd28175fd7513f12729e17ee3571da7edbf57f145604ce22771573d115cc5
 size 4939116424

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebb73bcd3bf64d6b7f6c73f12411aa0002bd1ca75bb1ead942c50abb1c6a3d0c
 size 4939116424

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1e18b7d14aadcdd3ffd84212a90763f05677810d6606b0228ab48fc71aa8693
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c41f1c577edc81dfba0f3ff054e62abf8cd77b5e10c7889383f2a475a793632
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74fed502be8e1cd05be29c5fb4cde46eadd9a078e63d9feccc111a8be0fd8b78
 size 3590619888

 version https://git-lfs.github.com/spec/v1
+oid sha256:05ee7c8fa42eb9f6e68261d8b7c688e67c38f688f5d787e776948b6b4d41c503
 size 3590619888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fd2e81881ebf33c7ad08f1ccd0211e7362bde834184d4d59f2f5bba227a0771
 size 13688025584

 version https://git-lfs.github.com/spec/v1
+oid sha256:96f45ab9d4a18d07fd3cbc3100fcdb3cd6de4c8ab8f76c5f6496ffac4a30b541
 size 13688025584

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f20d155a14d34cd1bb6d04e5de90f3224906e1758821edd752a8f1a9085a2db
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f60241cb6cb86cf9966e8cfe2248be00bce643b5808e2c3b78c9cb618eea253
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad18e870a176ca75a54f6620f83de92bdfd5a91302744d90bff8e5feae2fe0c5
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e76feebe960d60536ad1ed0bcaee2e12a3f8432f33b7ee3b0cae559b12130c0
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9009a52be47b75834407dc5e146ed5360e6f23a35bff27bab34ef6fb47df1661
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f5988c600823ef881ed3900c9909420e69870efab70abf3dca0673a3c88b057
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fb494a08fd57e7c6f63f06826c872164986e81b271996be0496671f713bdcc3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:7090a3c6759641db81e3ee589636615551bb1b7ce0948f2fd4ab7d7beb35de9c
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cd11d413bc67bf01de9a1a006e9e7655be307353028b25f5b3c299e5b6b7a44
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3d7496cd5cad5fcd343f51f06f864ca525a833da3ba71e9c4d90915510423ac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.8518518518518519,
-  "eval_steps": 200,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,165 +11,39 @@
     {
       "epoch": 0.009259259259259259,
       "eval_loss": 2.1662161350250244,
-      "eval_runtime": 32.9047,
-      "eval_samples_per_second": 45.617,
-      "eval_steps_per_second": 5.713,
       "step": 1
     },
     {
       "epoch": 0.09259259259259259,
-      "grad_norm": 2.796875,
       "learning_rate": 6.666666666666667e-05,
-      "loss": 1.8575,
       "step": 10
     },
     {
       "epoch": 0.18518518518518517,
-      "grad_norm": 1.75,
       "learning_rate": 0.00013333333333333334,
-      "loss": 1.8329,
       "step": 20
     },
     {
-      "epoch": 0.2777777777777778,
-      "grad_norm": 2.15625,
-      "learning_rate": 0.0002,
-      "loss": 1.8697,
-      "step": 30
-    },
-    {
-      "epoch": 0.37037037037037035,
-      "grad_norm": 2.0,
-      "learning_rate": 0.00019984815164333163,
-      "loss": 1.9683,
-      "step": 40
-    },
-    {
-      "epoch": 0.46296296296296297,
-      "grad_norm": 1.3046875,
-      "learning_rate": 0.00019939306773179497,
-      "loss": 2.0113,
-      "step": 50
-    },
-    {
-      "epoch": 0.5555555555555556,
-      "grad_norm": 1.5703125,
-      "learning_rate": 0.00019863613034027224,
-      "loss": 2.0568,
-      "step": 60
-    },
-    {
-      "epoch": 0.6481481481481481,
-      "grad_norm": 1.3984375,
-      "learning_rate": 0.00019757963826274357,
-      "loss": 2.1038,
-      "step": 70
-    },
-    {
-      "epoch": 0.7407407407407407,
-      "grad_norm": 1.3203125,
-      "learning_rate": 0.00019622680003092503,
-      "loss": 2.1133,
-      "step": 80
-    },
-    {
-      "epoch": 0.8333333333333334,
-      "grad_norm": 1.421875,
-      "learning_rate": 0.00019458172417006347,
-      "loss": 2.1036,
-      "step": 90
-    },
-    {
-      "epoch": 0.9259259259259259,
-      "grad_norm": 1.453125,
-      "learning_rate": 0.00019264940672148018,
-      "loss": 2.1255,
-      "step": 100
-    },
-    {
-      "epoch": 1.0185185185185186,
-      "grad_norm": 1.3984375,
-      "learning_rate": 0.00019043571606975777,
-      "loss": 1.8837,
-      "step": 110
-    },
-    {
-      "epoch": 1.1111111111111112,
-      "grad_norm": 1.328125,
-      "learning_rate": 0.0001879473751206489,
-      "loss": 0.9892,
-      "step": 120
-    },
-    {
-      "epoch": 1.2037037037037037,
-      "grad_norm": 1.1015625,
-      "learning_rate": 0.00018519194088383273,
-      "loss": 0.9478,
-      "step": 130
-    },
-    {
-      "epoch": 1.2962962962962963,
-      "grad_norm": 1.21875,
-      "learning_rate": 0.0001821777815225245,
-      "loss": 0.9602,
-      "step": 140
-    },
-    {
-      "epoch": 1.3888888888888888,
-      "grad_norm": 1.2265625,
-      "learning_rate": 0.00017891405093963938,
-      "loss": 0.9669,
-      "step": 150
-    },
-    {
-      "epoch": 1.4814814814814814,
-      "grad_norm": 1.1640625,
-      "learning_rate": 0.00017541066097768963,
-      "loss": 0.9945,
-      "step": 160
-    },
-    {
-      "epoch": 1.574074074074074,
-      "grad_norm": 1.1875,
-      "learning_rate": 0.00017167825131684513,
-      "loss": 0.9809,
-      "step": 170
-    },
-    {
-      "epoch": 1.6666666666666665,
-      "grad_norm": 1.078125,
-      "learning_rate": 0.00016772815716257412,
-      "loss": 1.0197,
-      "step": 180
-    },
-    {
-      "epoch": 1.7592592592592593,
-      "grad_norm": 1.2109375,
-      "learning_rate": 0.00016357237482099684,
-      "loss": 1.0018,
-      "step": 190
-    },
-    {
-      "epoch": 1.8518518518518519,
-      "grad_norm": 1.3125,
-      "learning_rate": 0.00015922352526649803,
-      "loss": 1.0298,
-      "step": 200
-    },
-    {
-      "epoch": 1.8518518518518519,
-      "eval_loss": 2.0912892818450928,
-      "eval_runtime": 31.2593,
-      "eval_samples_per_second": 48.018,
-      "eval_steps_per_second": 6.014,
-      "step": 200
     }
   ],
   "logging_steps": 10,
   "max_steps": 600,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 6,
-  "save_steps": 200,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -182,7 +56,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2990695522435072e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.18518518518518517,
+  "eval_steps": 20,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.009259259259259259,
       "eval_loss": 2.1662161350250244,
+      "eval_runtime": 31.2323,
+      "eval_samples_per_second": 48.059,
+      "eval_steps_per_second": 6.019,
       "step": 1
     },
     {
       "epoch": 0.09259259259259259,
+      "grad_norm": 2.140625,
       "learning_rate": 6.666666666666667e-05,
+      "loss": 1.8573,
       "step": 10
     },
     {
       "epoch": 0.18518518518518517,
+      "grad_norm": 1.5390625,
       "learning_rate": 0.00013333333333333334,
+      "loss": 1.8314,
       "step": 20
     },
     {
+      "epoch": 0.18518518518518517,
+      "eval_loss": 1.7036446332931519,
+      "eval_runtime": 27.1456,
+      "eval_samples_per_second": 55.294,
+      "eval_steps_per_second": 6.926,
+      "step": 20
     }
   ],
   "logging_steps": 10,
   "max_steps": 600,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 6,
+  "save_steps": 20,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 1.2990695522435072e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7e4cc380bf07566f66cbd6e04a4bdc7a8bc1f51ced4f92d8dc2abee469a5015
 size 6840

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf9578eae927fa7e14b21d5ac2191f0f8c2650a9abe361eb798e45e9300ff09f
 size 6840