Training in progress, step 11500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6be50dd6f773aa1f48148cbd37fadbc53c1f82b20839270278b093c580fda84d
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef77a091d99ff91eba75355ced068d82754fe09197e0fe3fb0024d4681e880cd
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7a8731c7a1753c2a934fea42dc42bc1494d508ed21f32dcb78a226e403709f0
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:13d127c8a77b3a6f121a1e1766bf489c05dc85af0fb609f9d0474c53a6bbc073
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad1edd41eefae5337989de90c37428566177e0258f6ab839f3f0a3e2bcd645ce
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:657e8f4565cffd7e4abf75f56b2fdcd3ae235671ae9b5c722c485957c12a53d9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62568f1a18857cf8edd17d9d189f58f7644089636cf8dea79c190056990aaec9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:41e2a369098bdc7bbbac32b35b2de9650fe514b2c352f9f563c5554da15cddf2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08220627158880234,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-11000",
-  "epoch": 1.76,
   "eval_steps": 500,
-  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1723,6 +1723,84 @@
       "eval_samples_per_second": 17.1,
       "eval_steps_per_second": 2.138,
       "step": 11000
     }
   ],
   "logging_steps": 50,
@@ -1742,7 +1820,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.358829436928e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08207839727401733,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-11500",
+  "epoch": 1.8399999999999999,
   "eval_steps": 500,
+  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.1,
       "eval_steps_per_second": 2.138,
       "step": 11000
+    },
+    {
+      "epoch": 1.768,
+      "grad_norm": 5123.0029296875,
+      "learning_rate": 1.232e-05,
+      "loss": 0.0562,
+      "step": 11050
+    },
+    {
+      "epoch": 1.776,
+      "grad_norm": 7975.41064453125,
+      "learning_rate": 1.224e-05,
+      "loss": 0.0515,
+      "step": 11100
+    },
+    {
+      "epoch": 1.784,
+      "grad_norm": 5846.47705078125,
+      "learning_rate": 1.216e-05,
+      "loss": 0.054,
+      "step": 11150
+    },
+    {
+      "epoch": 1.792,
+      "grad_norm": 7158.12109375,
+      "learning_rate": 1.2080000000000001e-05,
+      "loss": 0.0577,
+      "step": 11200
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 5405.5224609375,
+      "learning_rate": 1.2e-05,
+      "loss": 0.0538,
+      "step": 11250
+    },
+    {
+      "epoch": 1.808,
+      "grad_norm": 7155.9677734375,
+      "learning_rate": 1.192e-05,
+      "loss": 0.0539,
+      "step": 11300
+    },
+    {
+      "epoch": 1.8159999999999998,
+      "grad_norm": 6886.369140625,
+      "learning_rate": 1.184e-05,
+      "loss": 0.0565,
+      "step": 11350
+    },
+    {
+      "epoch": 1.8239999999999998,
+      "grad_norm": 7139.15283203125,
+      "learning_rate": 1.1760000000000001e-05,
+      "loss": 0.0539,
+      "step": 11400
+    },
+    {
+      "epoch": 1.8319999999999999,
+      "grad_norm": 5965.82666015625,
+      "learning_rate": 1.168e-05,
+      "loss": 0.0587,
+      "step": 11450
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 6557.6708984375,
+      "learning_rate": 1.16e-05,
+      "loss": 0.0552,
+      "step": 11500
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "eval_loss": 0.08207839727401733,
+      "eval_runtime": 116.751,
+      "eval_samples_per_second": 17.13,
+      "eval_steps_per_second": 2.141,
+      "step": 11500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.602412593152e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null