Training in progress, step 5600, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/README.md +7 -114
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +30 -2
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -286,9 +286,9 @@ print(embeddings.shape)
 # Get the similarity scores for the embeddings
 similarities = model.similarity(embeddings, embeddings)
 print(similarities)
-# tensor([[1.0000, 0.6268, 0.1112],
-#         [0.6268, 1.0000, 0.1476],
-#         [0.1112, 0.1476, 1.0000]])
 ```
 <!--
@@ -1222,120 +1222,13 @@ You can finetune this model on your own dataset.
 </details>
 ### Training Logs
-<details><summary>Click to expand</summary>
 | Epoch  | Step | Training Loss |
 |:------:|:----:|:-------------:|
-| 0.0009 | 50   | 1.3738        |
-| 0.0018 | 100  | 1.1661        |
-| 0.0027 | 150  | 1.2107        |
-| 0.0035 | 200  | 0.9855        |
-| 0.0044 | 250  | 0.9431        |
-| 0.0053 | 300  | 0.8566        |
-| 0.0062 | 350  | 0.8697        |
-| 0.0071 | 400  | 0.8099        |
-| 0.0080 | 450  | 0.766         |
-| 0.0088 | 500  | 0.7402        |
-| 0.0097 | 550  | 0.8769        |
-| 0.0106 | 600  | 0.6827        |
-| 0.0115 | 650  | 0.7252        |
-| 0.0124 | 700  | 0.7701        |
-| 0.0133 | 750  | 0.7525        |
-| 0.0141 | 800  | 0.7097        |
-| 0.0150 | 850  | 0.7575        |
-| 0.0159 | 900  | 0.6899        |
-| 0.0168 | 950  | 0.6655        |
-| 0.0177 | 1000 | 0.6601        |
-| 0.0186 | 1050 | 0.6925        |
-| 0.0194 | 1100 | 0.6169        |
-| 0.0203 | 1150 | 0.6367        |
-| 0.0212 | 1200 | 0.615         |
-| 0.0221 | 1250 | 0.6869        |
-| 0.0230 | 1300 | 0.7527        |
-| 0.0239 | 1350 | 0.6124        |
-| 0.0247 | 1400 | 0.6511        |
-| 0.0256 | 1450 | 0.7047        |
-| 0.0265 | 1500 | 0.6639        |
-| 0.0274 | 1550 | 0.6795        |
-| 0.0283 | 1600 | 0.6341        |
-| 0.0292 | 1650 | 0.6031        |
-| 0.0300 | 1700 | 0.5959        |
-| 0.0309 | 1750 | 0.6412        |
-| 0.0318 | 1800 | 0.5065        |
-| 0.0327 | 1850 | 0.5611        |
-| 0.0336 | 1900 | 0.5298        |
-| 0.0345 | 1950 | 0.5759        |
-| 0.0353 | 2000 | 0.5782        |
-| 0.0362 | 2050 | 0.5221        |
-| 0.0371 | 2100 | 0.5966        |
-| 0.0380 | 2150 | 0.5989        |
-| 0.0389 | 2200 | 0.5097        |
-| 0.0398 | 2250 | 0.4934        |
-| 0.0406 | 2300 | 0.5354        |
-| 0.0415 | 2350 | 0.5236        |
-| 0.0424 | 2400 | 0.5057        |
-| 0.0433 | 2450 | 0.5448        |
-| 0.0442 | 2500 | 0.5418        |
-| 0.0451 | 2550 | 0.5944        |
-| 0.0459 | 2600 | 0.4945        |
-| 0.0468 | 2650 | 0.5225        |
-| 0.0477 | 2700 | 0.5661        |
-| 0.0486 | 2750 | 0.6125        |
-| 0.0495 | 2800 | 0.5105        |
-| 0.0504 | 2850 | 0.5893        |
-| 0.0512 | 2900 | 0.545         |
-| 0.0521 | 2950 | 0.5299        |
-| 0.0530 | 3000 | 0.5186        |
-| 0.0539 | 3050 | 0.5259        |
-| 0.0548 | 3100 | 0.6663        |
-| 0.0557 | 3150 | 0.5152        |
-| 0.0565 | 3200 | 0.5417        |
-| 0.0574 | 3250 | 0.5039        |
-| 0.0583 | 3300 | 0.4647        |
-| 0.0592 | 3350 | 0.4652        |
-| 0.0601 | 3400 | 0.4914        |
-| 0.0610 | 3450 | 0.5449        |
-| 0.0618 | 3500 | 0.5072        |
-| 0.0627 | 3550 | 0.5639        |
-| 0.0636 | 3600 | 0.4729        |
-| 0.0645 | 3650 | 0.6047        |
-| 0.0654 | 3700 | 0.5369        |
-| 0.0663 | 3750 | 0.5014        |
-| 0.0671 | 3800 | 0.5128        |
-| 0.0680 | 3850 | 0.5345        |
-| 0.0689 | 3900 | 0.479         |
-| 0.0698 | 3950 | 0.5652        |
-| 0.0707 | 4000 | 0.5272        |
-| 0.0716 | 4050 | 0.4904        |
-| 0.0724 | 4100 | 0.4755        |
-| 0.0733 | 4150 | 0.4897        |
-| 0.0742 | 4200 | 0.4679        |
-| 0.0751 | 4250 | 0.4712        |
-| 0.0760 | 4300 | 0.4779        |
-| 0.0769 | 4350 | 0.4463        |
-| 0.0778 | 4400 | 0.4917        |
-| 0.0786 | 4450 | 0.5572        |
-| 0.0795 | 4500 | 0.4553        |
-| 0.0804 | 4550 | 0.4598        |
-| 0.0813 | 4600 | 0.5445        |
-| 0.0822 | 4650 | 0.4537        |
-| 0.0831 | 4700 | 0.5158        |
-| 0.0839 | 4750 | 0.4598        |
-| 0.0848 | 4800 | 0.4662        |
-| 0.0857 | 4850 | 0.459         |
-| 0.0866 | 4900 | 0.4275        |
-| 0.0875 | 4950 | 0.5575        |
-| 0.0884 | 5000 | 0.4197        |
-| 0.0892 | 5050 | 0.4525        |
-| 0.0901 | 5100 | 0.4469        |
-| 0.0910 | 5150 | 0.5283        |
-| 0.0919 | 5200 | 0.4826        |
-| 0.0928 | 5250 | 0.3895        |
-| 0.0937 | 5300 | 0.4873        |
-| 0.0945 | 5350 | 0.4895        |
-| 0.0954 | 5400 | 0.4686        |
-</details>
 ### Framework Versions
 - Python: 3.12.11

 # Get the similarity scores for the embeddings
 similarities = model.similarity(embeddings, embeddings)
 print(similarities)
+# tensor([[1.0000, 0.6467, 0.1007],
+#         [0.6467, 1.0000, 0.1513],
+#         [0.1007, 0.1513, 1.0000]])
 ```
 <!--
 </details>
 ### Training Logs
 | Epoch  | Step | Training Loss |
 |:------:|:----:|:-------------:|
+| 0.0963 | 5450 | 0.4723        |
+| 0.0972 | 5500 | 0.5258        |
+| 0.0981 | 5550 | 0.4851        |
+| 0.0990 | 5600 | 0.5311        |
 ### Framework Versions
 - Python: 3.12.11

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a7b3038038d614d02d13200e3426ce1cee9998e3dd720f3ef8373fd32bc320c
 size 90864192

 version https://git-lfs.github.com/spec/v1
+oid sha256:eea0a03b98d68b9630385779c8a8c7e0b7214aab3d11108ff4a7dee8e11165e6
 size 90864192

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da23c5a242ed1a18ccfa540abf270f8af47081a60b90b0528855f1e52bf8ac00
 size 180609611

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5970c5e57ca0ba681567ef6a04ad48dff25e78f70e37dc99bc3e34cce512849
 size 180609611

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43b1cabcf4d622f4eeb0e2e256d17e427254b320b0d958e0925925fc3965ffc2
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:4cd91aca617b42354ae34eacd85892c172326b446d2385efb45fce4e2caab955
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93d3edcb87fa33fd6a7048f57178907c582fac7657ef4f6ed7cd1a489f3a9b01
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:a63ba06faceabc247ab7f188765454cd84997a1b39e86a5bcd485fb8077cf90a
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cde96e015f065de3d9994d1a7735820057fec16cad19c67655b731af60c92ecc
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:28df4acdedad4efa6e4629443faf92ab7af434a0b458c6b8097068d89b1dbe79
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.095421533459384,
   "eval_steps": 500,
-  "global_step": 5400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -764,6 +764,34 @@
       "learning_rate": 4.769434628975265e-05,
       "loss": 0.4686,
       "step": 5400
     }
   ],
   "logging_steps": 50,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.09895566432825008,
   "eval_steps": 500,
+  "global_step": 5600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.769434628975265e-05,
       "loss": 0.4686,
       "step": 5400
+    },
+    {
+      "epoch": 0.09630506617660052,
+      "grad_norm": 2.2319257259368896,
+      "learning_rate": 4.8136042402826856e-05,
+      "loss": 0.4723,
+      "step": 5450
+    },
+    {
+      "epoch": 0.09718859889381704,
+      "grad_norm": 2.2340879440307617,
+      "learning_rate": 4.857773851590106e-05,
+      "loss": 0.5258,
+      "step": 5500
+    },
+    {
+      "epoch": 0.09807213161103355,
+      "grad_norm": 3.2808139324188232,
+      "learning_rate": 4.901943462897527e-05,
+      "loss": 0.4851,
+      "step": 5550
+    },
+    {
+      "epoch": 0.09895566432825008,
+      "grad_norm": 2.4828484058380127,
+      "learning_rate": 4.946113074204947e-05,
+      "loss": 0.5311,
+      "step": 5600
     }
   ],
   "logging_steps": 50,

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5a2600b2df7b8aa86e9a368609e29900445ebc9cdf1eaf37dde9ffa01ded762
 size 6097

 version https://git-lfs.github.com/spec/v1
+oid sha256:86bf969bd16bf2be7e7bcd2ab22f5624b04e88153ec953d1f322a51c17cc5ce6
 size 6097