Model save

Browse files

Files changed (9) hide show

README.md +13 -16
all_results.json +4 -4
config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +39 -8
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -3,16 +3,10 @@ library_name: transformers
 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
-- alignment-handbook
-- trl
-- dpo
-- generated_from_trainer
 - trl
 - dpo
 - alignment-handbook
 - generated_from_trainer
-datasets:
-- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: zephyr-7b-align-scan
   results: []
@@ -23,17 +17,17 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-align-scan
-This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6700
-- Rewards/chosen: 0.0017
-- Rewards/rejected: -0.0506
-- Rewards/accuracies: 0.3155
-- Rewards/margins: 0.0522
-- Logps/rejected: -86.1855
-- Logps/chosen: -74.3248
-- Logits/rejected: -2.4181
-- Logits/chosen: -2.4359
 ## Model description
@@ -68,6 +62,9 @@ The following hyperparameters were used during training:
 ### Training results
 ### Framework versions

 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
 - trl
 - dpo
 - alignment-handbook
 - generated_from_trainer
 model-index:
 - name: zephyr-7b-align-scan
   results: []
 # zephyr-7b-align-scan
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Logits/chosen: -2.4391
+- Logits/rejected: -2.4211
+- Logps/chosen: -77.9509
+- Logps/rejected: -90.5673
+- Loss: 3.3938
+- Rewards/accuracies: 0.3234
+- Rewards/chosen: -3.1108
+- Rewards/margins: 5.3764
+- Rewards/rejected: -8.4871
 ## Model description
 ### Training results
+| Training Loss | Epoch  | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
+|:-------------:|:------:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
+| 1.6705        | 1.0417 | 100  | -2.4391       | -2.4211         | -77.9509     | -90.5673       | 3.3938          | 0.3234             | -3.1108        | 5.3764          | -8.4871          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-    "epoch": 1.0,
     "eval_logits/chosen": -2.4359169006347656,
     "eval_logits/rejected": -2.4180893898010254,
     "eval_logps/chosen": -74.32483673095703,
@@ -15,8 +15,8 @@
     "eval_steps_per_second": 0.552,
     "total_flos": 0.0,
     "train_loss": 0.0,
-    "train_runtime": 0.0351,
     "train_samples": 6113,
-    "train_samples_per_second": 173972.916,
-    "train_steps_per_second": 2732.112
 }

 {
+    "epoch": 1.0416666666666667,
     "eval_logits/chosen": -2.4359169006347656,
     "eval_logits/rejected": -2.4180893898010254,
     "eval_logps/chosen": -74.32483673095703,
     "eval_steps_per_second": 0.552,
     "total_flos": 0.0,
     "train_loss": 0.0,
+    "train_runtime": 0.0379,
     "train_samples": 6113,
+    "train_samples_per_second": 161198.692,
+    "train_steps_per_second": 2531.502
 }

config.json CHANGED Viewed

@@ -22,6 +22,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.2",
-  "use_cache": true,
   "vocab_size": 32000
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.2",
+  "use_cache": false,
   "vocab_size": 32000
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94582ef6c6b515be1bfd492df25f84691ac9f418d9020c68257a2c87fc341059
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:88b5ac76b6cc07a642f83a417750e35b946bf41af4727ae2e4fc1d1a3fde0389
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:670bd034809ee8e2333e07eedb121a23c2f70abd3462105f685a15bc714b5cce
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:1621a6f0e65a4e21ad912dc08ba5cf2a25455a7ea9ccf7eb9d243063ee710c7e
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f5888382b4331aaa5c5f69e91f05f7b73f63b929dda9d3b88142d71451b0e39
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7896c037cdbcbb78d2c6b86cc26d75e858ccacae61ff33f2fb02bdb60226574
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.0,
     "total_flos": 0.0,
     "train_loss": 0.0,
-    "train_runtime": 0.0351,
     "train_samples": 6113,
-    "train_samples_per_second": 173972.916,
-    "train_steps_per_second": 2732.112
 }

 {
+    "epoch": 1.0416666666666667,
     "total_flos": 0.0,
     "train_loss": 0.0,
+    "train_runtime": 0.0379,
     "train_samples": 6113,
+    "train_samples_per_second": 161198.692,
+    "train_steps_per_second": 2531.502
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 100,
-  "global_step": 96,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -159,13 +159,44 @@
       "step": 90
     },
     {
-      "epoch": 1.0,
-      "step": 96,
       "total_flos": 0.0,
       "train_loss": 0.0,
-      "train_runtime": 0.0351,
-      "train_samples_per_second": 173972.916,
-      "train_steps_per_second": 2732.112
     }
   ],
   "logging_steps": 10,
@@ -180,7 +211,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0416666666666667,
   "eval_steps": 100,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 90
     },
     {
+      "epoch": 1.0416666666666667,
+      "grad_norm": 737.5513177463773,
+      "learning_rate": 2.6744186046511626e-07,
+      "logits/chosen": -2.4184558391571045,
+      "logits/rejected": -2.387362480163574,
+      "logps/chosen": -67.42814636230469,
+      "logps/rejected": -77.54327392578125,
+      "loss": 1.6705,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 5.45920467376709,
+      "rewards/margins": 15.010032653808594,
+      "rewards/rejected": -9.550827980041504,
+      "step": 100
+    },
+    {
+      "epoch": 1.0416666666666667,
+      "eval_logits/chosen": -2.4391345977783203,
+      "eval_logits/rejected": -2.421090841293335,
+      "eval_logps/chosen": -77.95087432861328,
+      "eval_logps/rejected": -90.56730651855469,
+      "eval_loss": 3.3937504291534424,
+      "eval_rewards/accuracies": 0.32341268658638,
+      "eval_rewards/chosen": -3.110783576965332,
+      "eval_rewards/margins": 5.376364707946777,
+      "eval_rewards/rejected": -8.487147331237793,
+      "eval_runtime": 114.9559,
+      "eval_samples_per_second": 17.398,
+      "eval_steps_per_second": 0.548,
+      "step": 100
+    },
+    {
+      "epoch": 1.0416666666666667,
+      "step": 100,
       "total_flos": 0.0,
       "train_loss": 0.0,
+      "train_runtime": 0.0379,
+      "train_samples_per_second": 161198.692,
+      "train_steps_per_second": 2531.502
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb70819aff50f0f5d14361d26da420675d5f923ff9f30acb45f090d98f2c96fa
 size 7544

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e6a807ea3e83faaf40677a6b14fc582b840706e660e7fd05eff913967b3f7aa
 size 7544