Model save

Browse files

Files changed (5) hide show

README.md +61 -0
all_results.json +9 -0
generation_config.json +7 -0
train_results.json +9 -0
trainer_state.json +357 -0

README.md ADDED Viewed

	@@ -0,0 +1,61 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: TinyLlama/TinyLlama-1.1B-Chat-v1.0
+tags:
+- trl
+- dpo
+- generated_from_trainer
+model-index:
+- name: tinyllama-1.1b-chat-v1.0-ui-math-coding-dpo
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# tinyllama-1.1b-chat-v1.0-ui-math-coding-dpo
+This model is a fine-tuned version of [TinyLlama/TinyLlama-1.1B-Chat-v1.0](https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0) on the None dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-07
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 1024
+- total_eval_batch_size: 128
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+### Framework versions
+- Transformers 4.44.1
+- Pytorch 2.1.2+cu121
+- Datasets 2.21.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9963369963369964,
+    "total_flos": 0.0,
+    "train_loss": 0.4527332771058176,
+    "train_runtime": 5381.1516,
+    "train_samples": 209650,
+    "train_samples_per_second": 38.96,
+    "train_steps_per_second": 0.038
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.44.1"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9963369963369964,
+    "total_flos": 0.0,
+    "train_loss": 0.4527332771058176,
+    "train_runtime": 5381.1516,
+    "train_samples": 209650,
+    "train_samples_per_second": 38.96,
+    "train_steps_per_second": 0.038
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,357 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9963369963369964,
+  "eval_steps": 1000,
+  "global_step": 204,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004884004884004884,
+      "grad_norm": 2.3243459220572165,
+      "learning_rate": 2.3809523809523807e-08,
+      "logits/chosen": -2.550273895263672,
+      "logits/rejected": -2.5806894302368164,
+      "logps/chosen": -424.7008056640625,
+      "logps/rejected": -390.49554443359375,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.04884004884004884,
+      "grad_norm": 2.4712584301903604,
+      "learning_rate": 2.3809523809523806e-07,
+      "logits/chosen": -2.4481005668640137,
+      "logits/rejected": -2.474926471710205,
+      "logps/chosen": -395.8595886230469,
+      "logps/rejected": -384.5038146972656,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.4635416567325592,
+      "rewards/chosen": 0.00013807932555209845,
+      "rewards/margins": 0.0004333473916631192,
+      "rewards/rejected": -0.00029526810976676643,
+      "step": 10
+    },
+    {
+      "epoch": 0.09768009768009768,
+      "grad_norm": 2.318089253747947,
+      "learning_rate": 4.761904761904761e-07,
+      "logits/chosen": -2.445664167404175,
+      "logits/rejected": -2.4723546504974365,
+      "logps/chosen": -393.4665222167969,
+      "logps/rejected": -377.8502197265625,
+      "loss": 0.6905,
+      "rewards/accuracies": 0.67578125,
+      "rewards/chosen": 0.00608012406155467,
+      "rewards/margins": 0.005808630492538214,
+      "rewards/rejected": 0.00027149339439347386,
+      "step": 20
+    },
+    {
+      "epoch": 0.14652014652014653,
+      "grad_norm": 2.5283415680520225,
+      "learning_rate": 4.970219740227693e-07,
+      "logits/chosen": -2.494197368621826,
+      "logits/rejected": -2.5383658409118652,
+      "logps/chosen": -393.2831115722656,
+      "logps/rejected": -383.0456237792969,
+      "loss": 0.6754,
+      "rewards/accuracies": 0.807812511920929,
+      "rewards/chosen": 0.03202961012721062,
+      "rewards/margins": 0.037289537489414215,
+      "rewards/rejected": -0.005259926896542311,
+      "step": 30
+    },
+    {
+      "epoch": 0.19536019536019536,
+      "grad_norm": 2.5364879915405267,
+      "learning_rate": 4.868186180746791e-07,
+      "logits/chosen": -2.5153324604034424,
+      "logits/rejected": -2.5360398292541504,
+      "logps/chosen": -387.1582946777344,
+      "logps/rejected": -379.3692932128906,
+      "loss": 0.647,
+      "rewards/accuracies": 0.8218749761581421,
+      "rewards/chosen": 0.0628650039434433,
+      "rewards/margins": 0.09538714587688446,
+      "rewards/rejected": -0.032522134482860565,
+      "step": 40
+    },
+    {
+      "epoch": 0.2442002442002442,
+      "grad_norm": 2.2699251495146964,
+      "learning_rate": 4.6965306126428705e-07,
+      "logits/chosen": -2.539130449295044,
+      "logits/rejected": -2.5619969367980957,
+      "logps/chosen": -404.4756774902344,
+      "logps/rejected": -406.6902770996094,
+      "loss": 0.5925,
+      "rewards/accuracies": 0.82421875,
+      "rewards/chosen": -0.0003643702657427639,
+      "rewards/margins": 0.2586084008216858,
+      "rewards/rejected": -0.25897279381752014,
+      "step": 50
+    },
+    {
+      "epoch": 0.29304029304029305,
+      "grad_norm": 2.4145672311111994,
+      "learning_rate": 4.460299516441776e-07,
+      "logits/chosen": -2.550515651702881,
+      "logits/rejected": -2.577197551727295,
+      "logps/chosen": -413.14947509765625,
+      "logps/rejected": -442.47674560546875,
+      "loss": 0.5417,
+      "rewards/accuracies": 0.801562488079071,
+      "rewards/chosen": -0.15052883327007294,
+      "rewards/margins": 0.4667808413505554,
+      "rewards/rejected": -0.6173096895217896,
+      "step": 60
+    },
+    {
+      "epoch": 0.3418803418803419,
+      "grad_norm": 2.7821486929434056,
+      "learning_rate": 4.166437820523908e-07,
+      "logits/chosen": -2.5242340564727783,
+      "logits/rejected": -2.5425312519073486,
+      "logps/chosen": -446.6337890625,
+      "logps/rejected": -487.9483337402344,
+      "loss": 0.5011,
+      "rewards/accuracies": 0.8023437261581421,
+      "rewards/chosen": -0.4636126160621643,
+      "rewards/margins": 0.6593486070632935,
+      "rewards/rejected": -1.1229612827301025,
+      "step": 70
+    },
+    {
+      "epoch": 0.3907203907203907,
+      "grad_norm": 2.754390105851781,
+      "learning_rate": 3.8235847280454626e-07,
+      "logits/chosen": -2.4175186157226562,
+      "logits/rejected": -2.449018955230713,
+      "logps/chosen": -507.10357666015625,
+      "logps/rejected": -592.0707397460938,
+      "loss": 0.4575,
+      "rewards/accuracies": 0.80078125,
+      "rewards/chosen": -1.1133525371551514,
+      "rewards/margins": 0.9770663380622864,
+      "rewards/rejected": -2.090418815612793,
+      "step": 80
+    },
+    {
+      "epoch": 0.43956043956043955,
+      "grad_norm": 2.6724675179161568,
+      "learning_rate": 3.4418197340879627e-07,
+      "logits/chosen": -2.409747838973999,
+      "logits/rejected": -2.4172959327697754,
+      "logps/chosen": -507.91876220703125,
+      "logps/rejected": -625.10205078125,
+      "loss": 0.4121,
+      "rewards/accuracies": 0.835156261920929,
+      "rewards/chosen": -1.0922380685806274,
+      "rewards/margins": 1.3621976375579834,
+      "rewards/rejected": -2.4544358253479004,
+      "step": 90
+    },
+    {
+      "epoch": 0.4884004884004884,
+      "grad_norm": 3.151335337005712,
+      "learning_rate": 3.032366299846039e-07,
+      "logits/chosen": -2.4340109825134277,
+      "logits/rejected": -2.4465105533599854,
+      "logps/chosen": -532.0742797851562,
+      "logps/rejected": -683.5274658203125,
+      "loss": 0.3892,
+      "rewards/accuracies": 0.8335937261581421,
+      "rewards/chosen": -1.2753849029541016,
+      "rewards/margins": 1.6482696533203125,
+      "rewards/rejected": -2.923654794692993,
+      "step": 100
+    },
+    {
+      "epoch": 0.5372405372405372,
+      "grad_norm": 2.717335654672678,
+      "learning_rate": 2.6072618954988863e-07,
+      "logits/chosen": -2.4394848346710205,
+      "logits/rejected": -2.442568778991699,
+      "logps/chosen": -518.7210693359375,
+      "logps/rejected": -677.293701171875,
+      "loss": 0.3834,
+      "rewards/accuracies": 0.827343761920929,
+      "rewards/chosen": -1.2031551599502563,
+      "rewards/margins": 1.6999378204345703,
+      "rewards/rejected": -2.903092861175537,
+      "step": 110
+    },
+    {
+      "epoch": 0.5860805860805861,
+      "grad_norm": 3.1603927594667005,
+      "learning_rate": 2.1790041121336222e-07,
+      "logits/chosen": -2.4521875381469727,
+      "logits/rejected": -2.460845470428467,
+      "logps/chosen": -532.1248168945312,
+      "logps/rejected": -704.0490112304688,
+      "loss": 0.3613,
+      "rewards/accuracies": 0.8414062261581421,
+      "rewards/chosen": -1.3992774486541748,
+      "rewards/margins": 1.8053524494171143,
+      "rewards/rejected": -3.204629898071289,
+      "step": 120
+    },
+    {
+      "epoch": 0.6349206349206349,
+      "grad_norm": 2.877029930356179,
+      "learning_rate": 1.7601832466317766e-07,
+      "logits/chosen": -2.4438443183898926,
+      "logits/rejected": -2.462118148803711,
+      "logps/chosen": -540.3773193359375,
+      "logps/rejected": -711.51416015625,
+      "loss": 0.3581,
+      "rewards/accuracies": 0.8453124761581421,
+      "rewards/chosen": -1.4280272722244263,
+      "rewards/margins": 1.8352330923080444,
+      "rewards/rejected": -3.2632603645324707,
+      "step": 130
+    },
+    {
+      "epoch": 0.6837606837606838,
+      "grad_norm": 2.8365028089984454,
+      "learning_rate": 1.3631121611097362e-07,
+      "logits/chosen": -2.4740078449249268,
+      "logits/rejected": -2.487417697906494,
+      "logps/chosen": -546.05859375,
+      "logps/rejected": -727.7886962890625,
+      "loss": 0.3495,
+      "rewards/accuracies": 0.8609374761581421,
+      "rewards/chosen": -1.4827759265899658,
+      "rewards/margins": 1.9239017963409424,
+      "rewards/rejected": -3.4066779613494873,
+      "step": 140
+    },
+    {
+      "epoch": 0.7326007326007326,
+      "grad_norm": 3.083741716442478,
+      "learning_rate": 9.9946429862908e-08,
+      "logits/chosen": -2.462756633758545,
+      "logits/rejected": -2.4654526710510254,
+      "logps/chosen": -549.0475463867188,
+      "logps/rejected": -722.2012329101562,
+      "loss": 0.3454,
+      "rewards/accuracies": 0.8492187261581421,
+      "rewards/chosen": -1.5003674030303955,
+      "rewards/margins": 1.9490848779678345,
+      "rewards/rejected": -3.4494519233703613,
+      "step": 150
+    },
+    {
+      "epoch": 0.7814407814407814,
+      "grad_norm": 3.086204461780561,
+      "learning_rate": 6.799304971075381e-08,
+      "logits/chosen": -2.4620633125305176,
+      "logits/rejected": -2.4670565128326416,
+      "logps/chosen": -539.4750366210938,
+      "logps/rejected": -717.6760864257812,
+      "loss": 0.3426,
+      "rewards/accuracies": 0.859375,
+      "rewards/chosen": -1.4655063152313232,
+      "rewards/margins": 1.9486806392669678,
+      "rewards/rejected": -3.41418719291687,
+      "step": 160
+    },
+    {
+      "epoch": 0.8302808302808303,
+      "grad_norm": 3.152043777770028,
+      "learning_rate": 4.1390469071538175e-08,
+      "logits/chosen": -2.4839229583740234,
+      "logits/rejected": -2.4979355335235596,
+      "logps/chosen": -547.6788940429688,
+      "logps/rejected": -723.7260131835938,
+      "loss": 0.3417,
+      "rewards/accuracies": 0.839062511920929,
+      "rewards/chosen": -1.532496690750122,
+      "rewards/margins": 1.8789927959442139,
+      "rewards/rejected": -3.411489486694336,
+      "step": 170
+    },
+    {
+      "epoch": 0.8791208791208791,
+      "grad_norm": 3.34422267800285,
+      "learning_rate": 2.0920773878248837e-08,
+      "logits/chosen": -2.4812464714050293,
+      "logits/rejected": -2.49059796333313,
+      "logps/chosen": -556.6783447265625,
+      "logps/rejected": -743.0768432617188,
+      "loss": 0.3413,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -1.5343992710113525,
+      "rewards/margins": 2.0101265907287598,
+      "rewards/rejected": -3.5445258617401123,
+      "step": 180
+    },
+    {
+      "epoch": 0.927960927960928,
+      "grad_norm": 3.2655151670502574,
+      "learning_rate": 7.185750133542168e-09,
+      "logits/chosen": -2.473402500152588,
+      "logits/rejected": -2.471391201019287,
+      "logps/chosen": -554.5660400390625,
+      "logps/rejected": -741.9495849609375,
+      "loss": 0.3343,
+      "rewards/accuracies": 0.8539062738418579,
+      "rewards/chosen": -1.5347990989685059,
+      "rewards/margins": 2.0656068325042725,
+      "rewards/rejected": -3.6004059314727783,
+      "step": 190
+    },
+    {
+      "epoch": 0.9768009768009768,
+      "grad_norm": 4.051209744645471,
+      "learning_rate": 5.891920784984184e-10,
+      "logits/chosen": -2.456406354904175,
+      "logits/rejected": -2.4556210041046143,
+      "logps/chosen": -550.1729125976562,
+      "logps/rejected": -737.451904296875,
+      "loss": 0.3391,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.517017126083374,
+      "rewards/margins": 2.044365406036377,
+      "rewards/rejected": -3.561382293701172,
+      "step": 200
+    },
+    {
+      "epoch": 0.9963369963369964,
+      "step": 204,
+      "total_flos": 0.0,
+      "train_loss": 0.4527332771058176,
+      "train_runtime": 5381.1516,
+      "train_samples_per_second": 38.96,
+      "train_steps_per_second": 0.038
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 204,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}